|
|
1
2
基本上,您将把字符串分类。因此,您将使用分类器。但您将不仅仅使用一个分类器,而是测试多个分类器并选择最准确的分类器。 然而,首先,你必须考虑每个url的特性。我希望,如果您只是将url作为字符串和唯一的功能提供,那么您将不会获得很高的准确性。 相反,您将预处理每个url以提取特征。相关/有用功能的选择在很大程度上取决于领域。功能可以是: 简单的功能
复杂的特征 假设您为每个集群定义关键字,例如“在线购物”集群,您将定义[promo、buy、shop、sell、price],然后您可以计算每个集群的字符串中出现的关键字数量,作为一个特性 因此,您必须首先继续 特征工程 其次与分类器性能进行了比较。 其他输入: Similiar question on SO (regarding URL features) Fast Webpage Classification Using URL Features 编辑:示例
更多解决方案来自 here 通过 Eiyrioü von Kauyf
然而,所有这些示例都是非常简单的功能,不包括URL的语义内容。根据目标变量(集群)的深度/复杂程度,您可能需要使用基于n-gram的功能,例如 here |