|
1
2
假设您希望保留HTML格式,那么这是相对容易的。只需将HTML文件放在单独的文件夹/目录中(每个目录都是一个类),然后应用
例如,假设您有两个类,那么您应该做的(并使用此过程)是一个ARFF文件,每个文件有一个实例,并且每个文件的文本都包含在文本属性的单个字段(属性值)中,以及类(目录名)。然后,您可以使用StringToWordVector过滤器将文档转换为术语向量并执行分类。 |
|
|
Sean · 用于网站分类的简单机器学习 8 年前 |
|
|
Petr Petrov · Python:将文本分类 9 年前 |
|
|
sfogle · 一对一匹配标签进行文本分类 9 年前 |
|
|
Jason · 在Python Vader情感中添加特例习语 10 年前 |
|
|
user2007237 · 将网页转换为用于Weka分类的ARFF文件 12 年前 |