|
1
2
假设您希望保留HTML格式,那么这是相对容易的。只需将HTML文件放在单独的文件夹/目录中(每个目录都是一个类),然后应用
例如,假设您有两个类,那么您应该做的(并使用此过程)是一个ARFF文件,每个文件有一个实例,并且每个文件的文本都包含在文本属性的单个字段(属性值)中,以及类(目录名)。然后,您可以使用StringToWordVector过滤器将文档转换为术语向量并执行分类。 |