代码之家  ›  专栏  ›  技术社区  ›  user2007237

将网页转换为用于Weka分类的ARFF文件

  •  0
  • user2007237  · 技术社区  · 12 年前

    我想用weka对10个网页进行分类。 如何将网页转换为Weka的ARFF文件格式? 我需要将所有10页转换为一个ARFF文件吗 我是否需要为每个网页转换ARFF文件,即10个ARFF文件。

    1 回复  |  直到 12 年前
        1
  •  2
  •   Jose Maria Gomez Hidalgo    12 年前

    假设您希望保留HTML格式,那么这是相对容易的。只需将HTML文件放在单独的文件夹/目录中(每个目录都是一个类),然后应用 TextDirectoryLoader 转换器,如 Text categorization with WEKA 辅导的

    例如,假设您有两个类,那么您应该做的(并使用此过程)是一个ARFF文件,每个文件有一个实例,并且每个文件的文本都包含在文本属性的单个字段(属性值)中,以及类(目录名)。然后,您可以使用StringToWordVector过滤器将文档转换为术语向量并执行分类。

    推荐文章