代码之家  ›  专栏  ›  技术社区  ›  Arnkrishn

数据挖掘开源工具[关闭]

  •  26
  • Arnkrishn  · 技术社区  · 16 年前

    我将从事一个数据挖掘项目。在我开始之前,我想探索不同的数据挖掘工具(最好是开源的),它允许基于web的报告。在我的场景中,数据会提供给我,所以我不应该爬行。

    简而言之,我正在寻找一种工具,它可以提供数据分析、基于Web的报告、某种仪表板和挖掘功能。

    我在微软分析服务和BOXI上工作过,最近我一直在寻找Pentaho,这似乎是一个不错的选择。

    请分享您对任何此类工具的经验。

    干杯

    20 回复  |  直到 14 年前
        1
  •  12
  •   Alix Axel    16 年前

    我相信WEKA是最好的开源DM软件。

    检查一下: http://www.cs.waikato.ac.nz/ml/weka/

        2
  •  9
  •   ybakos    14 年前

    Weka很棒,但你可能想试试Orange数据挖掘工具包。

    http://www.ailab.si/orange/

    编辑: 从2010年11月开始,我必须说我真的很喜欢 KNIME .

        3
  •  5
  •   Shane    15 年前

    R 有很多与数据挖掘相关的优秀软件包。尤其要注意:

    它还与Weka有联系( see the RWeka package ).而且它可以与任何一个集成。Net(通过COM)或Python(通过RPy或RPy2)。

    我同意Pentaho作为一个报告平台,尽管这是一个非常大的项目,取决于你使用它的目的。

        4
  •  5
  •   random.bit    15 年前

    你也应该去看看 Apache Mahout 。它对于一些大规模的机器学习任务(如用户聚类)非常有用。

        5
  •  5
  •   Andrei Sfat systemfreund    14 年前

    RapidMiner 是我首选的数据挖掘工具。

        6
  •  3
  •   mariana soffer    14 年前

    我会尝试新的谷歌工具。

    -首先,您需要获取google存储的api id,这是存储和操作要分析的数据的地方。

    -然后你需要获得谷歌预测api的api id(http://code.google.com/apis/predict/docs/getting-started.html)就我所见,它是一个很棒的外包数据挖掘处理器。预测API允许您从数据中获取更多信息,并使其模式更易于访问。除了使用传统的数字和名义数据外,您还可以使用文本数据,由于这个api,这些数据可以被用来按语言对电子邮件进行分类。

    -最后,您可以使用bigQuery,它将允许您执行特别分析、标准化报告、数据探索应用程序原型(http://code.google.com/apis/bigquery/)

        7
  •  3
  •   aliassaila Antxon    13 年前

    龙骨( http://keel.es )是用Java编写的,非常适合将进化计算用于数据挖掘。

        8
  •  2
  •   WeShallOvercome    15 年前

    看看JMLR维护的机器学习开源软件列表。 你可以在这里找到它:

    http://mloss.org/software/

    http://jmlr.csail.mit.edu/mloss/

    它们代表着最先进的技术!

    我对Weka的看法是,其中的一些算法已经过时。

        9
  •  2
  •   mariana soffer    14 年前

    我相信RapidMiner是一个优秀的工具,应该被添加到这个列表中。

        10
  •  2
  •   codious    13 年前

    WEKA(已经提到), 橙色的(http://orange.biolab.si/), 塔纳格拉(http://data-mining-tutorials.blogspot.com)你可以在那里找到很好的教程。

    是非常好的数据挖掘工具。

        11
  •  2
  •   Phil    10 年前

    你可以检查我的软件 SPMF data mining framework .

    它是一款开源Java软件,提供70多种算法:

    • 频繁的项目集挖掘,
    • 关联规则挖掘,
    • 序列模式挖掘
    • 顺序规则挖掘。
    • 还有更多。。
        12
  •  1
  •   Pascal Thivent    15 年前

    Pentaho 这是一个非常专业的解决方案。绝对是个不错的选择。

        13
  •  1
  •   sashaeve    15 年前

    你可以看看 Data Mining SDK 以及它的 blog .

        14
  •  1
  •   Datakid    15 年前

    下面列出了一些开源数据挖掘工具: http://dataminingtools.net/browse.php

        15
  •  1
  •   crowne    15 年前
        16
  •  1
  •   radek    15 年前

    我相信 KNIME 也应该加入这个名单。

        17
  •  1
  •   Has QUIT--Anony-Mousse    13 年前

    Weka在分类和/或机器学习方面很强大。对许多人来说,这更多地被认为是人工智能的一部分,而不是实际的数据挖掘。RapidMiner基本上是沿着相同的路线,但有更好的用户界面。Pentaho是Weka AFAICT的专业支持。

    你可能想看看ELKI, http://elki.dbs.ifi.lmu.de/ 这是一个类似的项目,专注于聚类算法和离群点检测,这是数据挖掘的另外两个关键任务。

        18
  •  0
  •   user277151 user277151    15 年前

    你可以看看数据挖掘工具weka

    这里是一个关于WEKA的教程和视频的链接 教程: http://www.dataminingtools.net/browsetutorials.php?tag=weka Â

    视频: http://www.dataminingtools.net/videos.php?id=6 Â

        19
  •  0
  •   sprezzatura    14 年前

    除了这些工具,我强烈建议学习Python和R。这些语言在分析过程中帮助很大。此外,大型数据集可以“自定义分析”。您还可以使用Javascript创建自己的定制仪表板(查看 numerous charting and visualization libraries )

        20
  •  -1
  •   machinaut    16 年前

    我自己也是一个巨蟒专家,我必须说:

    对所有这些都可以在Python中完成。

    我上一次喝了漂亮的汤[0]。这是一个非常简单易用的模块,可以从html和xml中获取/挖掘数据(非常适合“屏幕抓取”)。

    如果你不懂python。。。。这真的很容易学。

    [0] http://www.crummy.com/software/BeautifulSoup/