代码之家  ›  专栏  ›  技术社区  ›  dassouki

网上公布的大数据集统计分析

  •  4
  • dassouki  · 技术社区  · 15 年前

    我有一个非计算机相关的数据记录器,从现场收集数据。这些数据存储为文本文件,我手动将这些文件集中起来并组织起来。当前格式是通过每个记录器每年的csv文件。每个文件大约有4000000行x 7个记录器x 5年=大量数据。一些数据被组织为箱项目类型、项目类别、项目维度类别,其他数据更为独特,如项目重量、项目颜色、收集日期等…

    目前,我使用我编写的python/numpy/matplotlib程序对数据进行统计分析。它工作得很好,但问题是,我是唯一可以使用它的人,因为它和数据都在我的电脑上。

    我想使用Postgres数据库在网上发布数据;但是,我需要找到或实现一个统计工具,它将占用一个很大的Postgres表,并在适当的时间内返回统计结果。我不熟悉Web上的python;但是,我精通Web端的php和离线端的python。

    应允许用户创建自己的柱状图、数据分析。例如,用户可以搜索X周和Y周之间蓝色发货的所有项目,而另一个用户可以搜索全年按小时对所有项目的重量分布进行排序。

    我正在考虑创建和索引我自己的统计工具,或者以某种方式自动化过程来模拟大多数查询。这似乎效率低下。

    我很期待听到你的想法

    谢谢

    1 回复  |  直到 13 年前
        1
  •  1
  •   tk.    15 年前

    如果用户数量不太多,我认为您可以充分利用当前的组合(python/numpy/matplotlib)。我做了一些类似的工作,我的数据大小略大于10g。数据存储在几个sqlite文件中,我使用numpy分析数据,pil/matplotlib生成图表文件(png,gif),cherrypy作为Web服务器,mako作为模板语言。

    如果您需要更多的服务器/客户机数据库,那么您可以迁移到PostgreSQL,但是如果您使用PythonWeb框架(如Cherrypy),您仍然可以充分使用当前的程序。