代码之家  ›  专栏  ›  技术社区  ›  Buhake Sindi Tesnep

“参数化”数据库模型和后端存储系统以及数据挖掘操作

  •  2
  • Buhake Sindi Tesnep  · 技术社区  · 15 年前

    我已经把它隐式地变成了一个社区wiki,看到答案可以是非常广泛的。 我正在与一家初创公司合作,以实现以下目标。

    在医学研究中,患者的病历可以有关于患者的无限量的特定诊断数据,例如吸烟者患肺癌的几率更高,但这并不一定意味着非吸烟者会患肺癌。我的目标是创建/使用能够处理这些参数的数据库模型。

    现在,我还必须想出一些方法来挖掘这些参数化数据,以创建统计数据,例如查看所有40岁患有肺癌的女性的趋势。该报告可以是通用的(图表、表格等),医生可以在其中看到趋势或分析可能有效的解决方案……

    我的问题是: 1)哪些数据库系统允许参数化后端存储(例如卡桑德拉),可以很容易地在Java中使用,并且在数据检索、链接等方面非常有效。

    2)我可以使用什么算法或人工智能技术进行数据挖掘?有没有什么采矿技术可以帮我做到这一点?

    聚苯乙烯 谷歌分析如何处理参数化数据?
    聚苯硫醚 参数化数据是指具有键的数据,以及数据可以是值的数据,另一个键值对,一个值列表,一组参数化数据(有组织的、无组织的)

    我期待有启发性的答案!-D

    2 回复  |  直到 15 年前
        1
  •  0
  •   ankitjaininfo    15 年前

    我只回答你的第一个问题。

    Cassandra是一个关键值数据存储(在您的情况下 参数化的 )如果使用Cassandra,则需要更高的计算时间来派生复杂的报告。原因是-它以原始格式存储数据。卡桑德拉喜欢nosql数据库是很好的,如果你想扩展非常大。他们是 eventually consistent 以及在数据复制和延迟方面的折衷。

    在您的案例中,作为一个患者,可以以无限的任何形式拥有数据,请尝试适应三重存储的模型(语义Web框架,如Jena、OpenSesame等)。它们允许您拥有糟糕的数据结构,并且可以在运行时进行建模。此外,它们的查询引擎(SPARQL、SERQL)比NoSQL存储(如Cassandra)提供更多的功能,但这些查询功能明显低于RDBMS。

        2
  •  0
  •   Buhake Sindi Tesnep    15 年前

    对于这个问题,这是我们如何实现的。

    我们创造了一个 密钥空间 打电话 medical 还有一个超柱族叫做 patient .

    在超级柱家族下,我们有一个 general 基本上存储患者详细信息的超柱,另一个超柱称为 operation 记录用户职业。

    别忘了 一般的 超级柱记录病人来看医生的情况。这样,我们就能准确地了解病人手术前、手术中和手术后的确切情况。

    我知道有些数据可能是重复的,但是没有一个超柱可以是相同的,因为你不可能有两个完全相同的属性和疾病的病人。

    因此,基本上,Cassandra允许3层抽象、键空间、列/超列族、列/超列。

    希望这能帮助别人。