代码之家 › 专栏 › 技术社区 › Buhake Sindi Tesnep

“参数化”数据库模型和后端存储系统以及数据挖掘操作

data-structures architecture algorithm database

Buhake Sindi Tesnep · 技术社区 · 15 年前

我已经把它隐式地变成了一个社区wiki,看到答案可以是非常广泛的。我正在与一家初创公司合作,以实现以下目标。

在医学研究中,患者的病历可以有关于患者的无限量的特定诊断数据,例如吸烟者患肺癌的几率更高,但这并不一定意味着非吸烟者会患肺癌。我的目标是创建/使用能够处理这些参数的数据库模型。

现在,我还必须想出一些方法来挖掘这些参数化数据,以创建统计数据,例如查看所有40岁患有肺癌的女性的趋势。该报告可以是通用的(图表、表格等),医生可以在其中看到趋势或分析可能有效的解决方案……

我的问题是: 1)哪些数据库系统允许参数化后端存储(例如卡桑德拉),可以很容易地在Java中使用,并且在数据检索、链接等方面非常有效。

2)我可以使用什么算法或人工智能技术进行数据挖掘?有没有什么采矿技术可以帮我做到这一点?

聚苯乙烯 谷歌分析如何处理参数化数据?
聚苯硫醚 参数化数据是指具有键的数据,以及数据可以是值的数据,另一个键值对,一个值列表,一组参数化数据(有组织的、无组织的)

我期待有启发性的答案!-D

2 回复 | 直到 15 年前

ankitjaininfo 15 年前

我只回答你的第一个问题。

Cassandra是一个关键值数据存储(在您的情况下 参数化的 )如果使用Cassandra,则需要更高的计算时间来派生复杂的报告。原因是-它以原始格式存储数据。卡桑德拉喜欢nosql数据库是很好的,如果你想扩展非常大。他们是 eventually consistent 以及在数据复制和延迟方面的折衷。

在您的案例中,作为一个患者,可以以无限的任何形式拥有数据,请尝试适应三重存储的模型(语义Web框架,如Jena、OpenSesame等)。它们允许您拥有糟糕的数据结构,并且可以在运行时进行建模。此外,它们的查询引擎(SPARQL、SERQL)比NoSQL存储(如Cassandra)提供更多的功能,但这些查询功能明显低于RDBMS。

Buhake Sindi Tesnep 15 年前

对于这个问题,这是我们如何实现的。

我们创造了一个 密钥空间 打电话 medical 还有一个超柱族叫做 patient .

在超级柱家族下,我们有一个 general 基本上存储患者详细信息的超柱,另一个超柱称为 operation 记录用户职业。

别忘了 一般的 超级柱记录病人来看医生的情况。这样,我们就能准确地了解病人手术前、手术中和手术后的确切情况。

我知道有些数据可能是重复的,但是没有一个超柱可以是相同的,因为你不可能有两个完全相同的属性和疾病的病人。

因此,基本上,Cassandra允许3层抽象、键空间、列/超列族、列/超列。

希望这能帮助别人。