![]() |
1
5
我会考虑采用现有数据,而不是存储原始数据,而是通过以下两种方式进行处理:
你应该能够减少你的存储空间,不应该需要两倍于你所说的存储空间。
|
![]() |
2
2
什么之中的一个 these nosql dbs 可能有用。我高度怀疑任何文件是否可以配置为放在平面、分隔文件的顶部。您可以查看其中一个开源项目并编写自己的数据库层。 |
|
3
2
可伸缩性始于制表符分隔ASCII之外的一点。 只是要实际一点-不要把它学术化-公约解放你的手指和你的思想。 |
![]() |
4
1
如果我有这个名声,我会支持杰森的推荐。我唯一要补充的是,如果您不以数据库那样的不同格式存储它,Jason建议您为每个操作支付解析成本,而不是在最初处理它时只支付一次。 |
![]() |
5
1
在科学应用中,数据的易处理性和自己编写表达式的能力将真正发挥作用。 针对分隔文本文件的LINQ是LINQ的常见演示。您需要提供向LINQ提供表格模型的能力。Google LINQ以获取文本文件的一些示例(例如,请参见 http://www.codeproject.com/KB/linq/Linq2CSV.aspx , http://www.thereforesystems.com/tutorial-reading-a-text-file-using-linq/ 等)。 期待一个学习曲线,但它是一个很好的解决你的问题。关于这个问题最好的治疗方法之一是乔恩·斯基特的 C#深度 我以前也做过类似的工作,需要清理、重复和添加大量邮件列表。你总是受到束缚。尝试固态驱动器,特别是Intel的“E”系列,它具有非常快的写入性能,并尽可能并行地RAID它们。我们也使用了网格,但必须调整算法来进行多通道方法,以减少数据量。 注:我同意其他答案,即如果数据非常规则,则应将数据加载到数据库并编制索引。在这种情况下,您基本上是在做ETL,这是仓库社区中一个众所周知的问题。然而,如果数据是临时的,那么科学家只需将他们的结果放到一个目录中,就需要“敏捷/及时”转换,如果大多数转换都是单程选择的。。。哪里。。。加入,那你就走对路了。 |
![]() |
6
1
VelocityDB . 它在将tab分隔的数据读入C对象和数据库时非常快速。整个Wikipedia文本是一个33gbxml文件。此文件需要18分钟才能读入并作为对象持久化(每个Wikipedia主题1个),并存储在紧凑型数据库中。许多例子显示了如何阅读标签分隔的文本文件作为下载的一部分。 |
![]() |
7
1
在我们的中心,我们有一个 standard talk we give “所以你有40 TB的数据”,因为科学家们最近发现自己一直处于这种情况。这个话题名义上讲的是可视化,但主要是为那些对它不熟悉的人管理大量数据。我们试图了解的基本要点:
我们有很多东西要买 large-scale I/O generally |
|
kaiselwyvrn · 我无法打开Visual Studio项目 1 年前 |
![]() |
4SadMemeXD · 无法在Django中选择相关类别 2 年前 |
![]() |
Agrim Singh · 用户数据。名称未显示用户名 2 年前 |
![]() |
Peloucvo · 用数据库中的数据填充JTable 3 年前 |
![]() |
Montaser Majid · 用于从多行中提取单行的SQL查询 3 年前 |
![]() |
Max J. · 用整数作为键将dict写入csv 3 年前 |