如标题所示。
我正在寻找一种(未压缩)存档格式,它可以将数据附加到现有存档中的文件中,而无需拆包整个存档(或将整个文件加载到RAM),以及快速读取和写入数据。该文件用于存储层次结构中的浮点数组,以及它们的属性(如果更改了任何内容)。
顺便说一句,我确实想把数据存储在一个档案中,以便快速压缩数据。就时间和计算能力而言,对整个目录结构进行定价似乎过于昂贵。
如果可能的话,我希望归档器有C++、Julia和Python的可用库,但必须只与其中一个兼容。
我一直在寻找类似的东西,我找到了一些工具,但目前没有用。我目前发现的东西,但并没有完全满足我的期望;
-
HDF5-这里的问题是由库的性能引起的。对于相当大的数据集来说,这是一个相当大的瓶颈(我在存档中打包约26 GB文本的最快时间接近25分钟。读取和将数据保存为文本文件只需不到5分钟。
1.1.JLD2(仅限Julia)-我所知道的唯一的HDF5实现替代方案。就性能而言,它明显优于官方实现,但不允许将数据附加到现有数组中。
-
未压缩的.zip文件和wxFile C++库似乎几乎可以工作(除了偶尔发生的意外数据损坏)。我不确定我是否能做到,但这似乎是一个有趣的选择。
-
SQLite看起来确实是一个可行的选择,但速度可能仍然明显低于基于目录的结构。
遗憾的是,任何事情都不能完全满足我的期望,我目前也找不到其他选择。
我一直在寻找类似的东西,我找到了一些工具,但目前没有用。我目前发现的东西,但并没有完全满足我的期望;
-
HDF5-这里的问题是由库的性能引起的。对于相当大的数据集来说,这是一个相当大的瓶颈(我在存档中打包约26 GB文本的最快时间接近25分钟。读取数据并将数据保存为文本文件只需不到5分钟。
1.1.JLD2(仅限Julia)-我所知道的唯一的HDF5实现替代方案。就性能而言,它明显优于官方实现,但不允许将数据附加到现有数组中。
-
未压缩的.zip文件和wxFile C++库似乎几乎可以工作(除了偶尔发生的意外数据损坏)。我不确定我是否能做到,但这似乎是一个有趣的选择。
-
SQLite-看起来确实是一个可行的选择,然而,速度可能仍然明显低于基于目录的结构。遗憾的是,这些都没有完全满足我的期望,我目前无法找到任何其他选择。
或者,我可以继续使用基于目录的结构,但它仍然远未达到最佳效果(压缩确实只比创建存档多花费大约50%的时间,而存档在创建之后就会被删除)。