|
|
1
13
看看rsyncs算法,因为它的设计非常精确,所以可以有效地复制delta。我记得,这个算法有很好的文档记录。 |
|
|
2
16
你可以使用
在Ubuntu,快跑
|
|
|
3
8
这就是所谓的问题 "data deduplication" . 最常用的方法是:
这种重复数据消除算法不如例如 xdelta 但对于大型数据集来说,它更快、更具可扩展性。每个核心(Java)执行大约50 Mb/s的组块和指纹。索引大小取决于冗余、块大小和数据大小。对于200GB,它应该适合于块大小为16KB的内存。 Bentleys and Mciloys 压缩方法非常类似(例如由Google Bigtable使用),但是我不知道使用压缩技术的任何现成命令行工具。 这个 "fs-c" 开源项目包含了大部分必需的代码。但是,fs-c本身只尝试测量内存中的冗余和analzye文件,或者使用 Hadoop 集群。 |
|
|
4
6
一个问题是文件中的记录大小是多少,即偏移量是否可以逐字节更改,或者文件是否由1024B块组成。假设数据是面向字节的,可以执行以下操作:
后缀数组的构造和使用很容易,您应该很容易找到引用。在高速应用程序中,人们使用后缀树或后缀尝试来代替,这是更复杂的操作,但提供更快的查找。在您的例子中,您将把数组放在辅助存储上,如果打包阶段的运行速度不是问题,那么后缀数组就足够了。 |