代码之家  ›  专栏  ›  技术社区  ›  knowads

找到前缀压缩方案的最佳前缀数目?

  •  1
  • knowads  · 技术社区  · 6 年前

    不确定这是否适用于数学堆栈交换,但我有一个CSV,它有一个字符串列表->[aaabbbcc,aaabbbcd,等等…]。我为每个字符串编写了一个前缀压缩方案,将字符串放在trie中,然后查找每个给定子字符串的用法(例如a a a出现在所有字符串中,aaabbb出现在1/5中)。我计划用压缩格式替换每个给定的字符串,其中一个字节表示该字符串(aaabbb->@)。我的问题是如何计算所需前缀的数量,以便最大限度地节省空间。每个映射的前缀都会添加前缀的长度加上它的映射字符,因此尽管aaabbb可能是一个好的前缀(出现在所有条目的20%中),aaabbbc却不是。

    0 回复  |  直到 6 年前