![]() |
1
8
如果目标是简单地将类似序列分组在一起,那么简单地对数据进行排序就可以做到这一点。这里有一个解决方案 BioPython 要解析输入的fasta文件,对序列集合排序,使用标准的python itertools.groupby 函数合并相同序列的ID,并输出新的fasta文件:
输出:
|
![]() |
2
2
一般来说,对于这类工作,您可能需要调查 Biopython 它有很多解析和处理序列的功能。 然而,你的特殊问题可以通过口述来解决,马诺吉举了一个例子。 |
![]() |
3
2
比较长的字母序列会非常低效。比较序列的散列会更快。python提供了两种使用哈希的内置数据类型:
我假设文件在替换行上有标识符和标签,所以如果我们将文件文本拆分为新行,我们可以将一行作为ID,下一行作为要匹配的序列。
然后我们使用
所以当我们完成对文件的处理后,
|
![]() |
4
2
下面的脚本将返回序列计数。它返回一个字典,其中单独的、不同的序列作为键,数字(每行的第一部分)出现在这些序列中。
样品输出:
更新
已更改要使用的代码
更新2
已更改要使用的代码
|