当你想对一批CDS进行多序列比对时,先进行相应的蛋白质多序列比对,再以蛋白质多序列比对结果作为指导进行核苷酸序列比对,这样得到的结果比直接进行核苷酸序列比对来得好(众所周知了吧)。
根据蛋白质多序列比对结果进行CDS序列比对,可用EMBOSS的tranalign程序实现,要求是CDS序列同蛋白质序列要一一对应。通常,我们准备的数据:Protein和CDS序列,各在一个file里,顺序一一对已。
用经典多序列比对软件ClustalX进行蛋白质多序列比对时,可设置比对后输出文件的序列顺序同输入文件中的序列顺序一致(默认是按序列的相似性重新排列)。目前最流行的序列比对软件MUSCLE原本也可以用-stable参数实现,但是这一参数在目前所有版本里是个bug,输出文件的序列顺序也是以相似性排列的,便于人们用肉眼检查多序列比对结果。原本软件不支持,就只好自身做后期处理,对用MUSCLE进行多序列比对输出文件中的序列进行重新排序。实现这一排序的python代码如下(命名为sort_seq.py):
阅读全文 »


