Posts Tagged ‘Python’

Feb 24 2012

寻找PDB数据库中只存在单个位点差异的蛋白质组合

BioStar 上面有一个问题:“How to return all pdb ids to a given one that differ only by one amino acid?

问题即:给定一条蛋白质序列,从 PDB 数据库含有的蛋白质中找出所有与其只存在单个位点差异的序列。再推广,即找出只存在单个位点差异的所有蛋白质组合。

nsaunders 在其博客中给出了详细的解决方案,跟随其步骤,实践一下。

1. 从 NCBI 获取 PDB 数据库中的蛋白质序列(FASTA 格式)

下载、解压

$ wget ftp://ftp.ncbi.gov/blast/db/FASTA/pdbaa.gz
$ gunzip pdbaa.gz

阅读全文 »

分类: 学习 | 标签: , , | 1 回复 »

Apr 19 2011

Convert Words into Numbers in Python

你一定听过这么一个冷知识:

如果给字母A-Z分别打1~26分,
那么:
你的好运(Luck)得 12 + 21 + 3 + 11 = 47分
爱情 (Love)得 12 + 15 + 22 + 5 = 54分
金钱(Money)得 13 + 15 + 14 + 5 + 25 = 72分
领导力(Leadership)得 12 + 5 + 1 + 4 + 5 + 18 + 19 + 9 + 16 = 89分
知识(Knowledge)得 11 + 14 + 15 + 23 + 12 + 5 + 4 + 7 + 5 = 96分
努力(Hardwork)得 8 + 1 + 18 + 4 + 23 + 15 + 18 + 11 = 98分
而,
你的态度(Attitude)得 1 + 20 + 20 + 9 + 20 + 21 + 4 + 5 = 100分
因此,态度决定一切!(Attitude is everything!)

阅读全文 »

分类: 学习 | 标签: | 暂无回复 »

Oct 12 2010

Using Python to Sort Sequences into a Certain Order

当你想对一批CDS进行多序列比对时,先进行相应的蛋白质多序列比对,再以蛋白质多序列比对结果作为指导进行核苷酸序列比对,这样得到的结果比直接进行核苷酸序列比对来得好(众所周知了吧)。

根据蛋白质多序列比对结果进行CDS序列比对,可用EMBOSStranalign程序实现,要求是CDS序列同蛋白质序列要一一对应。通常,我们准备的数据:Protein和CDS序列,各在一个file里,顺序一一对已。

用经典多序列比对软件ClustalX进行蛋白质多序列比对时,可设置比对后输出文件的序列顺序同输入文件中的序列顺序一致(默认是按序列的相似性重新排列)。目前最流行的序列比对软件MUSCLE原本也可以用-stable参数实现,但是这一参数在目前所有版本里是个bug,输出文件的序列顺序也是以相似性排列的,便于人们用肉眼检查多序列比对结果。原本软件不支持,就只好自身做后期处理,对用MUSCLE进行多序列比对输出文件中的序列进行重新排序。实现这一排序的python代码如下(命名为sort_seq.py):
阅读全文 »

分类: 学习 | 标签: , | 2 回复 »

Sep 13 2010

Using Python to Convert FASTA Files into Relaxed Phylip Format

构建进化树的软件,如PhylipRAxML,的输入文件通常要求是pyhlip(*.phy, *.phylip)格式文件。所以,完成多序列比对之后,需将比对后的序列保存为phylip格式。

标准phylip文件格式典型的2个特征是:

  • 文件首行显示序列数目、单个序列长度(多序列比对后,每条序列的长度一样,因为有gap填充);
  • 每条序列的名称不能超过10个字符,短于10个字符长度的用空格补充。

ClustalW是常用的多序列比对工具,默认的出入格式是它自己的.aln,可以将比对输出格式指定为phylip格式。当序列名称不超过10个字符时,用ClustalW转换是没有问题的;但超过10个字符时,它会只保留名称的前10个字符,后面的会被砍掉,于是可能出现不用序列名称相同的问题。

软件Phylip要求输入标准的.phy格式文件,但RAxML只需要输入a relaxed phylip-format file即可。

“‘Relaxed’ means that sequence names can be of variable length between 1 up to 100 characters.”

所以,就写了个将比对后的fasta文件转为不严格的phylip格式的python程序:

阅读全文 »

无觅相关文章插件,快速提升流量

分类: 学习 | 标签: , | 13 回复 »