Posts Tagged ‘bioinfo’

Oct 12 2010

Using Python to Sort Sequences into a Certain Order

当你想对一批CDS进行多序列比对时,先进行相应的蛋白质多序列比对,再以蛋白质多序列比对结果作为指导进行核苷酸序列比对,这样得到的结果比直接进行核苷酸序列比对来得好(众所周知了吧)。

根据蛋白质多序列比对结果进行CDS序列比对,可用EMBOSStranalign程序实现,要求是CDS序列同蛋白质序列要一一对应。通常,我们准备的数据:Protein和CDS序列,各在一个file里,顺序一一对已。

用经典多序列比对软件ClustalX进行蛋白质多序列比对时,可设置比对后输出文件的序列顺序同输入文件中的序列顺序一致(默认是按序列的相似性重新排列)。目前最流行的序列比对软件MUSCLE原本也可以用-stable参数实现,但是这一参数在目前所有版本里是个bug,输出文件的序列顺序也是以相似性排列的,便于人们用肉眼检查多序列比对结果。原本软件不支持,就只好自身做后期处理,对用MUSCLE进行多序列比对输出文件中的序列进行重新排序。实现这一排序的python代码如下(命名为sort_seq.py):
阅读全文 »

分类: 学习 | 标签: , | 2 回复 »

Sep 13 2010

Using Python to Convert FASTA Files into Relaxed Phylip Format

构建进化树的软件,如PhylipRAxML,的输入文件通常要求是pyhlip(*.phy, *.phylip)格式文件。所以,完成多序列比对之后,需将比对后的序列保存为phylip格式。

标准phylip文件格式典型的2个特征是:

  • 文件首行显示序列数目、单个序列长度(多序列比对后,每条序列的长度一样,因为有gap填充);
  • 每条序列的名称不能超过10个字符,短于10个字符长度的用空格补充。

ClustalW是常用的多序列比对工具,默认的出入格式是它自己的.aln,可以将比对输出格式指定为phylip格式。当序列名称不超过10个字符时,用ClustalW转换是没有问题的;但超过10个字符时,它会只保留名称的前10个字符,后面的会被砍掉,于是可能出现不用序列名称相同的问题。

软件Phylip要求输入标准的.phy格式文件,但RAxML只需要输入a relaxed phylip-format file即可。

“‘Relaxed’ means that sequence names can be of variable length between 1 up to 100 characters.”

所以,就写了个将比对后的fasta文件转为不严格的phylip格式的python程序:

阅读全文 »

分类: 学习 | 标签: , | 13 回复 »

Jun 06 2010

六月参会记

4月份时把Mr Young和师姐的一个小工作整成文章,赶在截止日期最后一天把它投到一个会议。一个月后得到通知说已接收,并被推荐到某SCI杂志可能会发表在上面。于是本着学习和交流的心情将过去的一周时间泡在武大,开始偶的第一次正式参加生物信息国际会议 (名号是这样的) 的旅程。

会议正式开始前,有一个5天的课程,这一次课是属于龙星计划中的《生物信息学》一课,由UNC的Porf. Wang讲授。总体来说,王伟老师的课讲得不错,因她是学计算机出身,所以主要讲如何用算法来编程、解决生物信息中的问题。当然,讲得浅显,跟我在本科时听的《Introduction to Bioinfomatics》差不多。So, 收获平平,没有坚持听完15个学时的课程。

阅读全文 »

分类: 学习 | 标签: , | 11 回复 »

May 13 2010

SVG绘人类染色体G带图

认识和了解基因组,看其基因组图谱可说是直观、简单、入门级的途径。通过NCBI的MapViewer、EBI的Ensembl,不难发现人类染色体的G带图是最常用的人类基因组图谱表现形式。

什么是染色体G带图?

将染色体经盐、碱、热、胰酶或蛋白酶、尿素及去垢剂等处理,再用Giemsa染液染色,染色体会沿其纵轴显示出深浅不同的横纹,此横纹为染色体的G带;绘成图谱,则为染色体G带图(ideogram)。

什么是SVG?

SVG (Scalable  Vector Graphics),可伸缩矢量图形,是使用XML格式定义用于网络的基于矢量的图形。

在很多领域,人们会用Matlab绘图。这里我用SVG,因为我觉得它看起来相对容易。如,画出人类1号染色体的轮廓

阅读全文 »

无觅相关文章插件,快速提升流量

分类: 学习 | 标签: , | 13 回复 »