BioStar 上面有一个问题:“How to return all pdb ids to a given one that differ only by one amino acid?”
问题即:给定一条蛋白质序列,从 PDB 数据库含有的蛋白质中找出所有与其只存在单个位点差异的序列。再推广,即找出只存在单个位点差异的所有蛋白质组合。
nsaunders 在其博客中给出了详细的解决方案,跟随其步骤,实践一下。
1. 从 NCBI 获取 PDB 数据库中的蛋白质序列(FASTA 格式)
下载、解压
$ wget ftp://ftp.ncbi.gov/blast/db/FASTA/pdbaa.gz $ gunzip pdbaa.gz


