生物数据库多如牛毛,而不同的数据库可能采用各异的 ID/Accession Number (以下简称 ID/ACC)来标识里面的记录,免不了眼花缭乱~
所以,试着用正则表达式来表达这些 ID/ACCs,目标是每一个数据库可以拥有独特的、只匹配相应数据库 ID/ACCs 的正则表达式~ (假设每一行的内容对应一个ID/ACC)
ArrayExpress: ^[AE]-[A-Z]{4}-\d+$ (eg: E-TABM-518, A-AFFY-5)
BioSample: ^SAMEG?\d{6}$ (eg: SAME058933, SAMEG038449) 阅读全文 »




