深圳子科生物報(bào)道:來(lái)自中科院計(jì)算技術(shù)研究所的研究人員發(fā)表了題為“Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine”的文章,公布了新一代開(kāi)放式搜索算法Open-pFind,可提高質(zhì)譜數(shù)據(jù)解析的數(shù)量與質(zhì)量,有望成為蛋白質(zhì)組學(xué)日常數(shù)據(jù)分析的主力工具。
這一研究成果公布在10月9日的Nature Biotechnology雜志上,文章的通訊作者為計(jì)算技術(shù)研究所賀思敏研究員,和遲浩博士(同為作者)。
質(zhì)譜數(shù)據(jù)的低解析率直接影響著肽段和蛋白質(zhì)鑒定數(shù)目和鑒定精度的提高。質(zhì)譜數(shù)據(jù)解析率一直較低,是由于質(zhì)譜數(shù)據(jù)中通常有大量存在意外修飾或發(fā)生意外酶切的肽段,傳統(tǒng)的限定式搜索因搜索空間有限,通常無(wú)法對(duì)上述肽段進(jìn)行有效檢索。
新一代開(kāi)放式搜索引擎Open-pFind采用基于序列標(biāo)簽索引的開(kāi)放式搜索流程,快速掃描蛋白質(zhì)數(shù)據(jù)庫(kù)并對(duì)部分高質(zhì)量譜圖進(jìn)行鑒定。在此過(guò)程中,意外修飾、突變、半特異及非特異性酶切肽段均在引擎的搜索空間內(nèi)。Open-pFind通過(guò)基于支持向量機(jī)的肽譜匹配重打分算法,挖掘數(shù)據(jù)中的特征信息,并據(jù)此進(jìn)行第二次精細(xì)搜索。同時(shí),Open-pFind集成了前端數(shù)據(jù)處理的pParse模塊,對(duì)肽段母離子進(jìn)行校準(zhǔn),并有效提取混合譜圖,進(jìn)一步提升了譜圖解析率。
在四組典型質(zhì)譜數(shù)據(jù)集上,Open-pFind解析率均達(dá)到了70%~85%,比同類軟件鑒定結(jié)果多出50.5%~117.0%。對(duì)于高質(zhì)量的串聯(lián)質(zhì)譜圖,Open-pFind甚至基本實(shí)現(xiàn)了*解析。在搜索空間是常規(guī)引擎5個(gè)量級(jí)的基礎(chǔ)上,Open-pFind的速度仍然是常規(guī)引擎的2~3倍,是同類開(kāi)放式引擎的數(shù)十倍甚至上百倍。在超大規(guī)模人類蛋白質(zhì)組數(shù)據(jù)集上,Open-pFind報(bào)告了超過(guò)12000種蛋白,且準(zhǔn)確度遠(yuǎn)遠(yuǎn)超過(guò)以往常規(guī)分析結(jié)果。
原文標(biāo)題:
Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine