De Novo序列分析

summary_denovo_only

多肽的de novo序列分析可以不借助序列数据库直接从多肽的串联质谱(MS/MS)数据中推导出氨基酸序列。它和另外一种流行的肽鉴定方法“搜库”相反,后者在给定数据库中寻找目标肽段。De novo的一个明显优点是:可以同时对数据库中已有的肽段以及新的肽段进行序列分析。

对数据库中没有的蛋白进行序列分析时,需要采用de-novo测序。De Novo法推导蛋白序列不需要事先知道DNA或蛋白的序列信息。这与序列匹配不同,序列匹配分析中,蛋白/DNA序列已知,序列数据仅仅用于确定其正确性。对一个完整蛋白进行De Novo测序,需要仔细进行实验设计,结合多种分析和评估手段,包括质谱、蛋白质化学及生物信息学。

De Novo肽段及蛋白测序用于以下目的:

1)寻找部分氨基酸序列,用于设计DNA引物、克隆或DNA/mRNA测序;
2)单克隆抗体可变区测序;
3)对从杂交瘤细胞或免疫生物中提纯的免疫球蛋白进行特性分析;
4)对尚未进行基因组测序的生物体的蛋白质组学项目及蛋白鉴定;
5)对含有修饰氨基酸或非常见氨基酸的生物活性肽的分析。

De Novo蛋白测序通常包含以下步骤:
1)用特定的酶把蛋白质酶解成肽段;
2)De Novo测序:异硫氰酸-4-磺苯基酯进行SPITC标记,MS/MS碎裂肽段;
3)Edman降解法进行肽段N端测序;
4)用MALDI-ISD进行Top-down蛋白测序。

De Novo测序的主要原理是利用两个碎片离子间的质量数差异来计算肽链上单个氨基酸残基的质量,通过不停循环该步骤来最终确定所有残基质量。

在串级质谱中,肽段沿着肽链骨架被打碎,产生的碎片离子经检测生成MS/MS谱图。不同碎裂方式会产生不同类型的碎片离子。最常用的碎裂方式是碰撞诱导解离(CID)和电子转移解离(ETD)。CID主要产生b,y离子;ETD主要产生c,z离子。高质量质谱图通常包含多种(不一定是所有)理论碎片离子。

De Novo蛋白序列分析时,如果可以在质谱图中识别出b,y离子中的任意一类便可推算出肽段序列。然而质谱仪器并不会区分谱峰的离子类型,因此在de novo测序过程中,需要专家或计算机算法对其进行判断。在分析过程中以下因素可能导致de novo测序只能从谱图中分析出一部分正确的序列标签:
1)错误的b,y离子归类;
2)部分碎片离子缺失;
3)存在其他类型的碎片离子;
4)谱图中存在噪音峰;
5)某些质量相同或相近的残基可能引起模棱两可的结果;
6)残基上的PTM(翻译后修饰)可能造成质量数模棱两可,也会使得肽段碎片模式变得复杂。

De Novo测序曾经被认为很慢,因此它大多在没有蛋白数据库时才使用。然而因为近期计算机算法如PEAKS的发展,速度已经不再是个问题。这使得de novo测序成为蛋白质组学质谱分析中一个可行的选择。即使已有数据库,de novo测序仍然有助于肽段鉴定。首先,de novo测序得到的肽段与搜库得到的肽段匹配或相似是对搜库结果正确性的一个有力印证,因此de novo测序可以用于提高搜库效果。其次,de novo测序获得的肽段如若没有显著的数据库匹配,那么这很可能是样本中的新肽段,并值得进一步验证,如寻找没有预想到的翻译后修饰或肽段突变。