對分組重量編碼的蛋白質(zhì)預(yù)測
人類的基因組織的計劃早在幾年前就開始了,并且在研究的過程中產(chǎn)生了大量的分子學(xué)數(shù)據(jù),我們需要對這些數(shù)據(jù)進(jìn)行計算和分析,我們探索的這些問題已經(jīng)成為我們研究的熱點問題了。動植物體內(nèi)的蛋白質(zhì)預(yù)測的功能已經(jīng)為基因的發(fā)展奠定了核心基礎(chǔ),全自動定氮儀的使用也開始漸漸的廣泛化。數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)及人工神經(jīng)網(wǎng)絡(luò)等方法已被廣泛應(yīng)用到蛋白質(zhì)功能預(yù)測的研究中。完整的蛋白質(zhì)組是一個動態(tài)的研究對象,其功能預(yù)測涉及大量的信息,因此預(yù)測效果不太理想。本文介紹的方法是基于序列的蛋白質(zhì)功能預(yù)測方法的又一次嘗試。
蛋白質(zhì)分組重量編碼主要利用物理學(xué)中的粗;0思想,已成功應(yīng)用到蛋白質(zhì)結(jié)構(gòu)預(yù)測研究。蛋白質(zhì)結(jié)構(gòu)可為其功能提供大量信息,因此,將蛋白質(zhì)分組重量編碼結(jié)合最近鄰居算法應(yīng)用于蛋白質(zhì)功能預(yù)測研究。EBGW不僅提取氨基酸的物化特性, 而且更多的提取蛋白質(zhì)序列中各類氨基酸的分布情況。
最近鄰居算法的基本思想是在多維空間中找到與未知樣本最近距離的點,并根據(jù)這個點的類別來判斷未知樣本的類。蛋白質(zhì)分組重量編碼已經(jīng)成功應(yīng)用于蛋白質(zhì)結(jié)構(gòu)預(yù)測研究中,而蛋白質(zhì)結(jié)構(gòu)可以提供關(guān)于蛋白質(zhì)功能的初步信息。蛋白質(zhì)分組重量編碼作為蛋白質(zhì)序列信息的數(shù)值表示,能夠充分提取序列中蘊(yùn)含的結(jié)構(gòu)信息,有效的應(yīng)用于蛋白質(zhì)結(jié)構(gòu)預(yù)測中, 從而間接的為蛋白質(zhì)功能預(yù)測提供功能信息。蛋白質(zhì)行使某種功能,決定因素之一是氨基酸的物化特性,而不是具體的某個氨基酸。
編碼方式很好地刻畫了序列中的這種決定功能的本質(zhì)特征。同時,盡管蛋白質(zhì)之間的相互作用可以作為蛋白質(zhì)功能預(yù)測的因素,但是,單純從蛋白質(zhì)之間的相互作用提取功能信息,并不能很好地表達(dá)這種氨基酸的物化特性決定蛋白質(zhì)功能的特征。因此,蛋白質(zhì)的分組重量編碼與蛋白質(zhì)之間相互作用的有效結(jié)合是后續(xù)工作的突破口。分組重量編碼與最近鄰居法結(jié)合的思想僅從蛋白質(zhì)序列出發(fā),能夠全面提取序列信息,不受其它蛋白質(zhì)的制約,同時對于序列的長度不敏感。分組重量編碼結(jié)合最近鄰居算法,計算簡單,可以準(zhǔn)確的將未知功能的蛋白質(zhì)進(jìn)行功能分類。同時,分組重量編碼所包含的信息量大,特別是在蛋白質(zhì)-蛋白質(zhì)相互作用信息未知、而僅采用序列信息的情況下,不受已知蛋白質(zhì)-蛋白質(zhì)相互作用信息量少的限制,有效地提取蛋白質(zhì)序列中蘊(yùn)含的功能信息,進(jìn)行蛋白質(zhì)功能預(yù)測。中國糧油儀器網(wǎng) http://www.feta-virtual.com/



