特征選擇在生物信息學(xué)中的應(yīng)用

瀏覽次數(shù)：5832　發(fā)布日期：2009-2-4　來源：本站　僅供參考，謝絕轉(zhuǎn)載，否則責(zé)任自負(fù)

隨著生物信息學(xué)的發(fā)展，許多模式識別技術(shù)無法滿足處理大量不相關(guān)特征的需求，因此特征選擇技術(shù)（FS techniques）在生物信息學(xué)中的應(yīng)用就變得越來越重要了。

        在過去的幾年里，應(yīng)用特征選擇技術(shù)已經(jīng)從僅僅作為一個說明性的例子發(fā)展到了建立模型所需要的先決條件了。特征選擇技術(shù)最重要的目的有3點(diǎn)：（1）避免過度適應(yīng)和提高模型的性能；（2）提供更快的和更有效的模型；（3）對生成數(shù)據(jù)的潛在的過程獲得更深入的了解。當(dāng)然，特征選擇技術(shù)在搜索相關(guān)特征的子集時也會為建立模型引入額外的復(fù)雜度。下面將簡要介紹特征選擇技術(shù)在生物信息學(xué)中的應(yīng)用。

1、序列分析中的特征選擇

        序列分析是生物信息學(xué)中常見的工作，對鄰近序列的特征選擇可以分為兩類：內(nèi)容分析（content analysis）和信號分析（signal analysis）。內(nèi)容分析著眼于序列主要的特征，例如序列編碼蛋白的傾向性或者實(shí)現(xiàn)的某種生物學(xué)的功能。而信號分析則著眼于序列中重要基序的識別，例如基因的結(jié)構(gòu)元件或者調(diào)控元件。

（1）內(nèi)容分析。

        編碼蛋白的子序列的預(yù)測（編碼潛在性的預(yù)測）一直是生物信息學(xué)研究的問題。由于許多特征可以從序列中提取出來，并且大部分特征之間的依賴關(guān)系僅僅與相鄰的位置有關(guān)，因此，各種Markov模型被用于該問題的研究。起初，為了處理有限數(shù)量樣本中大量的可能特征，引入了內(nèi)插值填補(bǔ)的Markov模型（interpolated Markov model，IMM）。該模型通過在少量樣本條件下往Markov模型的不同特征次序中插入某一特征，然后利用過濾方法選擇僅僅有聯(lián)系的特征。接著，IMM的框架被擴(kuò)展來處理非相鄰特征的依賴性，產(chǎn)生了內(nèi)插值填補(bǔ)的鄰近模型（interpolated context model，ICM）。該模型將Bayesian決策樹與過濾方法結(jié)合起來評估特征的相關(guān)性。

        近來，F(xiàn)S技術(shù)的方法被用于編碼潛在性的預(yù)測。該方法將幾種不同的編碼潛在性預(yù)測的方法結(jié)合起來，然后用Markov覆蓋多元過濾的方法（Markov blanket multivariate filter approach，MBF）只保留下有相關(guān)性的特征。

        內(nèi)容分析的第二類問題就是從序列預(yù)測蛋白的功能。早期的工作是將遺傳算法和gamma檢測結(jié)合起來，為從大量rRNA子集分類出來的特征的集合打分，這種工作啟發(fā)了研究者使用FS技術(shù)來分析與蛋白功能種類有關(guān)的氨基酸的子集。其中有一項(xiàng)技術(shù)就是對支持向量集（SVM）進(jìn)行有選擇的核心度量來估計特征的權(quán)重，然后去掉低權(quán)重的特征。

       另外，F(xiàn)S技術(shù)在序列分析的域分析中也有了進(jìn)一步的應(yīng)用，比如識別啟動子區(qū)域和microRNA靶點(diǎn)預(yù)測。

（2）信號分析

        許多序列分析的方法都包括識別序列中短的保守的信號，這種信號表現(xiàn)為各種蛋白或者蛋白復(fù)合物的綁定位點(diǎn)。通常用來尋找調(diào)控基序的方法是用回歸的方法將基序與基因表達(dá)水平聯(lián)系起來，然后使用FS技術(shù)搜索基序，使之能最大程度上適合這個回歸模型。

        信號分析中另一個重要的問題就是預(yù)測基因的結(jié)構(gòu)元件，例如剪接位點(diǎn)（splice sites）和轉(zhuǎn)錄起始位點(diǎn)（translation initiation site，TIS）。對于剪接位點(diǎn)的預(yù)測，可以結(jié)合連續(xù)的回溯方法（sequential backward method）和嵌入式SVM評估標(biāo)準(zhǔn)（embedded SVM evaluation criterion）來估計特征的相關(guān)性，或者利用分布式算法評估（estimation of distribution algorithm，EDA）來獲得相關(guān)的特征。同樣的，利用FS技術(shù)預(yù)測TIS，可以使用特征分類熵（feature-class entropy）作為篩選量度來去除不相關(guān)的特征。
在今后的研究中，F(xiàn)S技術(shù)被期望用于其他的預(yù)測工作，例如鑒別與選擇性剪接位點(diǎn)或者選擇性轉(zhuǎn)錄起始位點(diǎn)有關(guān)的相關(guān)特征。

2、單核苷酸多態(tài)性分析中的特征選擇

        單核苷酸多態(tài)性（single nucleotide polymorphisms，SNPs）是進(jìn)化過程中單個核苷酸位點(diǎn)的突變并且可以通過遺傳傳遞下去，這可以解釋不同個體間大部分的遺傳變異。SNPs是許多疾病基因研究的前沿，在人的基因組中數(shù)目估計在7百萬左右，因此選擇一個具有充足信息并且足夠小的SNPs子集來描述基因型是疾病基因相關(guān)研究中重要的一步。

        在過去的幾年中已經(jīng)發(fā)展了一些計算方法來選擇單體型標(biāo)簽SNP（htSNP）。一種方法假設(shè)人類基因組可以被認(rèn)為是離散的區(qū)域集合，僅僅共享很小的共用單體型集合。這種方法的目的是確定一個SNPs的集合來區(qū)分所有的共用的單體型，或者至少可以解釋其中的一部分。第二種共用htSNPs的選擇方法是基于SNPs的配對原理，試圖選擇一個htSNPs的集合使得一個單體型上的每個SNPs都和一個htSNPs高度相關(guān)。第三種方法認(rèn)為htSNPs是所有SNPs的一個子集，通過這個子集可以重構(gòu)剩余的SNPs。這種選擇htSNPs的方法取決于剩余沒有選擇的SNPs預(yù)測的精確程度。

        如果目標(biāo)區(qū)域中單體型的結(jié)構(gòu)未知，常用的方法是在相等的間隔上選擇標(biāo)記物，給出要選擇的SNPs的數(shù)據(jù)和期望的間距。較為有效的方法包括基于遺傳算法與SVM結(jié)合的方法、包括3個分類算法（k-NN，SVM和naïve Bayes）的Relief-F特征選擇算法和多元線性回歸SNP預(yù)測算法等。

3、文本和文獻(xiàn)挖掘中的特征選擇

       文本和文獻(xiàn)挖掘是生物學(xué)中數(shù)據(jù)挖掘方面的一個新興領(lǐng)域，文本和文件的一個重要表示就是所謂的BOW（bag-of-words）表示，將文本中的每一個詞表示為一個變量，而它的值為該詞在文本中出現(xiàn)的頻率。這樣的表示方式就使得從一個文本得到一個很高維度的數(shù)據(jù)集，因此需要使用特征選擇技術(shù)來進(jìn)行文本挖掘。
盡管特征選擇技術(shù)經(jīng)常應(yīng)用于文本分類領(lǐng)域，但是對于生物醫(yī)學(xué)領(lǐng)域還是新興技術(shù)。

        到目前為止，在醫(yī)學(xué)注釋工作上，應(yīng)用了Kullback-Leibler散度（Kullback-Leibler divergence）作為一個單變量過濾方法來尋找有差別的單詞，在蛋白相互作用發(fā)現(xiàn)中，應(yīng)用了對稱原理的不確定性（symmetrical uncertainty，一種基于熵的過濾方法）來鑒別相關(guān)的特征。同樣可以預(yù)計到，用來對生物醫(yī)學(xué)文檔的聚類和分類方法引入的大量特征選擇技術(shù)將會應(yīng)用于生物醫(yī)學(xué)的文獻(xiàn)挖掘中。

        除了以上的幾個方面的應(yīng)用以外，特征選擇技術(shù)還被應(yīng)用于微陣列（microarray）數(shù)據(jù)分析和質(zhì)譜（MS）數(shù)據(jù)分析這些海量數(shù)據(jù)分析方面。由此可預(yù)見，隨著對特征選擇技術(shù)的進(jìn)一步發(fā)展和完善，特征技術(shù)將在海量數(shù)據(jù)分析中發(fā)揮極其重要的作用。

參考文獻(xiàn)：
Yvan Saeys, Inaki Inza and Pedro Larranaga. (2007)A review of feature selection techniques in bioinformatics. Bioinformatics, 23, 2507-2517.

來源：上海伯豪生物技術(shù)有限公司
聯(lián)系電話：021-58955370
E-mail：market@shbio.com

【點(diǎn)擊可查看上海伯豪生物技術(shù)有限公司相關(guān)產(chǎn)品】

標(biāo)簽：特征選擇生物信息學(xué) 應(yīng)用

分享到：QQ空間新浪微博騰訊微博微信

【所有文章】【本類新聞】【相關(guān)產(chǎn)品】【關(guān)閉窗口】

本類文章

本類新聞

成人欧美一区二区三区黑人免费_亚洲永久无码7777KKK_国产欧美日韩综合精品一区二区_欧美在线一区二区三区

^{<sub id="pmshj"></sub>}