成人欧美一区二区三区黑人免费_亚洲永久无码7777KKK_国产欧美日韩综合精品一区二区_欧美在线一区二区三区

English | 中文版 | 手機(jī)版 企業(yè)登錄 | 個人登錄 | 郵件訂閱
當(dāng)前位置 > 首頁 > 技術(shù)文章 > 特征選擇在生物信息學(xué)中的應(yīng)用

特征選擇在生物信息學(xué)中的應(yīng)用

瀏覽次數(shù):5832 發(fā)布日期:2009-2-4  來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)
隨著生物信息學(xué)的發(fā)展,許多模式識別技術(shù)無法滿足處理大量不相關(guān)特征的需求,因此特征選擇技術(shù)(FS techniques)在生物信息學(xué)中的應(yīng)用就變得越來越重要了。

        在過去的幾年里,應(yīng)用特征選擇技術(shù)已經(jīng)從僅僅作為一個說明性的例子發(fā)展到了建立模型所需要的先決條件了。特征選擇技術(shù)最重要的目的有3點(diǎn):(1)避免過度適應(yīng)和提高模型的性能;(2)提供更快的和更有效的模型;(3)對生成數(shù)據(jù)的潛在的過程獲得更深入的了解。當(dāng)然,特征選擇技術(shù)在搜索相關(guān)特征的子集時也會為建立模型引入額外的復(fù)雜度。下面將簡要介紹特征選擇技術(shù)在生物信息學(xué)中的應(yīng)用。

1、序列分析中的特征選擇
 
        序列分析是生物信息學(xué)中常見的工作,對鄰近序列的特征選擇可以分為兩類:內(nèi)容分析(content analysis)和信號分析(signal analysis)。內(nèi)容分析著眼于序列主要的特征,例如序列編碼蛋白的傾向性或者實(shí)現(xiàn)的某種生物學(xué)的功能。而信號分析則著眼于序列中重要基序的識別,例如基因的結(jié)構(gòu)元件或者調(diào)控元件。

(1)內(nèi)容分析。

        編碼蛋白的子序列的預(yù)測(編碼潛在性的預(yù)測)一直是生物信息學(xué)研究的問題。由于許多特征可以從序列中提取出來,并且大部分特征之間的依賴關(guān)系僅僅與相鄰的位置有關(guān),因此,各種Markov模型被用于該問題的研究。起初,為了處理有限數(shù)量樣本中大量的可能特征,引入了內(nèi)插值填補(bǔ)的Markov模型(interpolated Markov model,IMM)。該模型通過在少量樣本條件下往Markov模型的不同特征次序中插入某一特征,然后利用過濾方法選擇僅僅有聯(lián)系的特征。接著,IMM的框架被擴(kuò)展來處理非相鄰特征的依賴性,產(chǎn)生了內(nèi)插值填補(bǔ)的鄰近模型(interpolated context model,ICM)。該模型將Bayesian決策樹與過濾方法結(jié)合起來評估特征的相關(guān)性。

        近來,F(xiàn)S技術(shù)的方法被用于編碼潛在性的預(yù)測。該方法將幾種不同的編碼潛在性預(yù)測的方法結(jié)合起來,然后用Markov覆蓋多元過濾的方法(Markov blanket multivariate filter approach,MBF)只保留下有相關(guān)性的特征。

        內(nèi)容分析的第二類問題就是從序列預(yù)測蛋白的功能。早期的工作是將遺傳算法和gamma檢測結(jié)合起來,為從大量rRNA子集分類出來的特征的集合打分,這種工作啟發(fā)了研究者使用FS技術(shù)來分析與蛋白功能種類有關(guān)的氨基酸的子集。其中有一項(xiàng)技術(shù)就是對支持向量集(SVM)進(jìn)行有選擇的核心度量來估計特征的權(quán)重,然后去掉低權(quán)重的特征。

       另外,F(xiàn)S技術(shù)在序列分析的域分析中也有了進(jìn)一步的應(yīng)用,比如識別啟動子區(qū)域和microRNA靶點(diǎn)預(yù)測。

(2)信號分析

        許多序列分析的方法都包括識別序列中短的保守的信號,這種信號表現(xiàn)為各種蛋白或者蛋白復(fù)合物的綁定位點(diǎn)。通常用來尋找調(diào)控基序的方法是用回歸的方法將基序與基因表達(dá)水平聯(lián)系起來,然后使用FS技術(shù)搜索基序,使之能最大程度上適合這個回歸模型。

        信號分析中另一個重要的問題就是預(yù)測基因的結(jié)構(gòu)元件,例如剪接位點(diǎn)(splice sites)和轉(zhuǎn)錄起始位點(diǎn)(translation initiation site,TIS)。對于剪接位點(diǎn)的預(yù)測,可以結(jié)合連續(xù)的回溯方法(sequential backward method)和嵌入式SVM評估標(biāo)準(zhǔn)(embedded SVM evaluation criterion)來估計特征的相關(guān)性,或者利用分布式算法評估(estimation of distribution algorithm,EDA)來獲得相關(guān)的特征。同樣的,利用FS技術(shù)預(yù)測TIS,可以使用特征分類熵(feature-class entropy)作為篩選量度來去除不相關(guān)的特征。
在今后的研究中,F(xiàn)S技術(shù)被期望用于其他的預(yù)測工作,例如鑒別與選擇性剪接位點(diǎn)或者選擇性轉(zhuǎn)錄起始位點(diǎn)有關(guān)的相關(guān)特征。

2、單核苷酸多態(tài)性分析中的特征選擇

        單核苷酸多態(tài)性(single nucleotide polymorphisms,SNPs)是進(jìn)化過程中單個核苷酸位點(diǎn)的突變并且可以通過遺傳傳遞下去,這可以解釋不同個體間大部分的遺傳變異。SNPs是許多疾病基因研究的前沿,在人的基因組中數(shù)目估計在7百萬左右,因此選擇一個具有充足信息并且足夠小的SNPs子集來描述基因型是疾病基因相關(guān)研究中重要的一步。

        在過去的幾年中已經(jīng)發(fā)展了一些計算方法來選擇單體型標(biāo)簽SNP(htSNP)。一種方法假設(shè)人類基因組可以被認(rèn)為是離散的區(qū)域集合,僅僅共享很小的共用單體型集合。這種方法的目的是確定一個SNPs的集合來區(qū)分所有的共用的單體型,或者至少可以解釋其中的一部分。第二種共用htSNPs的選擇方法是基于SNPs的配對原理,試圖選擇一個htSNPs的集合使得一個單體型上的每個SNPs都和一個htSNPs高度相關(guān)。第三種方法認(rèn)為htSNPs是所有SNPs的一個子集,通過這個子集可以重構(gòu)剩余的SNPs。這種選擇htSNPs的方法取決于剩余沒有選擇的SNPs預(yù)測的精確程度。

        如果目標(biāo)區(qū)域中單體型的結(jié)構(gòu)未知,常用的方法是在相等的間隔上選擇標(biāo)記物,給出要選擇的SNPs的數(shù)據(jù)和期望的間距。較為有效的方法包括基于遺傳算法與SVM結(jié)合的方法、包括3個分類算法(k-NN,SVM和naïve Bayes)的Relief-F特征選擇算法和多元線性回歸SNP預(yù)測算法等。

3、文本和文獻(xiàn)挖掘中的特征選擇

       文本和文獻(xiàn)挖掘是生物學(xué)中數(shù)據(jù)挖掘方面的一個新興領(lǐng)域,文本和文件的一個重要表示就是所謂的BOW(bag-of-words)表示,將文本中的每一個詞表示為一個變量,而它的值為該詞在文本中出現(xiàn)的頻率。這樣的表示方式就使得從一個文本得到一個很高維度的數(shù)據(jù)集,因此需要使用特征選擇技術(shù)來進(jìn)行文本挖掘。
盡管特征選擇技術(shù)經(jīng)常應(yīng)用于文本分類領(lǐng)域,但是對于生物醫(yī)學(xué)領(lǐng)域還是新興技術(shù)。

        到目前為止,在醫(yī)學(xué)注釋工作上,應(yīng)用了Kullback-Leibler散度(Kullback-Leibler divergence)作為一個單變量過濾方法來尋找有差別的單詞,在蛋白相互作用發(fā)現(xiàn)中,應(yīng)用了對稱原理的不確定性(symmetrical uncertainty,一種基于熵的過濾方法)來鑒別相關(guān)的特征。同樣可以預(yù)計到,用來對生物醫(yī)學(xué)文檔的聚類和分類方法引入的大量特征選擇技術(shù)將會應(yīng)用于生物醫(yī)學(xué)的文獻(xiàn)挖掘中。

        除了以上的幾個方面的應(yīng)用以外,特征選擇技術(shù)還被應(yīng)用于微陣列(microarray)數(shù)據(jù)分析和質(zhì)譜(MS)數(shù)據(jù)分析這些海量數(shù)據(jù)分析方面。由此可預(yù)見,隨著對特征選擇技術(shù)的進(jìn)一步發(fā)展和完善,特征技術(shù)將在海量數(shù)據(jù)分析中發(fā)揮極其重要的作用。


參考文獻(xiàn):

Yvan Saeys, Inaki Inza and Pedro Larranaga. (2007)A review of feature selection techniques in bioinformatics. Bioinformatics, 23, 2507-2517.
來源:上海伯豪生物技術(shù)有限公司
聯(lián)系電話:021-58955370
E-mail:market@shbio.com

用戶名: 密碼: 匿名 快速注冊 忘記密碼
評論只代表網(wǎng)友觀點(diǎn),不代表本站觀點(diǎn)。 請輸入驗(yàn)證碼: 8795
Copyright(C) 1998-2025 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com
成人欧美一区二区三区黑人免费_亚洲永久无码7777KKK_国产欧美日韩综合精品一区二区_欧美在线一区二区三区
av影院在线观看| 欧美不卡激情三级在线观看| japanese极品少妇| 亚洲v国产v欧美v久久久久久| 中文字幕一区二区视频| 国产伦精品一区二区三区在线观| 美女一区二区在线观看| 欧美激情中文字幕日韩精品| 国产精品一区久久久| 亚洲精品人妻av| 日韩av电影一区二区三区| 亚洲午夜精品一区二区三区电影院 | 一区二区三区四区精品视频| 被绑到刑床强扒开腿狂虐小说| 99热在线精品免费| 日韩欧美一区二区三区在线观看| jizz性欧美2| 97人妻人人揉人人澡人人人妻91| 色翁荡熄又大又硬又粗又长免费| 日韩人妻精品久久久久| 精品久久久久久久久久免费影院8 欧美大荫蒂毛茸茸视频汇编 | 国产高清一区二区三区视频| 黑人巨大xxxx| 我淫我色亚洲色图| 亚洲一区二区三区欧美| 亚洲精品V日韩精品| 在线观看日韩一区二区三区| 日韩一区二区三区精品| 一边做饭一边躁狂我该怎么办| 无码精品一区二区三区潘金莲| 欧美丰满熟妇bbbbbb片| 国产丝袜美腿一区二区三区| 97人妻人人澡人人人爽人人| 性色av色香蕉一区二区三区| chinese国产xxxx实拍| 亚洲精成人www.557com| 一区人妻| 精品国产乱码久久久最新版功能| 日韩人妻精品中文字幕免费| 豪妇荡乳1一5潘金莲2的导演是谁| 国产成人午夜精品|