當前位置 > 首頁 > 技術文章 > 基因數(shù)據分析的主流軟件

基因數(shù)據分析的主流軟件

瀏覽次數(shù)：14137　發(fā)布日期：2005-12-6　

轉載自《生物技術世界》2005年6月版
在過去的幾年中，許多生物的基因組完成了測序工作，如何對如此龐大的原始序列信息進行分析和應用，正是現(xiàn)在最為棘手的問題。大量的基因預測軟件和在線工具應運而生。如何廣泛而深入地了解并能有的放矢地利用這些工具，已經成為21世紀分子生物學家的必修課。

隨著大規(guī)模EST和cDNA序列信息的獲取，那些基于表達序列同源范圍的程序，在基因組注釋中的作用日益顯著。即使在稀少基因或組織特異性表達的基因中，基因組序列的相關性信息也頗具參考價值。所以利用基因組序列的比對來擴充基因的信息是不可獲缺的。特別是在對人類基因組做注釋時，與那些相對完整的脊椎動物基因組，如小鼠和魚類的基因組比較是必不可少的步驟。許多基因組測序計劃正在進行之中，盡管仍存在急需解決的問題，比較基因組學方法(comparative genome approach)被認為是最有應用前景的方法。該方法不僅在基因預測中舉足輕重，而且在鑒定調控基因、探索垃圾基因(junk gene)等方面的作用也不容忽視�；蝾A測軟件的用戶應該認識到，軟件預測結果的可靠性和置信水平都有較大程度的提升。但這些畢竟是預測的結果，分子生物學家，總是試圖證明真實存在的蛋白質，及其功能和在組織中的表達狀態(tài)。

當前，已有超過60種真核基因組測序計劃在進程之中。然而生物學方面的相關注釋還遠不能匹配如此洶涌而至的原始序列數(shù)據。當務之急是，研發(fā)出更多的準確而快速的分析工具，特別在尋找基因、確定其準確功能等應用方面。許多基因預測程序都可以免費共享。http://linkage.rockefeller.edu/wli/gene/.列出了很多相關參考。當前，幾乎沒有一個完美的程序可以解決用戶們的所有問題。這就需要用戶最大程度地利用主流程序的整合優(yōu)勢。

基因數(shù)目預測的主流軟件

十年前，研究人員開始預測人類基因的數(shù)目，這個數(shù)目在很長時間沒有明顯改變。幾年前，最多的預測是100,000；當人類基因組完成測序時，這個數(shù)目降至30,000�，F(xiàn)在有降至20,000左右。研究人員相信：充分考慮人類的基因組序列和其它生物的基因組序列，可以做出近似的估計。Affymetrix 的計算科學家David Kulp稱：“很難對基因數(shù)目的諸多估算，做出正誤的判別�！狈肿由飳W家正在尋找比預期設想的基因更小的基因。在某種情況下，就一段編碼的序列，很難確定是一個基因或是兩個基因的重疊。學術界仍不能完全肯定地歸類那些編碼多種蛋白質的基因，或是僅編碼RNA的類似基因的序列。

早在20世紀30年代,George Beadle 和Tatum認為每個基因僅僅編碼一個蛋白質。幾十年來這個說法仍舊沿襲�，F(xiàn)在則認為這樣的理論過于簡單。一個基因可以編譯成多種蛋白質，甚至可以轉錄成RNA。人類基因組中編碼蛋白質的區(qū)域，稱為外顯子，約僅占總體DNA的2%。一些簡單的基因僅含有一個外顯子。有些基因沒有功能，稱為假基因pseudogene：是與已知基因在不同部位有密切相似性的基因，但由于結構上有加入或缺失，而阻止了正常的轉錄或翻譯，以致使它們無功能。這樣就會增加基因預測的數(shù)量，造成許多假陽性的結果。英國劍橋的EBI(European Bioinformatics Institute)的基因預測專家Ewan Birney指出：“目前預測的人類24,500個基因中，有將近3,000個基因可能為pseudogene”。華盛頓大學的計算科學家Michael Brent稱：“如果在基因預測中準確地考慮到假基因的存在，那么預測的結果會更為精確。”

目前廣泛應用的基因預測方法是：“ab initio”方法，即通過探索DNA序列中特異的區(qū)域，如基因的起始區(qū)域和終止區(qū)域，來進行基因預測。另一種方法是比較基因組學的方法，即根據與已知的蛋白質或基因之間的相似性來發(fā)現(xiàn)新的基因。Ab initio程序對于那些類似于基因的序列，也給予歸類，所以總的預測數(shù)量要高出實際值；而比較的方法不考慮無相似關系的基因，所以估計的基因數(shù)目偏低。大多數(shù)人所熟知的一個ab initio程序叫做Gene Modeler是1990年新墨西哥洲大學的Chris Fields和Cari Soderlund研發(fā)的。當時是被應用在線蟲Caenorhabditis elegans的基因探尋過程中。那時出現(xiàn)的其它軟件都稍遜于Gene Modeler。例如，BLAST、FASTA能將DNA序列翻譯成蛋白質序列，并與已有的、蛋白質數(shù)據進行比較。

這個領域進展迅速，涌現(xiàn)出許多具有專業(yè)軟件編寫技能的預測人員，包括采用Gene Modeler的方法創(chuàng)建GeneID來尋找人類基因的Guigo。以及，編寫GeneParser軟件的Eric Snyder。GeneParser采用了一個稱為動力學程序的技術，將外顯子與不編碼蛋白質的內含子區(qū)分開來。Rockville的TIGR（The Institute for Genomic Research）的Steven Salzberg自從1994年，利用ab initio的方法，來改進尋找人類基因的程序。隨后的幾年里，他們又研發(fā)出幾個新的程序。其中的一個是與更為詳盡的背景信息相整合，進行基因預測。它可以更加清楚地預測外顯子和內含子的大小。另一個程序是同時作用于兩個完整的基因組，由計算機完成兩者的比較。許多研究人員更傾向于后種方法，原因是相似的物種，更為傾向于擁有相似的基因序列。National Human Genome Research Institute的遺傳學家Eric Green說，他及他的同事，已經從13個物種中進行了DNA比較，包括狗、牛、雞以及河豚魚。2003年8月14日的Nature上發(fā)表了他們對基因、以及調控區(qū)域的比較結果。

GENSCAN就是一個經典的基因預測軟件。1996年由MIT的Chris Burge開始編寫這個軟件程序。當時，Burge的許多同事主張采用比較的方法，他們隨機選取一個最新測序基因組中基因的DNA序列，與數(shù)據庫中已存在的基因進行聯(lián)配。但是Chris Burge認為：“利用人類基因組所獲知的信息，可能不能發(fā)現(xiàn)某些新的基因。” 他還積極吸取了加州大學計算機科學家David Haussler的經驗。很多年前，Haussler就意識到基因預測的問題與語言學家們所遇到的問題相類似。語言學家總是試圖尋找語言中句法、語法，以及其它某些特征。Haussler和其他人都建議從語言學中借助一種叫做Hidden Markov Model, HMM隱馬爾科夫模型的統(tǒng)計工具。在序列分析中，HMM通常是多重序列對位排列的概率模型，但也可用于單一序列的周期性模式的模型，比如代表發(fā)現(xiàn)基因外顯子的模式。在一個多重序列對位排列的模型中，用被稱作狀態(tài)的符號的概率分布代表排列中的每一列字母，插入和缺失用其他狀態(tài)表示。然后在模型內沿特定的路徑從一個狀態(tài)進入另一個狀態(tài)，試圖匹配一條給定的序列。從每一狀態(tài)選出下一個匹配符號，記錄其概率（頻率）和從前一狀態(tài)進入特定狀態(tài)的概率（過渡態(tài)概率）。狀態(tài)與過渡態(tài)的概率相乘就得到給定序列的概率。一般來說，HMM是一個對給定字符的統(tǒng)計模型，類似隨機狀態(tài)機器，從每一個狀態(tài)過渡到另一個就產生一個字符。狀態(tài)間的過渡態(tài)用過渡概率確定。HMM已成為許多基因預測算法的標準。Burge指出：目前存在一整套的能夠區(qū)分部分基因的模式和規(guī)則。比如，幾乎所有的基因在起始和終止區(qū)域存在特異的序列。外顯子的末端通常也存在一個特征序列，可以指導相關的酶切除外顯子下游的內含子。Burge已經利用這些規(guī)則分析了幾百個已知外顯子和內含子位置的基因序列。

GENSCAN是進行基因預測的首選工具。但是，即使最好的預測軟件也存在不足之處。GENSCAN就過分估算了基因數(shù)目。它的預測結果是人類基因組中有45,000個基因，相當于現(xiàn)在普遍認可數(shù)目的兩倍。Burge承認GENSCAN確實存在問題，但他認為太多的基因總比太少要好。對于過剩的預測，用戶可以積極去除假陽性的結果。Burge稱：GENSCAN可能不能預測基因的準確數(shù)目，但從人類和其它物種的基因數(shù)據分析中所得到的新的序列，可以進一步完善GENSCAN。他還指出，如果能繼續(xù)開展基因的探尋工作，他會更傾向于選用比較學的方法。

其他程序，如GeneSweep、Ensembl/Genewise，則是基于對數(shù)據進行組裝來尋找基因。但是它們比早期的比較學方法更為成熟。Genewise是Birney和他的同事，從已知的蛋白質序列著手進行基因分析的程序。這些蛋白質都來自已知氨基酸序列的蛋白質家族，具有保守的DNA序列。蛋白質或多或少的相類似。利用這些蛋白質家族組裝起來所形成的優(yōu)勢，計算機就能比較來自同種或不同個體已知的蛋白質序列和新的蛋白質序列。隨著更多的物種基因組被測序，比較整個基因組，而不是比較那些相對短小的序列，正逐漸變?yōu)楝F(xiàn)實。Affymetrix公司的Kulp稱：現(xiàn)在整合這些比較的方法來預測基因，已經成為最具應用前景的研究路線。并且眾多的應用程序都融合了多元策略進行基因預測。

Gene Counts

Program
Prediction
Ensembl/Genewise
24,500
Twinscan
25,600
GeneID
32,400
GENSCAN
45,000

表一：主流軟件對人類基因數(shù)目預測

基因序列分析的主流軟件

在一定的精度范圍內，利用生物信息學的方法和軟件對目標基因的基本特征進行分析，能夠讓分子生物學家更為迅速和全面地發(fā)現(xiàn)基因的特征，了解基因在生命體中的真實結構和功能，從而為大規(guī)模地開展基因的后續(xù)分析奠定基石。

核苷酸序列中蘊涵著豐富的信息，對于編碼基因序列的分析，主要是圍繞如下內容進行：尋找開放讀碼框、預測基因功能、分析選擇性剪切方式、分析基因多態(tài)性位點、分析基因表達調控區(qū)域、統(tǒng)計序列GC含量、追蹤密碼子使用偏向性、設計應用于目的基因的酶切位點和引物等，

尋找基因的開放讀碼框：基因的開放讀碼框（Open Reading Frame），包含從5’端翻譯起始密碼子(ATG)到終止密碼子（TAA、TAG、TGA）之間的一段編碼蛋白質的堿基序列。開放閱讀框的預測程序主要是針對編碼區(qū)的特征進行統(tǒng)計、以及相關模式的識別或是利用同源比對的識別方法�，F(xiàn)在較為主流的程序是GetOrf、ORFFinder、Plotorf，就是專門識別ORF的有利工具。一些功能強大的軟件如：GENSCAN、GRAIL = 2 \* ROMAN II、GENEMARK、GlimmerM除進行ORF的分子外，還可對多種基因的結構特征進行分析。專業(yè)人員常用的軟件還有：Genefinder、Genehunter、FGeneSH、FGeneSB、FGeneSV、Generation、BCM Gene Finder、Genebuilder等。其中GlimmerM和FGeneSB更適與原核生物的基因預測。

外顯子和內含子剪切位點的分析：在真核生物中基因的外顯子和內含子長度不一，但剪切供體和受體的位點具有相當程度的保守性。所謂的供體位點(donor)是基因內含子5’
端GU的位置；受體位點(acceptor)是內含子3’端AG的位置。對于mRNA或cDNA序列的分析是通過比對相關的基因組序列，來進行結構分析。例如，Spidey（是NCBI開發(fā)的工具軟件），Sim4，BLAST等程序。NetGene2和Splice View可以提供編碼區(qū)核苷酸序列剪切位點的直接預測。

分析基因的選擇性剪切：基因的選擇性剪切機制(Alternative splicing)：真核基因轉錄成前體mRNA后，還要進一步改裝成成熟的mRNA。許多基因并不是一次全部切除其內含子，而是在不同的細胞、或不同的發(fā)育階段，選擇性地剪切其內含子，從而生成不同的mRNA。隨著數(shù)據庫中數(shù)據信息的指數(shù)增加，目前運用生物信息學的工具對基因產物的選擇性剪切，也能開展較為詳盡的分析。眾多的選擇性剪切機制數(shù)據庫，可利用http://scholar.google.com/進行在線搜索。較為流行的如：ProSplicer就是基于蛋白質、mRNA、EST序列的選擇性剪切數(shù)據庫。

分析基因的表達調控區(qū)域：基因組中全部基因的表達，都遵循嚴整而精確的調控機制。基因的調控區(qū)域序列相關特征的深入分析，為全面了解基因的功能提供豐富的數(shù)據基礎。 = 1 \* GB2 ⑴脊椎動物的5’
端的啟動子周圍是CpG島，它是尋找基因的重要線索。EMBL提供的CpG島的計算工具是：CpGPlot/CpGReport/Isochore。CpG Island和CpG promoter也是較為常用的工具。 = 2 \* GB2 ⑵對基因的核心啟動子、轉錄因子結合位點、轉錄起始位點的識別：可充分利用TRRD、TransFac、MIRAGE、EPD等在線基因調控區(qū)域的數(shù)據庫；Softberry軟件集團http://www.softberry.com/
推出的：BPROM、TSSP、TSSG、TSSW等軟件也值得使用。 = 3 \* GB2 ⑶預測轉錄終止的信息：使用的工具是Hcpolya。 = 4 \* GB2 ⑷分析密碼子的使用偏性：有DOS運行界面的CodenW、SYCO、CHIP、Codon usage。 = 5 \* GB2 ⑸分析限制性核酸內切酶位點：WEB Cutter、CUTTER、TACG interface、Watcut、NEB cutter、Digest等。

核苷酸序列綜合分析軟件：用戶通常需要對目的基因進行多重分析，所以將序列拼接、基因序列的組分分析、編碼區(qū)域預測、序列比對、引物設計、酶切位點預測等多項獨立的分析加以整合的綜合分析軟件應運而生。目前有GeneBuilder、DNA Tool、SEQ tools、DNAssist、GeneTool、DNAman、DNA Strider、p DRAW32、gene-explorer等。GeneBuiler就是多模塊單獨執(zhí)行功能的基因結構預測系統(tǒng)(Gene Structure Prediction System)。

新數(shù)據的獲得驅動著軟件的研發(fā)。目前現(xiàn)有的海量數(shù)據庫，它們的質量和特征差異懸殊，仍需進行繼續(xù)完善。London-based online的出版商BioMed Central的數(shù)據編輯Matthew Day稱：“目前還沒有較為理想的公共數(shù)據庫集合群，服務于所有不同研究領域生物學工作者。所有的數(shù)據都應具備友好的用戶界面，并與期刊數(shù)據庫相鏈接。那時每個生物學者都可以暢快淋漓地享受數(shù)據汪洋的航行。

在基因組時代，那些小的實驗室很容易感到滯后性。相比之下，規(guī)模較大的生物技術公司，現(xiàn)在僅在一個下午完成的工作，對于中型的實驗室可能要耗費數(shù)月之久。但是生物信息軟件技術將專業(yè)的數(shù)據分析知識和技術，全部壓縮到密集的程序集中。事實證明，這些軟件的應用前景將更加廣泛，操作界面也日趨簡化，運行的結果更易于注釋。嶄新的在線服務和軟件產品，讓枯燥無味的數(shù)據分析變得妙趣橫生。

分享到：QQ空間新浪微博騰訊微博微信

【所有文章】【本類新聞】【相關產品】【關閉窗口】

本類文章

本類新聞

成人欧美一区二区三区黑人免费_亚洲永久无码7777KKK_国产欧美日韩综合精品一区二区_欧美在线一区二区三区

基因數(shù)據分析的主流軟件