廣州市黃埔區學大道攬月路廣州企業孵化器B座402
電話:020-85625352
手機:18102256923、18102253682
Email:servers@gzscbio.com
Fax:020-85625352
QQ:386244141
miRNA與lncRNA的生物信息學預測
日期:2019-03-26 標簽:miRNA與lncRNA的生物信息學預測
圖1 生物信息學在miRNA研究中的應用
當開始研究一基因是否為一個miRNA調控的靶基因時,可以用不同的生物信息學計算方法來分析每個序列(如mRNA的3'-UTR區序列),這些計算方法采用不同的參數來預測一個給定的靶mRNA內具功能性miRNA結合位點的可能性。由于每種計算方法的有效性不同,下面3種計算方法應該被用來預測miRNA結合位點:miRanda、TargetScan和PicTar.這3種計算方法都允許研究者輸入一個基因符號,這些計算方法將計算此基因內所有預測的miRNA結合位點。此外,這些計算方法可測定一個給定的miRNA所有的靶mRNA.因為不同的計算方法會預測出不同的miRNA結合位點,所以同時使用多種計算方法進行預測非常必要。值得注意的是,盡管miRNA結合位點在不同物種間的保守性是各種不同計算方法的組成部分,但并不是一個功能性位點所必需的。由于不同計算方法預測的結果存在很大的差異,如何確定哪些預測的結合位點需要進一步的實驗驗證成為研究者要面臨的一個難題。作者認為至少這3種計算方法中的2種計算方法均預測到的miRNA結合位點,有必要進一步用實驗驗證。
因為很多經種子序列匹配預測的miRNA靶經體內驗證實驗證實并不是真的miRNA靶,為了起始一步減少預測到的抑制一給定的靶mRNA表達的miRNA的數量,進一步的程序分析是有必要的。結構特征控制著miRNA/mRNA間的相互作用的觀點已被越來越多的人所接受。例如,一個RNA分子的大部分結構是高度復雜性的,只有特定的單鏈區域允許miRNAs接近并與互補位點結合。因此,復雜的RNA二級結構可能阻止miRNA/mRNA的相互作用。最近有研究證實,絕大部分已證實的靶的一個共同特征是優先與基于熱動力學在RNA分子中容易接近且沒有復雜二級結構的3’-UTR區中的位點。由于RNA可接近性可能是靶識別的一個關鍵特征,所以有必要采用mFold軟件測定預測到的miRNA結合位點5’端和3’端各70個核苷酸的自由能,當其低于平均隨機自由能時提示此位點允許miRNA接近并結合[20].這些允許miRNA接近并結合起來的位點,有必要進一步用實驗進行驗證。
在不同物種中成熟miRNA均是從具有莖環狀二級結構的前體加工而來,具有較大的序列同源性??寺〉降?/span>miRNA序列通過檢索基因組數據庫找到在基因組中的位置,在和周圍基因組序列比較中發現他們同樣具有相似的前體結構,多位于編碼基因間或內含子反向重復區域。一些miRNA基因在進化上具有高度保守性,此為生物信息學篩選的基礎。該方法根據比較基因組學原理,并結合生物信息軟件在已測序基因組中進行搜索比對,根據同源性的高低再進行RNA二級結構預測,將符合條件的候選miRNA與已經通過試驗鑒定的miRNA分子進行比較分析,最終確定該物種miRNA的分步及數量。目前國際上較為普遍使用的兩個計算機分析工具是miRseeker和miRscan,前者已用于果蠅及昆蟲基因組候選基因的系統分析,后者則用于線蟲和脊椎動物候選基因的分析。這兩個工具已經成功鑒定出了大量的miRNA基因并通過了實驗證實。由于miRseeker和miRscan的高靈敏度,它們已用于人類miRNA基因的尋找。由于該方法只能用于已完成基因組測序的物種,而那些未完成測序的物種就無能為力,而且由于miRNA前體長度的可變性,故用計算機方法尋找新基因具有一定的遺漏性,所以目前大多數實驗室將計算機分析與實驗方法結合使用,使得miRNA的發現量成幾何級數增長。目前日益發展的微陣列技術也在篩選miRNA基因方面顯示了極大的潛力。
隨著疾病特異性的miRNAs不斷被鑒定,對感興趣的疾病通路中的新靶基因進行驗證可能催生新的治療策略。因此,能夠鑒定和驗證miRNA/mRNA靶配對具有極其重要的意義。盡管生物信息學方法和自由能分析并不完美,但可使作者能夠對推測的miRNA/mRNA靶配對進行鑒定。一旦生物信息學方法預測成功,可以通過以下4條標準驗證miRNA/mRNA靶配對的真實性。(1)miRNA/mRNA靶相互作用得到驗證。(2)miRNA/mRNA共表達。(3)給定miRNA對其蛋白表達有可預測的影響。即用此miRNA的類似物可減少靶基因表達水平,而用此miRNA特異性抑制劑可增加靶基因的表達水平。(4)miRNA介導靶基因表達的調控導致相應的生物學功能的改變。
2 LncRNA的生物信息學預測
對lncRNA進行鑒定時,采取的策略是收集不同類型的數據(包括polyA RNA sequencing、nonpolyA RNA sequencing、表觀遺傳信號值、編碼可能性、保守性和RNA結構等),并對其進行分析。例如CDS的RNA-seqpolyA的表達值比較高,而ncRNA的RNA-seqnon-polyA表達值比較高。通過對不同類型數據的整合,還可以進一步得到不同類型基因元素的網絡調控關系。
對lncRNA進行綜合分析的一般流程如下:(1)將基因組劃分成小的單位(bin),根據Gencode的注釋信息對每個bin進行注釋;(2)分別計算每個bin的特征值,這些特征值包括序列保守性、結構穩定性、RNA表達值、組蛋白修飾、轉錄因子結合等;(3)利用機器學習的模型,將lncRNA與其他基因類別區分開,并且對新的lncRNA進行預測。
圖2 利用數據整合對lncRNA進行鑒定
圖3 lncRNA綜合分析方法流程示例
有的時候我們的專業知識不足以完成分析和預測。尤其在面對高通量數據時,從中挖掘有用的信息尤為關鍵。這時可以用到機器學習(machinelearning)的方法,令機器自動分析數據,比如特征提取或是分類。機器學習應用在生物信息學主要有兩大分支,即監督學習(supervisedlearning)和非監督學習(unsupervisedlearning)。在監督學習問題中,每個數據擁有一個對應標簽,我們希望通過數據建立一個模型,根據數據預測標簽。傳統的監督學習方法包括線性判別分析(LDA)、決策樹(decisiontree)、最近鄰法(nearestneighbor)和神經網絡(neuralnetwork)。20世紀90年代后,誕生了一批很有影響力的工作,包括支持向量機(SVM)、Adaboosting和隨機森林(randomforest),相比于傳統的方法,上述方法更好地處理了過擬合(overfitting)的問題,從而在實際應用中有很好的預測效果。
LncRNA研究是基因組時代重要的科學前沿,因為它有可能揭示一個全新的由RNA介導的遺傳信息表達調控網絡,從不同于蛋白質編碼基因的角度來注釋和闡明基因組的結構與功能,并為人類的疾病研究和治療提供新的思路和方法。同時,新一代測序技術的發展也為鑒定lncRNA的計算機方法提供了強大的支持。以下是整理的長非編碼RNA(lncRNA,lincRNA)數據庫資源列表(按字母排序)。國內外長非編碼RNA的研究剛剛興起,希望這資源對國內的非編碼RNA的研究者有所幫助。
(1) ChIPBase:提供長鏈非編碼RNA的表達圖譜和轉錄調控的全面鑒定和注釋。整合了高通量的RNA-seq鑒定的lncRNA及其表達圖譜和ChIP-Seq實驗技術鑒定的轉錄因子結合位點。
網站:http://deepbase.sysu.edu.cn/chipbase/
更新:2012年11月
(2)LNCipedia:對人類的長鏈非編碼RNA的序列和結構全面的注釋。
更新:2012年7月
(3)lncRNAdb:提供有生物學功能的長鏈非編碼RNA的全面注釋。這是長鏈非編碼RNA研究領域的大牛John mattick實驗室構建的網站。
更新:2011年7月
(4)LncRNADisease:提供了文獻報道的疾病相關的長鏈非編碼RNA的注釋。
網站:http://cmbi.bjmu.edu.cn/lncrnadisease
更新:2012年7月
(5)NONCODE:提供對長鏈非編碼RNA的全面注釋,包括表達和該團隊開發的ncFANs計算機軟件預測的lncRNA功能。這是非編碼RNA研究的知名數據庫,已經更新到第三版。
更新:2012年1月
(6)NRED: 提供人和小鼠的長鏈非編碼RNA在芯片數據的表達信息。這也是John mattick實驗室構建的網站。
網站:http://jsm-research.imb.uq.edu.au/nred/
更新: 2009年