廣州市天河區黃埔大道中124號2705室
電話:020-29031124
手機:18102256923
Email:servers@gzscbio.com
Fax:020-85625352
QQ:2913120624
全基因組序列拼接是生物信息學研究領域的核心問題。新一代測序技術正在引領生命科學研究進入一個嶄新階段。人類基因組計劃完成之后,獲得個體基因組的全部序列對于生物學研究、探索與認識生命的本質具有十分重要的科學意義。
新一代測序技術作為目前生命科學研究的基礎手段,隨著應用領域的迅速擴增與不斷深入,對生物信息學提出了必須正視的基礎研究課題。而全基因組序列拼接作為生物信息學的核心問題,面臨的主要挑戰有:(1)海量的數據(覆蓋深度一般為40-200倍,數據量達20-200GB),迫切需要海量數據的拼接組裝算法;(2)測序數據中的錯誤,容易導致錯拼;(3)基因組中重復片段大量存在,由于讀取片段reads長度過短,一般只有幾十個堿基,這使得重復序列的處理變得困難。
針對新一代測序數據reads長度較短、數據海量的特點,全基因組測序方面的數據分析軟件的研發,已成為生物信息學領域最迫切、最重要的研究課題。雖然目前已開發有一些全基因組拼接軟件,但是基本都局限在大型計算平臺上完成數據分析過程,難以滿足一般的研究需求,而且數據處理速度仍然遠遠落后于數據產生速度,已經成為整個基因組圖譜繪制工作的瓶頸,并且其拼接結果在準確性方面還有待提高。
基因組序列拼接的核心思想是利用序列之間的交疊關系,通過類似于“搭積木”的方式重建目標基因組序列。其基本方法是將序列之間的交疊關系轉換成計算機可以識別的結構,通過不斷迭代擴展的方式延長目標序列,然后利用配對數據,確定各個目標序列的相對方向和位置關系,最終還原目標基因組序列。 基于新一代測序數據的基因組序列拼接,通常分為如下三個階段:(1)數據的預處理階段。該階段通過特定的方法,移除測序數據中的錯誤堿基;(2)基因組連續片段(contigs)生成階段。該階段將reads拼接成contigs;(3)超長序列片段(scaffoldings)組裝階段。該階段使用配對數據,確定contigs之間的方向和位置關系,生成scaffoldings。
全基因組從頭測序拼接(denovoassembly)是生物信息學研究領域的核心問題。測序產生的讀取片段(reads)數據通過序列拼接、組裝,獲得基因組的堿基排列。目前,基于新一代測序數據的從頭測序拼接組裝算法,主要基于3種策略:貪心(greedy)、交疊-排列-生成共有序列(Overlap-Layout-Consensus,OLC)與DeBruijn圖。
1 貪心策略
貪心策略類型的序列拼接算法主要采用種子迭代擴展的方法,按一定條件選擇初始reads作為待生成contigs的種子,通過啟發式搜索方式使得每一步都合并與其具有最多交疊的reads,直至reads或contigs兩端都不能再做進一步的擴展。一般而言,reads的選擇是按照拼接質量遞減的順序考慮的,拼接質量通常用堿基質量和覆蓋度來衡量。為避免錯拼,有些擴展操作在發現沖突的信息時就立即停止。SSAKE、SHARCGS、VCAKE即采用了該類拼接策略。SSAKE和VCAKE能夠處理非完全匹配的reads,SHARCGS適用于均勻分布、非配對的reads.貪心策略適用于小型基因組,而對于有大量重復序列存在的大型基因組的測序數據進行拼接時,拼接效果往往很差。
2 交疊-排列-生成共有序列(OLC)策略
OLC策略在第一代測序中被廣泛采用,并取得了很好的結果。該種策略主要包含3個主要的步驟:(1)構建交疊圖,計算任意兩條reads之間的交疊。為了減少計算復雜度,可以先對reads建立類似后綴數據、后綴樹的索引,而后在所建索引的基礎上進行計算;(2)排列reads,確定reads之間的相對位置,建立ove-rlap圖,分析overlap圖,獲得遍歷整個圖的最佳近似路徑;(3)生成共有序列,通過多序列比對等方法,獲得最終的基因組序列。
由于新一代測序數據的reads海量,計算reads交疊的平方復雜度以及reads長度較短等限制, 基于OLC策略的拼接方法并不適于處理新一代的海量短序列數據,為此,在該種策略的基礎上又相繼提出了多個更加實用的拼接算法,主要有:CABOG、Edena、Shorty。Shorty用于處理SOLiD數據,利用300-500bp長度的種子上的配對數據,估算兩個相鄰contigs之間的gap的大小。CABOG采用一種被稱為“rocksandstones”的技術,先通過reads之間的交疊關系,建立reads之間的多序列比對,然后使用配對數據分割不滿足約束條件的多序列比對,再由多序列比對上的配對數據確定其相對位置,最終生成共有序列。
隨著測序技術的不斷發展,基因組測序產生的數據質量會越來越高,生成的reads片段也會越來越長,以reads為計算中心的拼接策略或許會再次進入人們的視野,成為研究主題。
3 De Bruijn圖策略
基于De Bruijn圖(DBG)策略的拼接算法被最廣泛地應用到新一代測序數據的處理中。典型算法有:ABySS、ALLPATHS、Euler-SR、SOAPdenovo和Velvet?;贒e Bruijn圖的拼接算法,非常巧妙地將具有交疊關系的reads映射到一起,降低了計算交疊時的復雜度,減少了內存消耗。
基于DeBruijn圖策略的拼接算法的大致步驟是:(1)構建De Bruijn圖。將reads分割成一系列連續的子串k-mers (一般用K值表征kmer堿基數目的大?。?,作為圖中的邊,相鄰的兩個k-mers交疊(K-1)個堿基;(2)化簡De Bruijn圖。方法是合并路徑出度入度唯一的節點,按照一定的規則去除圖中的尖端(tips)和泡狀結構(bubbles);(3)構建contigs.在DeBruijn圖或其子圖中尋找一條最優的歐拉路徑(一次且僅有一次地經過每條邊的路徑),該路徑對應的堿基序列即為contigs; (4)生成scaffolding。利用配對數據,確定contigs之間的相對方向與位置關系,對contigs進行組裝,并填充contigs之間的gaps,最終得到scaffolds序列。
圖1 De Bruijn圖示例
基于De Bruijn圖的拼接算法中,一個關鍵操作是K值的選擇。選擇大的K值能夠解決更多的短小重復片段(tinyrepeats),降低圖的復雜性,但同時也降低了圖的連通性,后續的拼接過程會產生更多的間隙(gaps);選擇小的K值,對應的De Bruijn圖具有相對好的連通性,但圖變得更加復雜,重復片段的處理也變得更加困難,增加了錯拼的可能性。目前, 還沒有通用的K值選擇方法,需要根據特定的應用,選擇合適的K值。一般認為對于原核生物的基因組拼接,K值選取在21-35之間是合適的;而對于真核生物基因組的K值的選擇要相對復雜得多,目前還沒有明確的結論或者一致的建議。
4序列拼接算法的比較
自從基因組測序產生以來,序列拼接算法就不斷地處于研發和改進之中。通常,基于圖的拼接算法與采用貪心策略的拼接算法相比,在序列長度和準確率,運行時間以及內存消耗等方面,往往具有相對更好的拼接表現?;贠LC策略的拼接算法多用于傳統測序數據的拼接,而基于De Bruijn圖的拼接算法則更多地用于新一代測序數據。不同的拼接算法在處理不同的測序數據時,通常具有各異的表現,目前還沒有一種拼接程序能在所有方面都表現得出色。由于基因組和測序數據的復雜性,拼接長度與準確率往往是一個平衡的關系,高精度往往是以犧牲長度為代價的,反之亦然。而這種平衡如何選擇,則取決于具體的應用。同樣,拼接結果的準確率與算法的內存消耗也存在類似的平衡關系。就適用的基因組規模而言,除了SOAPdenovo、AByss等少數軟件外,大多數拼接軟件只適用于簡單的小型基因組。目前,幾乎所有軟件都需要較大內存的計算平臺。如何優化數據處理方法、高效地存儲海量reads數據,是序列拼接算法軟件研發過程中必須面對的一個重要課題。