廣州市天河區黃埔大道中124號2705室
電話:020-29031124
手機:18102256923
Email:servers@gzscbio.com
Fax:020-85625352
QQ:2913120624
基因表達數據主要來自于兩個方面:(1)基因芯片,這是最主要的表達數據來源,利用基因芯片技術可以大規模并行獲取基因轉錄結果mRNA的數據;(2)表達系列分析SAGE和差異顯示、蛋白質芯片等是快速檢測蛋白質及其含量的另一類技術。
通過分析基因表達數據,發現與疾病直接相關的基因,以及發現這些基因的活動規律。
聚類分析是模式識別中一種非常有吸引力的方法,特別適用于模式分類數不知道的情況?;虮磉_數據聚類分析一般包括以下幾個步驟:(1)確定基因表達的數據;(2)計算相似性矩陣,各個矩陣元素代表兩個基因的表達是否相似;(3)選擇算法進行聚類分析;(4)顯示分析結果。對數據進行聚類分析之前,必須將包含在基因表達矩陣中的數據進行相似程度分析,并且對分析結果進行量化。通常情況下,相似往往被賦于一個較大的量化的值,而不相似則由一個較小的量化的值來表示。在實際計算中,往往以距離代替相似的概念,相似性度量被轉化為兩個基因表達模式之間的距離。距離越小,表達模式越相近,反之,則表達模式差異大。
圖1 表達模式的關系
幾種常用的聚類方法:
1、簡單聚類
假設有n個基因,表達數據向量分別為X1, X2,…, XN;令任意一個基因的表達向量為第一個聚類的中心,依次處理其它基因。
在處理第i個基因時,首先計算該基因的表達數據向量與現有各類中心的距離;假設與第j類的距離Dij最小,并且Dij<T,則將基因i分配到第j類;否則生成一個新類,該類的中心為第i個基因的表達向量。
2、層次式聚類
3、K平均聚類
任意選取K個基因表達向量作為初始聚類中心
Z1, Z2,…, Zk
反復迭代計算;如果||X-Zj(l)||< ||X-Zi(l)||(i=1,2,…,K,i?j),則將X所代表的基因歸于第j類。按照上述辦法處理所有的基因;經過上述處理,聚類可能發生變化,因此需要重新計算K個新聚類中心:
對于所有的聚類中心,如果Zj(l+1)=Zj(l)(j=1,2,…,K),則迭代結束,得到最后的聚類結果;否則繼續進行迭代計算。
4、自組織映射神經網絡
圖3 SOM結構圖
圖4 SOM聚類結果
5、模糊聚類分析方法
主要過程:
(1)建立模糊相似矩陣
(2)生成模糊等價矩陣
(3)構建動態聚類圖
6、聚類分析結果的樹圖表示
圖5 聚類分析結果樹圖
基因調控網絡分析,一個基因網絡由一組生物分子(如基因、蛋白質)以及它們之間的相互作用構成,這些生物分子共同完成一些特定的細胞功能任務。在實際分析過程中,往往以圖這種數據結構表示基因網絡,圖中的節點代表基因或者蛋白質,而節點之間的連線代表基因、蛋白質之間的相互作用?;蚓W絡描述了特定細胞或組織中的功能路徑,如代謝、基因調控,信號傳導等。
基因表達實際上是細胞、組織、器官受遺傳和環境影響的結果。一個基因的轉錄和表達由細胞的生化狀態所決定,在一個基因的轉錄過程中,一組轉錄因子作用于該基因的啟動子區域,控制該基因轉錄,而這些轉錄因子本身又是其它基因的產物。當一個基因通過轉錄、翻譯形成功能基因產物后,它將改變細胞的生化狀態,從而直接或間接地影響其它基因的表達,甚至影響自身的表達。多個基因的表達不斷變化,使得細胞的生化狀態不斷地變化。
一個基因的表達受其它基因的影響,而這個基因又會影響其它基因的表達,這種相互影響、相互制約關系構成了復雜的基因表達調控網絡?;虮磉_數據之中隱含基因之間的相互作用關系,因而可以通過分析基因表達數據,構建基因調控網絡。
幾種基因調控網絡模型:
1、布爾網絡模型
圖6 布爾網絡模型
表1 節點C真值表
圖7 作用規則與系統運行軌跡
圖8 布爾網絡模型狀態轉換
2、線性組合模型
線性組合模型是一種連續網絡模型,在這種模型中,一個基因的表達值是若干個其它基因表達值的加權和?;颈硎拘问綖椋?/span>
3、加權矩陣模型
加權矩陣模型與線性組合模型相似,在該模型中,一個基因的表達值是其它基因表達值的函數。