用于檢測基因表達水平的 DNA 微陣列實驗,應(yīng)用之一是比較實驗,目的是比較兩個條件下的基因表達差異,從中識別出與條件相關(guān)的特異性基因,例如,識別可用于腫瘤分型的特異基因等。為了提高實驗的可靠性,對于同一樣本,往往有兩次或更多次的重復(fù)實驗,但是,由于 DNA 微陣列的費用仍然很昂貴,不可能重復(fù)足夠多的次數(shù)來滿足實驗數(shù)據(jù)分析的要求,因此需要采用統(tǒng)計方法來分析這些數(shù)據(jù)。對于這些表達數(shù)據(jù)的分析,目的就是要識別在兩個條件下有顯著表達差異的基因。何謂顯著表達差異?通常是指一個基因在兩個條件中表達水平的檢測值在排除實驗、檢測等因素外,達到一定的差異,具有統(tǒng)計學意義,同時也具有生物學意義。常用的分析方法有三類,*類稱之為倍數(shù)分析,計算每一個基因在兩個條件下的 Ratio 值,若大于給定閾值,則為表達差異顯著的基因;第二類方法采用統(tǒng)計分析中的 t 檢驗和方差分析,計算表達差異的置信度,來分析差異是否具有統(tǒng)計顯著性;第三類是建模的方法,通過確定兩個條件下的模型參數(shù)是否相同來判斷表達差異的顯著性,例如貝葉斯方法。
倍數(shù)分析
早期基于 cDNA 微陣列技術(shù)的比較實驗,用倍數(shù)來分析基因表達水平差異,即計算基因在兩個條件下表達水平的 Ratio 值。用
,可表示基因 g 在條件 1 和 2 下的表達水平差異。對于 cDNA 微陣列實驗,是將兩個條件下的樣本混合后與 cDNA 微陣列進行雜交實驗,得到的是成對數(shù)據(jù),對每次實驗得到的數(shù)據(jù)計算
。而對于寡核苷酸芯片,首先分別計算兩個樣本的重復(fù)實驗的歸一化表達水平的平均值,然后計算其 Ratio 值。當
<1 或
<1 表示基因在條件 1 是下調(diào)的,而
>2 或 <1/2 ,則認為該基因的表達差異是顯著的。然而,對表達數(shù)據(jù)仔細考察后可以發(fā)現(xiàn),這樣簡單的 2 倍法并不能產(chǎn)生*的結(jié)果,因為因子 2 在不同的表達水平上有相當不同的顯著性。對于低表達水平的基因,其信噪比太低,用 2 倍法作為判斷條件太寬松,而對于高表達基因,條件又太苛刻,往往小于 2 就具有生物學意義。在具體應(yīng)用中,并沒有明確的閾值,往往根據(jù)分析的具體要求由數(shù)據(jù)分析者自行確定。
t 檢驗
于兩個條件下的多次重復(fù)實驗,為了判斷基因的表達差異是否具有顯著性,在應(yīng)用中較多的是采用假設(shè)檢驗,包括兩個條件下的 t 檢驗和多個條件下的方差分析( ANOVA ),這里僅僅介紹 t 檢驗,關(guān)于 ANOVA 請參考相應(yīng)的統(tǒng)計分析書籍。
零假設(shè)為
。 t 統(tǒng)計量的計算公式如下:
,
為某一條件下的重復(fù)實驗次數(shù),Xgij是基因g在第i個條件下第j次重復(fù)實驗的表達水平測量值。根據(jù)統(tǒng)計量
經(jīng)常較小,
(8-7)
(8-9)
假設(shè)
的值較小,導(dǎo)致
獨立于基因表達水平,在分母上增加 S0 , 增加 S0 后可以降低
大于閾值的基因被認為是表達差異顯著的。
8.3.3 貝葉斯分析
由于 DNA 微陣列數(shù)據(jù)噪聲大、波動大,而且在大量數(shù)據(jù)的背后還有很多相關(guān)變量不能被觀察到,因此,貝葉斯方法可以用來分析微陣列表達數(shù)據(jù)。貝葉斯分析可以簡單描述如下:

為真的概率,稱為后驗概率; P(M) 稱為先驗概率,表示在沒有得到任何數(shù)據(jù)之前所估計的模型 M 為真的概率; P(D|M) 是指似然度,表示從模型 M 得到一個觀測數(shù)據(jù)集 D 的概率。貝葉斯推斷是通過參數(shù)估計和模型選擇來實現(xiàn)任務(wù)的,zui常用的方法是zui大后驗概率 (MAP) 估計和zui大似然 (ML) 估計。在用貝葉斯方法分析表達數(shù)據(jù)時,首先假設(shè)在給定條件下,一個基因的表達水平測量值是獨立的,并滿足正態(tài)分布。根據(jù)經(jīng)驗,這一假設(shè)是合理的,特別是表達水平的對數(shù)大致服從對數(shù)正態(tài)分布。對于重復(fù)實驗,也可以引入伽瑪分布、高斯 / 伽瑪混合分布等。一個基因在一種條件下的表達測量值可以用一個正態(tài)分布
,似然函數(shù)可以由下式給出:
和
的選擇有幾種,一般采用共扼先驗分布。先驗分布的四個超參數(shù)構(gòu)成向量
(8-12)
超參數(shù)
可以分別解釋為
分別解釋為
和
(8-13)
其中
和
和<img alt="" "="" align="middle" border="1" height="22" data-cke-saved-src="http://www.bio1000.com/uploads/allimg/120625/145912L15-42.png" src="http://www.bio1000.com/uploads/allimg/120625/145912L15-42.png" width="24" style="vertical-align: middle; border: 0px;"> 。