一次微陣列實驗?zāi)塬@得細(xì)胞在某一條件下的全基因組表達(dá)數(shù)據(jù),包含成千上萬個基因在細(xì)胞中的相對或豐度,不同條件(細(xì)胞周期的不同階段、藥物作用時間、腫瘤類型、不同病人等)下的全基因組表達(dá)數(shù)據(jù)就構(gòu)成了一個G×N的數(shù)據(jù)矩陣M,通常情況下G>>N,其中每一個元素

代表基因 i 在 N 個條件下的表達(dá)水平,稱為基因 i 的表達(dá)譜,列向量
(8-1)
對基因表達(dá)數(shù)據(jù)進行聚類、分類等數(shù)據(jù)分析之前,往往需要進行預(yù)處理,包括對丟失數(shù)據(jù)進行填補、清除不完整的數(shù)據(jù)或合并重復(fù)數(shù)據(jù)等數(shù)據(jù)清洗,根據(jù)分析的目的進行數(shù)據(jù)過濾,以及針對分析方法選擇合適的數(shù)據(jù)轉(zhuǎn)換方法等。
數(shù)據(jù)清洗是數(shù)據(jù)分析前必須進行的一項工作,對于基因表達(dá)數(shù)據(jù),目的是去除表達(dá)水平是負(fù)值或很小的數(shù)據(jù)、或者明顯的噪聲數(shù)據(jù) ( 單個異常大或小的峰谷信號 ) ,同時處理缺失數(shù)據(jù)。 DNA 微陣列實驗得到的數(shù)據(jù)一般是經(jīng)過歸一化處理的,每個點的信號強度是前景信號減去背景信號,因此有時會出現(xiàn)負(fù)值或很小的值,顯然負(fù)值是沒有生物學(xué)意義的。對于這些數(shù)據(jù)點,通過數(shù)據(jù)清洗過程可以置為缺失或賦予統(tǒng)一的數(shù)值,例如,對于寡核苷酸芯片數(shù)據(jù),可以將低于 100 的數(shù)據(jù)全部設(shè)置為 100 。 DNA 微陣列表達(dá)數(shù)據(jù)由于實驗條件和芯片的因素,檢測得到的信號強度往往與細(xì)胞中實際的 mRNA 豐度之間沒有對應(yīng)關(guān)系,因此,通常是采用兩個條件下的信號強度的比值,例如,在 cDNA 微陣列雙色實驗中,zui后得到的往往是 Ratio 值。而寡核苷酸單色實驗的結(jié)果是信號強度,然而在處理一組數(shù)據(jù)時,也往往選擇一個樣本作為對照樣本,將實驗數(shù)據(jù)轉(zhuǎn)換成 Ratio 值。在計算 Ratio 值時,如果參考樣本的信號強度很小,就可能得到很大的 Ratio 。如果一個基因譜中僅僅存在單個特別大的 Ratio 值,稱之為異常數(shù)據(jù)點,這往往是由于噪聲造成的。對于這個異常數(shù)據(jù)點,必須去除。數(shù)據(jù)的缺失對于某些后續(xù)數(shù)據(jù)分析方法(例如層次式聚類和 PCA )來說有著非常大的影響,甚至是致命性的,這時必須采取相應(yīng)的方法。一個簡單方法是直接過濾掉這些存在缺失數(shù)據(jù)項的行向量或列向量。另一個方法是設(shè)定閾值,計算行向量或列向量中的缺失項數(shù)目,如果達(dá)到該閾值,則將該數(shù)據(jù)項所在行或列從數(shù)據(jù)矩陣 M 中刪除;如果沒有達(dá)到閾值但存在缺失項,對這些缺失項可以進行插值。以 0 代替缺失項,或用基因表達(dá)譜中的平均值或中值進行替代,這些方法都比較簡單,但是否與真實值接近,很難進行評估。較為復(fù)雜和可靠的方法是,分析基因表達(dá)譜的模式,從中得到相鄰數(shù)據(jù)點之間的關(guān)系,根據(jù)這種關(guān)系,利用相鄰數(shù)據(jù)點估算得到缺失值。這種方法類似于 k 近鄰方法,需要有足夠的完整的模式來發(fā)現(xiàn)有缺失值的相鄰模式,需要有足夠的值來確定它們的鄰居。
在細(xì)胞中,基因表達(dá)有時空特異性,在某一條件下,能夠表達(dá)的基因占基因總數(shù)的少部分,而大多數(shù)基因僅維持基礎(chǔ)轉(zhuǎn)錄或不轉(zhuǎn)錄,轉(zhuǎn)錄本豐度很小,因此, DNA 微陣列實驗得到的數(shù)據(jù)矩陣中存在大量的基因表達(dá)譜曲線是平坦的,即基因表達(dá)水平變化很小。對于這些基因,往往不是生物學(xué)家所關(guān)心的,而它們的存在,卻會大大增加數(shù)據(jù)分析的復(fù)雜性,而且會對一些分析方法的結(jié)果有干擾。對這些數(shù)據(jù)進行過濾是非常有必要的。要保留的基因表達(dá)譜究竟占總體數(shù)據(jù)的多少比例?這個問題是與分析目的密切相關(guān)的,例如對于分析細(xì)胞周期相關(guān)的基因表達(dá),保留的基因可能較多;而對于腫瘤特異基因表達(dá)譜分析,保留的基因往往較少。過濾基因所采用的標(biāo)準(zhǔn)有:①基因表達(dá)譜中zui大值與zui小值的差;②標(biāo)準(zhǔn)差;③均方根;④值大于閾值的數(shù)據(jù)個數(shù)等。根據(jù)分析的對象和目的,可以選擇以上一個或多個標(biāo)準(zhǔn),確定閾值,從而選擇基因表達(dá)譜。
基因表達(dá)譜數(shù)據(jù)經(jīng)過過濾,在進行聚類分析等操作前,往往還需要進行數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換是將數(shù)據(jù)變換為適合數(shù)據(jù)挖掘的形式,可以根據(jù)需要構(gòu)造出新的數(shù)據(jù)屬性以幫助理解分析數(shù)據(jù)的特點,或者將數(shù)據(jù)規(guī)范化,使之落在一個特定的數(shù)據(jù)區(qū)間中。因此,數(shù)據(jù)轉(zhuǎn)換包括對數(shù)轉(zhuǎn)換和標(biāo)準(zhǔn)化兩個過程。
許多 DNA 微陣列實驗的結(jié)果是測量樣本與對照樣本間信號強度的 Ratio 值,對于 Ratio 值,在大多數(shù)情況下是轉(zhuǎn)換到對數(shù) (log) 空間中進行處理,常用的對數(shù)底為 2, e, 10 。考慮時間序列上的基因表達(dá)數(shù)據(jù),實驗結(jié)果是相對于 0 時刻的表達(dá)水平。如 圖 8.1 所示,假設(shè)在時間點 1 ,基因的表達(dá)水平?jīng)]有改變,在時間點 2 ,上調(diào) 2 倍,而時間點 3 ,下調(diào) 2 倍,原始的比率值分別為 1.0 、 2.0 、 0.5 。在大多數(shù)應(yīng)用中,需要把上調(diào) 2 倍和下調(diào) 2 倍看作是變化的相同幅度,只是方向不同。在 Ratio 空間中,時間點 1 和 2 之間的差異是 +1.0 ,而時間點 1 和 3 之間是 -0.5 ,從數(shù)學(xué)角度看,上調(diào) 2 倍的數(shù)值是下調(diào) 2 倍的 2 倍。而在 log 空間中,(為了簡化,用 2 為底),這三個數(shù)據(jù)點分別為 0 、 1.0 、 -1.0 ,上調(diào) 2 倍與下調(diào) 2 倍是關(guān)于 0 對稱的。因此,對數(shù)轉(zhuǎn)換可以使小于 1 的值變大,大于 1 的值變小,從而使它們關(guān)于 0 對稱化,這種變換是否反映了一定的生物學(xué)意義,能更直觀的了解基因的上調(diào)或下調(diào)的幅度?尚沒有定論,但是對于大多數(shù)基因表達(dá)數(shù)據(jù)分析過程,都是在 log 空間中進行的。
(8-2)
(8-4)
其中,
,而要求數(shù)據(jù)滿足分布在 [a,b] 區(qū)間,則變換如下:
<img alt="基因表達(dá)數(shù)據(jù)的預(yù)處理策略" 基因表達(dá)數(shù)據(jù)的預(yù)處理策略"="" border="1" height="48" data-cke-saved-src="http://www.bio1000.com/uploads/allimg/120625/144223N48-10.png" src="http://www.bio1000.com/uploads/allimg/120625/144223N48-10.png" width="160" style="vertical-align: middle; border: 0px;"> (8-5)
還有一種數(shù)據(jù)標(biāo)準(zhǔn)化方法是數(shù)據(jù)的中心化。對于來自細(xì)胞系的大量腫瘤樣本與一個共同的對照樣本比較,每一個基因,相對于對照樣本中那個基因的表達(dá)水平,都有一系列的 Ratio 值。因為對照樣本通常對實驗沒有什么幫助,對照樣本中的基因表達(dá)量是獨立于分析的。這樣,可以通過調(diào)整每一個基因的數(shù)值來反映系列觀察值的變化,例如平均值或者中值。這就是平均值 / 中值中心化,中心化可以減少對照樣本的影響。中心化數(shù)據(jù)同樣可以用于去除某些類型的偏差。例如,許多雙色熒光雜交實驗的結(jié)果沒有校正 Ratio 值的系統(tǒng)偏差,它們是由于 RNA 數(shù)量差異、標(biāo)記效率和圖像獲取參數(shù)偏差所造成的。這樣的偏差對于所有的基因與一個固定數(shù)值的 Ratio 有放大的效應(yīng)。在 log 空間的平均值和中值中心化有校正這種偏差的效果。數(shù)據(jù)中心化是基于這樣的一種假設(shè),在特定的實驗中,基因的平均值期望比率是 1.0( 在 log 空間中為 0) 。通常,更多的是使用中值中心化。
目前對數(shù)據(jù)預(yù)處理這種策略的作用還不是很清楚,還沒有人進行系統(tǒng)的研究,提供有說服力的證據(jù)來幫助研究人員針對特定的任務(wù)選擇特定的數(shù)據(jù)預(yù)處理的策略和方法。在具體應(yīng)用時,往往是根據(jù)分析目的和個人經(jīng)驗選擇不同的方法。