士鋒生物基因表達(dá)數(shù)據(jù)的預(yù)處理策略

時間：2014/2/19閱讀：1123

一次微陣列實驗?zāi)塬@得細(xì)胞在某一條件下的全基因組表達(dá)數(shù)據(jù)，包含成千上萬個基因在細(xì)胞中的相對或豐度，不同條件(細(xì)胞周期的不同階段、藥物作用時間、腫瘤類型、不同病人等)下的全基因組表達(dá)數(shù)據(jù)就構(gòu)成了一個G×N的數(shù)據(jù)矩陣M，通常情況下G>>N，其中每一個元素

代表基因 i 在 N 個條件下的表達(dá)水平，稱為基因 i 的表達(dá)譜，列向量

(8-1)

對基因表達(dá)數(shù)據(jù)進行聚類、分類等數(shù)據(jù)分析之前，往往需要進行預(yù)處理，包括對丟失數(shù)據(jù)進行填補、清除不完整的數(shù)據(jù)或合并重復(fù)數(shù)據(jù)等數(shù)據(jù)清洗，根據(jù)分析的目的進行數(shù)據(jù)過濾，以及針對分析方法選擇合適的數(shù)據(jù)轉(zhuǎn)換方法等。

數(shù)據(jù)清洗是數(shù)據(jù)分析前必須進行的一項工作，對于基因表達(dá)數(shù)據(jù)，目的是去除表達(dá)水平是負(fù)值或很小的數(shù)據(jù)、或者明顯的噪聲數(shù)據(jù) ( 單個異常大或小的峰谷信號 ) ，同時處理缺失數(shù)據(jù)。 DNA 微陣列實驗得到的數(shù)據(jù)一般是經(jīng)過歸一化處理的，每個點的信號強度是前景信號減去背景信號，因此有時會出現(xiàn)負(fù)值或很小的值，顯然負(fù)值是沒有生物學(xué)意義的。對于這些數(shù)據(jù)點，通過數(shù)據(jù)清洗過程可以置為缺失或賦予統(tǒng)一的數(shù)值，例如，對于寡核苷酸芯片數(shù)據(jù)，可以將低于 100 的數(shù)據(jù)全部設(shè)置為 100 。 DNA 微陣列表達(dá)數(shù)據(jù)由于實驗條件和芯片的因素，檢測得到的信號強度往往與細(xì)胞中實際的 mRNA 豐度之間沒有對應(yīng)關(guān)系，因此，通常是采用兩個條件下的信號強度的比值，例如，在 cDNA 微陣列雙色實驗中，zui后得到的往往是 Ratio 值。而寡核苷酸單色實驗的結(jié)果是信號強度，然而在處理一組數(shù)據(jù)時，也往往選擇一個樣本作為對照樣本，將實驗數(shù)據(jù)轉(zhuǎn)換成 Ratio 值。在計算 Ratio 值時，如果參考樣本的信號強度很小，就可能得到很大的 Ratio 。如果一個基因譜中僅僅存在單個特別大的 Ratio 值，稱之為異常數(shù)據(jù)點，這往往是由于噪聲造成的。對于這個異常數(shù)據(jù)點，必須去除。數(shù)據(jù)的缺失對于某些后續(xù)數(shù)據(jù)分析方法(例如層次式聚類和 PCA )來說有著非常大的影響，甚至是致命性的，這時必須采取相應(yīng)的方法。一個簡單方法是直接過濾掉這些存在缺失數(shù)據(jù)項的行向量或列向量。另一個方法是設(shè)定閾值，計算行向量或列向量中的缺失項數(shù)目，如果達(dá)到該閾值，則將該數(shù)據(jù)項所在行或列從數(shù)據(jù)矩陣 M 中刪除;如果沒有達(dá)到閾值但存在缺失項，對這些缺失項可以進行插值。以 0 代替缺失項，或用基因表達(dá)譜中的平均值或中值進行替代，這些方法都比較簡單，但是否與真實值接近，很難進行評估。較為復(fù)雜和可靠的方法是，分析基因表達(dá)譜的模式，從中得到相鄰數(shù)據(jù)點之間的關(guān)系，根據(jù)這種關(guān)系，利用相鄰數(shù)據(jù)點估算得到缺失值。這種方法類似于 k 近鄰方法，需要有足夠的完整的模式來發(fā)現(xiàn)有缺失值的相鄰模式，需要有足夠的值來確定它們的鄰居。

在細(xì)胞中，基因表達(dá)有時空特異性，在某一條件下，能夠表達(dá)的基因占基因總數(shù)的少部分，而大多數(shù)基因僅維持基礎(chǔ)轉(zhuǎn)錄或不轉(zhuǎn)錄，轉(zhuǎn)錄本豐度很小，因此， DNA 微陣列實驗得到的數(shù)據(jù)矩陣中存在大量的基因表達(dá)譜曲線是平坦的，即基因表達(dá)水平變化很小。對于這些基因，往往不是生物學(xué)家所關(guān)心的，而它們的存在，卻會大大增加數(shù)據(jù)分析的復(fù)雜性，而且會對一些分析方法的結(jié)果有干擾。對這些數(shù)據(jù)進行過濾是非常有必要的。要保留的基因表達(dá)譜究竟占總體數(shù)據(jù)的多少比例?這個問題是與分析目的密切相關(guān)的，例如對于分析細(xì)胞周期相關(guān)的基因表達(dá)，保留的基因可能較多;而對于腫瘤特異基因表達(dá)譜分析，保留的基因往往較少。過濾基因所采用的標(biāo)準(zhǔn)有：①基因表達(dá)譜中zui大值與zui小值的差;②標(biāo)準(zhǔn)差;③均方根;④值大于閾值的數(shù)據(jù)個數(shù)等。根據(jù)分析的對象和目的，可以選擇以上一個或多個標(biāo)準(zhǔn)，確定閾值，從而選擇基因表達(dá)譜。

基因表達(dá)譜數(shù)據(jù)經(jīng)過過濾，在進行聚類分析等操作前，往往還需要進行數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換是將數(shù)據(jù)變換為適合數(shù)據(jù)挖掘的形式，可以根據(jù)需要構(gòu)造出新的數(shù)據(jù)屬性以幫助理解分析數(shù)據(jù)的特點，或者將數(shù)據(jù)規(guī)范化，使之落在一個特定的數(shù)據(jù)區(qū)間中。因此，數(shù)據(jù)轉(zhuǎn)換包括對數(shù)轉(zhuǎn)換和標(biāo)準(zhǔn)化兩個過程。

許多 DNA 微陣列實驗的結(jié)果是測量樣本與對照樣本間信號強度的 Ratio 值，對于 Ratio 值，在大多數(shù)情況下是轉(zhuǎn)換到對數(shù) (log) 空間中進行處理，常用的對數(shù)底為 2, e, 10 。考慮時間序列上的基因表達(dá)數(shù)據(jù)，實驗結(jié)果是相對于 0 時刻的表達(dá)水平。如圖 8.1 所示，假設(shè)在時間點 1 ，基因的表達(dá)水平?jīng)]有改變，在時間點 2 ，上調(diào) 2 倍，而時間點 3 ，下調(diào) 2 倍，原始的比率值分別為 1.0 、 2.0 、 0.5 。在大多數(shù)應(yīng)用中，需要把上調(diào) 2 倍和下調(diào) 2 倍看作是變化的相同幅度，只是方向不同。在 Ratio 空間中，時間點 1 和 2 之間的差異是 +1.0 ，而時間點 1 和 3 之間是 -0.5 ，從數(shù)學(xué)角度看，上調(diào) 2 倍的數(shù)值是下調(diào) 2 倍的 2 倍。而在 log 空間中，(為了簡化，用 2 為底)，這三個數(shù)據(jù)點分別為 0 、 1.0 、 -1.0 ，上調(diào) 2 倍與下調(diào) 2 倍是關(guān)于 0 對稱的。因此，對數(shù)轉(zhuǎn)換可以使小于 1 的值變大，大于 1 的值變小，從而使它們關(guān)于 0 對稱化，這種變換是否反映了一定的生物學(xué)意義，能更直觀的了解基因的上調(diào)或下調(diào)的幅度?尚沒有定論，但是對于大多數(shù)基因表達(dá)數(shù)據(jù)分析過程，都是在 log 空間中進行的。

(8-2)

(8-4)

其中，，而要求數(shù)據(jù)滿足分布在 [a,b] 區(qū)間，則變換如下：

<img alt="基因表達(dá)數(shù)據(jù)的預(yù)處理策略" 基因表達(dá)數(shù)據(jù)的預(yù)處理策略"="" border="1" height="48" data-cke-saved-src="http://www.bio1000.com/uploads/allimg/120625/144223N48-10.png" src="http://www.bio1000.com/uploads/allimg/120625/144223N48-10.png" width="160" style="vertical-align: middle; border: 0px;"> (8-5)

還有一種數(shù)據(jù)標(biāo)準(zhǔn)化方法是數(shù)據(jù)的中心化。對于來自細(xì)胞系的大量腫瘤樣本與一個共同的對照樣本比較，每一個基因，相對于對照樣本中那個基因的表達(dá)水平，都有一系列的 Ratio 值。因為對照樣本通常對實驗沒有什么幫助，對照樣本中的基因表達(dá)量是獨立于分析的。這樣，可以通過調(diào)整每一個基因的數(shù)值來反映系列觀察值的變化，例如平均值或者中值。這就是平均值 / 中值中心化，中心化可以減少對照樣本的影響。中心化數(shù)據(jù)同樣可以用于去除某些類型的偏差。例如，許多雙色熒光雜交實驗的結(jié)果沒有校正 Ratio 值的系統(tǒng)偏差，它們是由于 RNA 數(shù)量差異、標(biāo)記效率和圖像獲取參數(shù)偏差所造成的。這樣的偏差對于所有的基因與一個固定數(shù)值的 Ratio 有放大的效應(yīng)。在 log 空間的平均值和中值中心化有校正這種偏差的效果。數(shù)據(jù)中心化是基于這樣的一種假設(shè)，在特定的實驗中，基因的平均值期望比率是 1.0( 在 log 空間中為 0) 。通常，更多的是使用中值中心化。

目前對數(shù)據(jù)預(yù)處理這種策略的作用還不是很清楚，還沒有人進行系統(tǒng)的研究，提供有說服力的證據(jù)來幫助研究人員針對特定的任務(wù)選擇特定的數(shù)據(jù)預(yù)處理的策略和方法。在具體應(yīng)用時，往往是根據(jù)分析目的和個人經(jīng)驗選擇不同的方法。

日韩午夜在线观看,色偷偷伊人,免费一级毛片不卡不收费,日韩午夜在线视频不卡片

士鋒生物基因表達(dá)數(shù)據(jù)的預(yù)處理策略

會員登錄

收藏該商鋪

提示