Boosting方法在基因微陣列數據判別分析中的應用.pdf_第1頁
已閱讀1頁,還剩73頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、本研究在系統介紹了Boosting的基本思想,以及它的兩種算法——AdaBoost和LogitBoost的基本過程的基礎上,采用這兩種Boosting算法對模擬數據和維度較低的資料建立判別預測模型,并與另兩種集成算法(Bagging和Random-Forest)和三種傳統判別分析方法(Fisher’s線性判別、Fisher’s二次判別和logistic回歸判別)的預測效果進行了比較。 本研究根據基因微陣列數據的特殊性,對兩個網絡

2、數據庫——白血病數據和乳腺癌數據進行了分析,思路如下:(1)使用FDR控制程序校正P值,以P≤0.05或P≤0.01為標準篩選基因變量,使得維度小于樣本含量,建立判別預測模型,將Boosting方法與兩種集成算法和三種傳統的方法相比較;(2)按照P值的排序選擇不同數目的基因預測變量,分別建立判別預測模型,考察Boosting的相對優(yōu)勢(包括預測精度和敏感性);(3)提取主成分,作主成分判別分析,考察Boosting方法的優(yōu)勢。以上均用交

3、叉驗證思路考察模型的預測效果和預測結果的穩(wěn)定性。 本研究主要結論: 1.Boosting的總體預測效果普遍優(yōu)于Bagging、Random-Forest以及傳統的判別分析方法,在高維的基因微陣列數據的判別分類中優(yōu)勢明顯,且在維度較低的資料中同樣具有一定優(yōu)勢。 2.當各預測變量之間具有高度相關性時,Boosting判別的預測效果優(yōu)于Bagging、Random-Forest以及傳統的判別分析方法。 3.以決

4、策樹為基礎分類器的LogitBoost判別可以處理帶有缺失值數據的資料,使判別效果更優(yōu)。 4.LogitBoost判別在得到較優(yōu)的預測效果的同時還可進行多因素的分析和變量的篩選。 5.在基因微陣列數據的判別分析中,Boosting對于預測變量的個數并不十分敏感,即其預測效果不會根據預測變量的個數發(fā)生明顯的變化。迭代次數在50~100輪左右即可達到較優(yōu)的預測效果。 6.AdaBoost和LogitBoost兩種算法

5、相對優(yōu)勢并不明顯,在處理低維數據LogitBoost較AdaBoost稍有優(yōu)勢;AdaBoost達到較優(yōu)的預測效果所需的迭代次數通常比LogitBoost多;LogitBoost的預測精度隨迭代次數的增加呈現了較明顯的先升高再降低的趨勢,而AdaBoost的這種趨勢并不明顯,有時在降低后會再有一個較高的上升。 根據本研究的結果,初步提出基因微陣列數據判別分析的策略: (a)選維:以FDR多重比較控制程序篩選基因,使得到的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論