

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著測(cè)序和各種技術(shù)的飛速發(fā)展,在生物學(xué)領(lǐng)域產(chǎn)生越來越多的單核苷酸突變包括同義突變,但同義突變?cè)诤艽蟪潭壬蠜]有被特別研究,因?yàn)樗鼈儧]有改變蛋白質(zhì)序列。迄今為止,越來越多的證據(jù)表明同義突變可能影響生物體不同方面從而導(dǎo)致各種疾病發(fā)生。準(zhǔn)確快速的從大量的中性突變中識(shí)別出有害同義突變,可以顯著提高我們從各種基因組測(cè)序中鑒定出功能性突變的能力,并推動(dòng)人類對(duì)疾病病因的理解。而通過生物信息學(xué)方法構(gòu)建的相關(guān)預(yù)測(cè)工具,可以幫助我們快速識(shí)別出這些潛在的有害同
2、義突變。
本文根據(jù)目前已經(jīng)報(bào)道的人類基因組上有害同義突變,深入了解了它們的致病機(jī)制,包括突變位點(diǎn)的進(jìn)化保守性,剪切位點(diǎn)的改變,同義密碼子的選擇使用,突變所在的序列的變化,RNA穩(wěn)定性變化,翻譯效率增加或降低等。這些同義突變的致病機(jī)制,一方面可以作為構(gòu)建模型時(shí)候的特征,另一方面也能為相關(guān)疾病診斷與治療提供新視角。
目前對(duì)同義突變的有害性預(yù)測(cè)研究并不多,同時(shí)這些已開發(fā)的方法存在一些不足,如構(gòu)建模型的樣本過小,特征考慮不全
3、面等。為了解決這個(gè)問題,本文構(gòu)建了一個(gè)基于特征的方法IDSV(Identification of Deleterious Synonymous Variants)來識(shí)別人類基因組中有害同義突變。我們首先從人類有害同義突變數(shù)據(jù)庫(kù)(dbDSM),VariSNP和ClinVar中獲取可靠的同義突變數(shù)據(jù),量化了7個(gè)類別共74個(gè)特征:剪切,保守性,密碼子使用,序列,前體mRNA折疊能,翻譯效率和功能區(qū)域注釋特征。然后,為了去除冗余和不相關(guān)的特征并
4、提高預(yù)測(cè)性能,使用序列后向選擇方法進(jìn)行特征選擇?;谔卣鬟x擇后的10個(gè)特征,使用隨機(jī)森林分類器構(gòu)建了識(shí)別人類基因組中有害同義突變的IDSV工具,工具可在http://bioinfo.ahu.edu.cn:8080/IDSV/上獲得。結(jié)果表明,本文提出的方法在識(shí)別有害性同義突變方面優(yōu)于其他方法。另外實(shí)驗(yàn)結(jié)果顯示除了突變位點(diǎn)保守性和剪切特征外,新添加的翻譯效率特征在識(shí)別有害同義突變時(shí)也具有重要作用。雖然功能區(qū)域注釋和序列特征的貢獻(xiàn)度較小,但
5、它們可以在與其它特征組合時(shí)提高預(yù)測(cè)準(zhǔn)確性。最后本文通過不同實(shí)驗(yàn),證明了訓(xùn)練集中中性同義突變樣本的來源和大小對(duì)預(yù)測(cè)性能影響不大,這也進(jìn)一步說明了該模型的魯棒性較強(qiáng)。
然后本文分析討論了目前相關(guān)預(yù)測(cè)工具存在的一些不足,構(gòu)建一個(gè)用于預(yù)測(cè)同義突變有害性的集成方法SVEL(Synonymous Variants Ensembl Learning)。SVEL方法將目前開發(fā)的可用于同義突變預(yù)測(cè)的6個(gè)工具(SilVA,TraP,PhD-SNP
6、g,F(xiàn)ATHMM-MKL,F(xiàn)ATHMM-XF和DANN)的預(yù)測(cè)結(jié)果作為特征值,另外我們還添加了13個(gè)剪切和保守性特征。然后用隨機(jī)森林算法訓(xùn)練了來源于DDIG-SN方法用到的訓(xùn)練集,為了避免重復(fù)訓(xùn)練,我們?nèi)サ袅嗽撚?xùn)練集中用于訓(xùn)練上述6個(gè)工具的所有突變。相較單個(gè)工具SVEL表現(xiàn)出較高的預(yù)測(cè)準(zhǔn)確性,并且在正負(fù)樣本預(yù)測(cè)上沒有顯著偏向性。同時(shí)將SVEL與IDSV進(jìn)行了比較,發(fā)現(xiàn)SVEL在預(yù)測(cè)性能上有一定改進(jìn)。為了使我們的方法易于研究者和臨床診斷使
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 人類基因組
- 人類基因組計(jì)劃
- 人類基因組學(xué)
- 人類基因組計(jì)劃及基因測(cè)序
- 人類基因組計(jì)劃及其意義
- 人類基因組A1u序列的研究.pdf
- 醫(yī)學(xué)遺傳學(xué)-人類基因組計(jì)劃-簡(jiǎn)
- 人類基因組堿基組成的統(tǒng)計(jì)研究.pdf
- 人類基因組計(jì)劃十歲了!
- 人類基因組SNP數(shù)據(jù)庫(kù)的數(shù)據(jù)整合.pdf
- 人類基因組中若干序列的統(tǒng)計(jì)分析.pdf
- 人類基因組核小體定位與可變剪接調(diào)控研究.pdf
- 人類基因組中檢測(cè)結(jié)構(gòu)變異的計(jì)算方法.pdf
- ALU序列在人類基因組上的分布與特征.pdf
- 醫(yī)學(xué)生物學(xué)人類基因組計(jì)劃與功能基因組學(xué)
- 第三章-醫(yī)學(xué)遺傳學(xué)-人類基因組
- 第八章遺傳和人類基因組計(jì)劃
- 人類基因組核小體定位與基因表達(dá)動(dòng)態(tài)調(diào)控機(jī)制的研究.pdf
- 人類基因組復(fù)雜序列區(qū)域的擴(kuò)增與測(cè)序策略研究.pdf
- 27408.人類基因組編碼蛋白基因的進(jìn)化速率的研究
評(píng)論
0/150
提交評(píng)論