面向互聯(lián)網應用的不平衡數據分類技術研究.pdf_第1頁
已閱讀1頁,還剩147頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、互聯(lián)網的飛速發(fā)展,尤其是各類互聯(lián)網應用,如網絡新聞、電子郵件、電子商務等的發(fā)展為人們獲取信息提供了便捷,但也同時將人們淹沒在信息的海洋中。對海量的互聯(lián)網應用數據自動進行分類可以有效提高人們獲取信息的效率,進而提升決策效率。然而,很多互聯(lián)網應用數據中某一類別或多個類別對應的樣例數目明顯少于其它類別對應的樣例數目,形成所謂不平衡數據,如反動新聞與正常新聞、垃圾郵件與正常郵件、異常交易與正常交易等。傳統(tǒng)的基于類別均勻分布假設所設計的分類方法以

2、及評價策略通常以整體的準確率為優(yōu)化目標,容易忽視其中的少數類別。而在實際應用中,人們經常更加關心少數類別,如網監(jiān)部門更加希望識別出反動新聞、郵件服務商希望更好地識別出垃圾郵件、電子商務平臺希望檢測出其中的異常交易等?;ヂ?lián)網應用數據的持續(xù)到達特性以及類別分布的不平衡性為準確進行數據分類帶來了諸多困難與挑戰(zhàn)。因而對面向互聯(lián)網應用的不平衡數據分類技術進行研究具有很強的現實意義和社會價值。
  本文從互聯(lián)網應用數據的特性以及承擔項目的實際

3、需求出發(fā),遵循由簡單到復雜的思路,對不同類型的互聯(lián)網應用數據設計了相應的處理算法。首先從常見的兩類別不平衡數據出發(fā),針對其特點及實際應用需求,研究了不平衡數據預處理中的噪聲過濾策略和數據重采樣方法。之后,將其擴展到多類別(類別數目多于兩個,但每個樣例只能屬于一個類別)不平衡數據應用場景,提出了分解策略與數據重采樣相結合的處理方法。之后,進一步將前述研究成果拓展應用到多標簽(不同于多類別,此時同一樣例可以屬于多個類別)不平衡數據分類中,設

4、計了新的集成學習框架和基礎分類算法。最后,根據互聯(lián)網應用數據持續(xù)到達的特點,研究了在不平衡數據流上的多窗口學習策略:
 ?。?)在兩類別不平衡數據的預處理方面,首先針對不平衡數據集中可能存在的噪聲,提出了基于 IPF的改進噪聲過濾方法,以盡可能減少噪聲過濾時將少數類樣例誤判為噪聲的可能性。之后,針對少數類樣例和多數類樣例各自的特點,分別設計了基于近鄰分布的少數類過采樣算法以及基于距離排序的多數類欠采樣算法。在此基礎上,針對實際應用

5、需求,設計了少數類和多數類之間采樣比例的自適應方法,從而減小了數據重采樣對后續(xù)處理流程的影響。最后,通過在大量真實數據集上的測試驗證了所提方法的有效性,尤其是對于少數類別分類效果的提升明顯;
 ?。?)在多類別不平衡數據分類方面,針對互聯(lián)網應用數據的多類別特性,提出分而治之的學習策略。首先使用一對多的OVA方法對訓練數據進行分解并訓練得到多個子分類器。此時,所有的子分類器都是基于全部類別數據訓練得到,確保了子分類器的適應性。之后,

6、使用一對一的OVO方法對候選類別對應的樣例集進一步劃分,此階段根據劃分子集的類別分布決定是否進行數據重采樣。最后,在采樣后的數據子集上訓練得到更加細粒度的子分類器。此外,根據實際應用需求,分別設計了子分類器輸出值為離散和連續(xù)情形下的不同處理策略。在理論分析的基礎上,對所提方法在多個真實數據集上進行了測試,結果表明所提方法能夠有效處理多類別數據中存在的不平衡問題;
  (3)在多標簽不平衡數據分類方面,針對已有方法偏重多標簽分解而缺

7、乏對標簽分布不平衡性考慮的問題,提出了一種多標簽不平衡數據集成學習框架并設計了相應的基礎分類算法。以AdaBoost方法為基礎,該框架將標簽分布的不平衡特性集成到了各個子分類器的學習訓練過程中。此外,以多標簽神經網絡方法BPMLL為基礎,設計了針對多標簽不平衡數據的改進算法并將其作為集成學習框架的基礎分類算法,在多個實際應用數據集上對分類效果進行了測試,表明了所提方法的有效性;
 ?。?)在不平衡數據流分類方面,針對互聯(lián)網應用數據

8、流的動態(tài)特性以及各個類別樣例到達順序的不確定性,提出了一種基于多窗口機制的集成學習方法。該方法根據不平衡數據流的特點,定義了四個不同的窗口分別用于保存當前滑動窗口數據、最近的少數類樣例、經篩選的子分類器以及子分類器對應的歷史窗口數據。分別為不同的窗口設計了不同的更新策略。對于新的測試樣例,其類別標簽通過多數加權投票確定。通過在多個人工合成數據集和真實數據集上的測試表明,該方法效果更好,效率更高。
  綜上所述,本文針對互聯(lián)網應用中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論