面向大數據處理的并行計算模型及性能優(yōu)化.pdf_第1頁
已閱讀1頁,還剩124頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著大數據時代的來臨,從并行機體系結構、計算資源擴展能力到工業(yè)界應用模式都在發(fā)生顯著變化。上述變化為并行計算提供新的發(fā)展機遇,同時也帶來巨大的研究挑戰(zhàn)。其中架構在硬件和軟件之間的并行計算模型是推動大數據發(fā)展的核心技術之一。目前工業(yè)界已經研究和開發(fā)多種大數據編程模型,并廣泛應用在TB級甚至PB級的數據處理與分析上,而學術界正在嘗試和探索更抽象的大數據計算模型,來反映當前并行機的屬性,揭示大數據任務中計算、通信和訪存行為的本質特征,對各種主

2、流大數據處理系統進行統一的理論分析,從而指導大數據應用調優(yōu)。
  本文從傳統并行計算模型、大數據編程模型和大數據計算模型的相關研究中,總結出大數據計算模型在理論上需要解決的三個基本問題:模型的三要素(機器參數、執(zhí)行行為、成本函數)問題、擴展性與容錯性問題和性能優(yōu)化問題。本文圍繞著這三個問題,一方面從理論上研究大數據計算模型及其性能優(yōu)化方法,另一方面在實際的大數據案例中應用這些性能優(yōu)化方法。具體而言,本文的主要研究內容、貢獻和創(chuàng)新點

3、可概況為以下幾點:
  1.抽象出一個大數據計算模型:提出了一個面向大數據處理的并行計算模型p-DOT。p-DOT模型分為p階段,每個階段都由數據層D、計算層O和通信層T共同組成,采用矩陣的形式化描述;選取輸入數據規(guī)模w和機器數n作為主要的兩個參數,依照模型所定義的計算、通信和I/O行為共同構造出時間成本函數,并以此推導出對一個給定的大數據任務和給定的環(huán)境負載,任務最短運行時間所需的機器數n*和輸入數據規(guī)模的開方√w成正比。同時,

4、p-DOT模型具有擴展性和容錯性,對于一個軟件框架,如果其任何一個任務均可用p-DOT模型表示,那么該框架的處理范式是可擴展和可容錯的。
  2.證明模型的成本函數、擴展性和容錯性:對于時間成本函數,通過對機器內存大小、機器數和任務執(zhí)行時間的限制,使構造出的函數更接近于實際,并通過大規(guī)模的MPI和MapReduce實驗證明該函數及其推論的正確性;對于擴展性,采用傳統并行計算性能評測標準中的等效率函數,證明了基于p-DOT模型的處理

5、范式是可擴展的,但不是強可擴展的;對于容錯性,在輸入數據D都存放在永久性存儲設備的前提條件下,證明了基于p-DOT模型的處理范式是可容錯的。
  3.設計基于模型的優(yōu)化方法并應用:針對p-DOT模型的數據層D、計算層O和通信層T,分別設計了利用數據復本、利用多核技術和利用部分同步策略的性能優(yōu)化方法。一方面,從理論上證明了1)利用數據復本不僅是大數據任務容錯性的必要條件,也能有效地提高任務的I/O訪存性能;2)利用多核技術能在不增大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論