基于Nutch的農村信息服務移動搜索引擎研究.pdf_第1頁
已閱讀1頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著4G和大數據時代到來,網絡資源的爆炸式增長。針對農村信息服務領域的快速發(fā)展,結合智能移動設備的優(yōu)勢,提供一個具有主題相關性、本地相近性以及高準確率的移動搜索引擎,是涉農網站應該具備的主要功能,方便農戶快捷、精準的搜索到所需信息,它可以提高農戶搜索體驗感,推進農村信息化建設,完善農業(yè)服務體系。農村信息服務移動搜索引擎技術是提高農村服務信息獲取精準性、增強農戶搜索體驗感的關鍵性技術,是當前農村信息服務領域的研究重點和熱點。
  農

2、村信息服務移動搜索引擎技術是圍繞農村信息服務領域的移動搜索技術。在Nutch引擎技術基礎上,圍繞農村信息服務主題,利用向量空間模型(Vector Space Model)算法,實現網頁中農村信息服務主題過濾,同時結合國家地名詞典,完成網頁中空間位置信息的提??;在研究面向集合的文本搜索倒排文件(Inverted File)索引技術和面向二維空間的R-tree索引技術的基礎上,構建先倒排文件后R-tree混合索引模型,即IR混合索引,實現農

3、村信息服務移動搜索的索引功能;在研究Lucene排序算法理論基礎上,綜合考慮地理空間位置因素和 Web內容相關性因素,改進排序算法,對搜索結果進行有效的優(yōu)化,展現地理位置相近性和搜索主題相關性的排序結果;圍繞農村信息服務領域,用戶利用移動設備,能夠更便捷、更快速、更有效的實現基于位置和關鍵字雙重檢索。論文研究主要內容如下:
  首先,研究構建基于Nutch的農村信息服務移動搜索引擎系統整體框架。在重點研究傳統搜索引擎的工作原理與關

4、鍵技術基礎上,利用開源搜索引擎Nutch,提出改進的基于Nutch的農村信息服務移動搜索引擎系統設計,并概括介紹系統各個模塊的設計以及優(yōu)化方案;
  其次,研究設計農村信息服務移動搜索引擎網頁采集功能模塊。本模塊主要研究農村信息服務主題過濾模型和 Web網頁地理位置信息獲取算法。農村信息服務主題過濾模型通過人工選擇獲得農村信息服務主題相關的初始 URL,利用中文分詞系統構建主題詞庫,并根據VSM算法,判別抓取網頁與主題詞庫之間的主

5、題相關度,實現圍繞農村信息服務主題的網頁抓取和過濾;Web網頁地理位置信息獲取通過結合國家地名詞典,利用地名識別、地名分辨、地理聚焦點確定三個過程來最終實現;
  再次,研究設計農村信息服務移動搜索索引功能模塊。為實現基于Nutch的農村信息服務移動搜索引擎同時具有文本檢索能力和空間位置信息檢索功能,本文在研究面向集合的文本搜索倒排文件索引技術和面向二維空間的R-tree索引技術的基礎上,構建先倒排文件后R-tree混合索引模型,

6、為農村信息服務移動搜索具有高效檢索能力提供技術保障;
  最后,研究設計農村信息服務移動搜索排序功能模塊。根據移動搜索環(huán)境中信息的文本相關性和距離相近性,在Nutch評分排序算法的基礎上,提出基于位置感知的top-k文本檢索(LkT)查詢排序,分別對搜索關鍵詞與抓取網頁之間的文本相關性因素,以及查詢地點與網頁地理聚焦點之間的距離相近性因素進行歸一化處理,并且根據權重進行線性合并,設計農村信息服務移動搜索排序模塊,實現優(yōu)先排序出本地

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論