古農學本體的半自動構建及檢索研究.pdf_第1頁
已閱讀1頁,還剩155頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、近20年來,中國農史文獻資料的研究已經(jīng)由傳統(tǒng)的手工整理方式逐漸轉向農史信息資源的數(shù)字化整理和建設,并借助于現(xiàn)代化的技術和手段來加強農史信息資源的產生、組織、存取、傳播和利用,以便用戶更便捷地獲取農史研究資料,促進農史研究的發(fā)展。從目前的現(xiàn)狀來看,農史學科已經(jīng)擁有了一批數(shù)字化資源,這無疑促進了農業(yè)科技遺產的保護和傳播。然而從利用的角度來看,在農史信息資源的組織和存取技術還有待提高,主要表現(xiàn)在缺乏有力的語義管理工具,檢索技術相對陳舊,計算機

2、僅把用戶的檢索關鍵詞當作簡單的字符處理,因此,在農史領域建立一種語義描述機制,使得計算機能夠具有語義理解能力,是提高農史信息資源服務效果的有效手段。 本體作為一種能夠在語義和知識層次上描述信息系統(tǒng)的概念建模工具,自被提出以來就引起了國外眾多科研人員的關注,并在知識工程、數(shù)字圖書館、軟件復用、信息檢索和Web異構信息的處理、語義Web等眾多領域得到了廣泛的應用。本文將本體引入到農史領域,嘗試構建農史領域本體作為農史信息資源加工、組

3、織和利用中有力的語義工具來解決語義異構問題,使得農史領域概念能夠有著明確唯一的定義,在人和機器之間達成一種共識,促進人機交流。 本文首先對農史信息資源的組織模式進行調查統(tǒng)計,分析目前農史信息資源組織現(xiàn)狀,提出建立本體作為農史學科的語義工具,是提高農史信息資源管理和服務的有效手段,進而結合情報學領域在編制分類表和敘詞表的技術和經(jīng)驗,借鑒知識工程領域在構建專家知識庫中取得的成績以及機器學習技術和自然語言處理技術的成果,嘗試半自動地構

4、建農史領域本體,提高本體構建的效率。最后,以該領域本體為基礎,設計并開發(fā)了一個基于領域本體的語義檢索模型。 本文的研究內容主要有以下幾個方面: (1)對農史信息資源組織方式的調查分析隨著計算機技術的迅猛發(fā)展,農史信息資源的組織方式已經(jīng)由傳統(tǒng)手工編制的目錄、索引,發(fā)展到了文獻數(shù)據(jù)庫、網(wǎng)站等高級組織方式。本文首先對目前農史信息資源數(shù)字化組織現(xiàn)狀進行調查與統(tǒng)計,目前的農史信息資源組織主要有專題網(wǎng)站、專題數(shù)據(jù)庫和數(shù)字圖書館/數(shù)字

5、博物館三種類型,并對它們的分布進行了統(tǒng)計分析,以便了解農史信息資源建設現(xiàn)狀。 農史信息資源服務的效果是體現(xiàn)農史信息資源數(shù)字化建設的關鍵所在。本文在農史信息資源調查的基礎上,從農史信息資源的資源組織方式、檢索技術和信息服務類型三個層面對目前的農史信息資源組織現(xiàn)狀進行了總結和分析,指出其主要的不足是資源的組織中缺乏語義控制機制。本體作為一種能在語義和知識層次上描述信息系統(tǒng)的概念模型建模工具,可以對共享概念達成統(tǒng)一理解,為計算機提供一

6、種互操作語言。本文提出利用本體來加強農史概念的形式化描述,并分析了領域本體在農史信息資源組織中對于提升信息服務的作用。 (2)古農學本體構建模式研究本體的構建是解決語義異構問題的基礎,因此實現(xiàn)語義Web需要大量的本體作為支撐。對于本體的構建,目前主要是手工構建方法和工具的研究。手工構建本體費時費力、進展緩慢且成本高昂,這也是本體構建無法走出實驗室的原因之一。機器學習等文本自動化處理技術為本體的自動構建奠定了基礎。從長期的發(fā)展趨勢

7、看,自動構建本體是未來的發(fā)展方向,但是在目前技術尚未成熟,機器學習到的概念關系還不夠精細和準確。因此,從本體構建的可行性角度考慮,本文采用人機協(xié)作的半自動構建模式構建古農學本體。在前人構建領域本體方法論的基礎上,結合敘詞表的編制模式,由專業(yè)人員通過對古代農學領域概念關系分析給出領域的上層知識模式,利用機器學習技術從領域語料中學習概念關系,將專業(yè)人員的自頂向下和機器學習的自底向上的結果結合起來。 (3)古農學本體半自動構建技術研究

8、本研究嘗試綜合運用多種技術方法用于領域關系的發(fā)現(xiàn)和識別,初步實現(xiàn)領域概念的獲取、等級關系的識別以及領域概念關系的發(fā)現(xiàn)和本體的形式化描述。 ①古農學領域概念的自動獲取。采用基于N-Gram的無詞典分詞方法從古農學研究論文中獲取領域候選概念,同時根據(jù)文獻保障原則利用文本自動主題標引方法對候選概念進行篩選,以獲得領域的核心概念。 ②古農學本體領域等級關系的建立。根據(jù)專業(yè)人員給出的古農學領域上層模式,結合現(xiàn)有的領域相關的分類表和

9、主題詞表的分類體系,以保證構建的領域本體具有通用性和良好的邏輯基礎,同時利用改進的層次聚類法從古農學文本語料中識別等級關系,對原有的分類體系進行擴充和更新。 ③古農學領域概念屬性關系的建立。采用基于關聯(lián)規(guī)則挖掘和基于自然語言處理兩種方法相結合的方式從古農學研究論文中獲取領域概念的屬性關系,利用支持度和置信度等度量方法從文本語料中獲取最相關概念,利用漢語的句法特點從文本中抽取主謂賓關系,獲取概念屬性關系。這樣可以減少大規(guī)模統(tǒng)計方法

10、缺乏必要語義邏輯基礎的不足,也可以降低概念間語義關系分析過分依賴復雜的語言處理模型的弊端。另外,采用基于模式匹配的同義詞識別方法為概念獲取同義詞屬性。 ④古農學本體的形式化。本體的形式化處理,可以對概念關系按照既定的規(guī)則進行批處理并自動地生成形式化的本體,提高古農學本體生成的效率??稍谝呀?jīng)識別出各種概念關系的基礎上自動完成古農學本體的形式化文件的生成。 (4)基于古農學本體的語義檢索機制研究本文設計和開發(fā)了一個基于古農學

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論