

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、隨著大數(shù)據(jù)時代的到來和教育水平的不斷提高,重復文檔的數(shù)量也正與日俱增,文檔和論文相似度查重也越發(fā)迫在眉睫。文檔的相似度計量主要是通過進行轉(zhuǎn)換,將其轉(zhuǎn)化成距離、角度或彎曲度等來度量,從而實現(xiàn)較好的計量效果。余弦相似度,一種計量文檔相似度的常用方法,能較好的反應文檔的相似程度。但其本身對數(shù)量和比重不敏感,這給相似度度量帶來了不少麻煩。據(jù)2008年不完全統(tǒng)計,在Internet上有大約40%的網(wǎng)絡資源跟其他的網(wǎng)絡資源是重復的。重復資源或者近似
2、重復的資源增加了搜索引擎的索引數(shù)量,并且對檢索結果也產(chǎn)生了不小的影響。近似重復檢測問題在信息檢索領域已經(jīng)是家喻戶曉了。在這里希望改進相似度判別算法以及改進爬蟲來實現(xiàn)避免對重復資源的爬取。
網(wǎng)絡資源和網(wǎng)絡圖表在一定程度上比純文本信息要復雜的多,在一個文本文件中,語句順序可以被轉(zhuǎn)換成含義,而網(wǎng)絡資源不可以被轉(zhuǎn)換成含義,最終,相似語義網(wǎng)絡資源將擁有復雜的不同語句順序。同樣的,在基于文本的近似重復檢測中,內(nèi)容的含義查重并不是太大的問題
3、,但是語義網(wǎng)絡文檔,這個問題很突出,假設有兩個不同的語義網(wǎng)絡文檔,如果計算它們的演繹閉包很可能是一樣的。在語義網(wǎng)絡圖片中,除了語句順序之外,同時需要驗證空節(jié)點??展?jié)點是不具有URI的匿名資源,并且沒有文字含義。
1998年提出萬維網(wǎng)的互聯(lián)網(wǎng)專家蒂姆·伯納斯-李提出了語義網(wǎng)絡的概念,它現(xiàn)在已經(jīng)發(fā)展成為自然語言理解和認知科學領域研究的一個概念,用它來表達那些復雜概念及其它們之間的關系。語義網(wǎng)的表示形式是一個有向圖,其中點代表概念,
4、邊代表這些概念之間的語義關系,這樣來形成一個由節(jié)點和弧組成的語義網(wǎng)絡描述圖。蒂姆·伯納斯-李提出了另一個關于語義網(wǎng)的概念,那就是我們現(xiàn)在家喻戶曉的萬維網(wǎng)(World Wide Web),語義網(wǎng)絡只是其相關的基礎理論。語義網(wǎng)相比于傳統(tǒng)的互聯(lián)網(wǎng)具有較好的語義判別和交互性。
兩個語義網(wǎng)絡文檔或者網(wǎng)絡語圖是相似的,描述它們的不同之處在檢索、更新、版本控制等方面有很大的作用。在本文中,描述了一些列的文本相似度度量方法,用來表達它們之間的
5、關系,并且計量它們的不同。本研究通過對語義網(wǎng)圖進行標準化處理、簡化處理、相似度度量以及分類等相關的操作來進行語義網(wǎng)圖相似度的判別。同時,為了區(qū)分兩個語義網(wǎng)圖之間的相似度,定義了一個變量來表示它們之間的版本關系。這個變量通過對其元組進行添加和刪除來保持兩者的平衡,并且此變量是通過判斷RDF圖表序列化,而不僅僅根據(jù)文檔的URI來判定兩者之間的相似度。
最后,通過實驗驗證了提出了語義網(wǎng)相似度度量具有較好的實驗效果。但是由于時間比較倉
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于語義相似度的中文文本相似度算法研究.pdf
- 基于語義加權的中文文本相似度計算研究.pdf
- 基于語義的文本相似度計算研究.pdf
- 基于語義的文本相似度算法研究及應用.pdf
- 基于相似語義的文本相似度的判別研究.pdf
- 基于知網(wǎng)的中文文本相似度計算研究.pdf
- 一種基于語義網(wǎng)絡的中文文本相似度計算方法.pdf
- 基于語義分析的文本相似度算法研究.pdf
- 基于《知網(wǎng)》的文本相似度研究.pdf
- 文本相似度的研究與應用.pdf
- 基于語義情感傾向的文本相似度計算.pdf
- 基于知網(wǎng)語義相似度的中文文本聚類方法研究.pdf
- 基于文本相似度的中文文本聚類的研究.pdf
- 中文文本語義相似度計算研究及應用.pdf
- 領域文本相似度計算方法研究.pdf
- 基于領域詞典的中文文本相似度匹配.pdf
- 文本語義相似度計算方法研究及應用.pdf
- 基于文本相似度的論文查重方法研究.pdf
- 信息檢索中語義分析技術與文本相似度模型研究.pdf
- 基于向量空間模型的中文文本相似度算法研究.pdf
評論
0/150
提交評論