日本久久99,色婷婷我要去我去也97,久久久久人妻精品一区三寸蜜桃,91人妻在线超碰,亚洲欧洲综合av在线

第三屆中國IDC產(chǎn)業(yè)年度大典(北京 2009年1月7日) 第二屆大典回顧 第一屆大典回顧

新聞資訊 國內(nèi) 情報 法規(guī)  技術 CDN 機房 云計算  名錄 電信運營商  企業(yè)應用 網(wǎng)站營銷 SEO  訪談 供求 下載 搜索
通信 國際 分析 報告 活動  虛擬化 存儲 綠色科技  機房 IDC服務商  網(wǎng)游 電子商務 視頻 方案  專題 調(diào)查 論壇 測速
 
 您現(xiàn)在的位置:中國IDC圈 >> SEO(搜索優(yōu)化)

齊寧:搜索引擎知識 網(wǎng)頁查重技術

來源:齊寧網(wǎng)絡營銷策劃 時間:2008-4-16 作者:齊寧 保存本文 進入論壇 

  中國IDC圈4月16日報道:對于搜索引擎來說,重復的網(wǎng)頁內(nèi)容是非常有害的。重復網(wǎng)頁的存在意味著這些網(wǎng)頁就要被搜索引擎多處理一次。更有害的是搜索引擎的索引制作中可能會在索引庫里索引兩份相同的網(wǎng)頁。當有人查詢時,在搜索結(jié)果中就會出現(xiàn)重復的網(wǎng)頁鏈接。所以無論是從搜索體驗還是系統(tǒng)效率檢索質(zhì)量來說這些重負網(wǎng)頁都是有害處的。

  網(wǎng)頁查重技術起源于復制檢測技術,即判斷一個文件內(nèi)容是否存在抄襲、復制另外一個或多個文件的技術。

  1993年Arizona大學的Manber(Google現(xiàn)副總裁、工程師)推出了一個sif工具,尋找相似文件。1995年Stanford大學的Brin(Sergey Brin,Google創(chuàng)始人之一)和Garcia-Molina等人在“數(shù)字圖書觀”工程中首次提出文本復制檢測機制COPS(Copy Protection System)系統(tǒng)與相應算法[Sergey Brin et al 1995].之后這種檢測重復技術被應用到搜索引擎中,基本的核心技術既比較相似。

  網(wǎng)頁和簡單的文檔不同,網(wǎng)頁的特殊屬性具有內(nèi)容和格式等標記,因此在內(nèi)容和格式上的相同相似構(gòu)成了4種網(wǎng)頁相似的類型。1、兩個頁面內(nèi)容格式完全相同。2、兩個頁面內(nèi)容相同,但格式不同。3、兩個頁面部分內(nèi)容相同并且格式相同。4、兩個頁面部分重要相同但格式不同。

  實現(xiàn)方法:

  網(wǎng)頁查重,首先將網(wǎng)頁整理成為一個具有標題和正文的文檔,來方便查重。所以網(wǎng)頁查重又叫“文檔查重”!拔臋n查重”一般被分為三個步驟,

  一、特征抽取。

  二、相似度計算和評價。

  三、消重。

  1.特征抽取我們在判斷相似物的時候,一般是才能用不變的特征進行對比,文件查重第一步也是進行特征抽取。也就是將文檔內(nèi)容分解,由若干組成文檔的特征集合表示,這一步是為了方面后面的特征比較計算相似度。特征抽取有很多方法,我們這里主要說兩種比較經(jīng)典的算法,“I-Match算法”、“Shingle算法”!癐-Match算法”是不依賴于完全的信息分析,而是使用數(shù)據(jù)集合的統(tǒng)計特征來抽取文檔的主要特征,將非主要特征拋棄!癝hingle算法”通過抽取多個特征詞匯,比較兩個特征集合的相似程度實現(xiàn)文檔查重。

  2.相似度計算和評價特征抽取完畢后,就需要進行特征對比,因網(wǎng)頁查重第二步就是相似度計算和評價。I-Match算法的特征只有一個,當輸入一篇文檔,根據(jù)詞匯的IDF值(逆文本頻率指數(shù),Inverse document frequency縮寫為IDF)過濾出一些關鍵特征,即一篇文章中特別高和特別低頻的詞匯往往不能反應這篇文章的本質(zhì)。因此通過文檔中去掉高頻和低頻詞匯,并且計算出這篇文檔的唯一的Hash值(Hash簡單的說就是把數(shù)據(jù)值映射為地址。把數(shù)據(jù)值作為輸入,經(jīng)計算后即可得到地址值。),那些Hash值相同的文檔就是重復的。

  Shingle算法是抽取多個特征進行比較,所以處理起來比較復雜一些,比較的方法是完全一致的Shingle個數(shù)。然后除以兩個文檔的Shingle總數(shù)減去一致的Shingle個數(shù),這種方法計算出的數(shù)值為“Jaccard 系數(shù)”,它可以判斷集合的相似度。Jaccard 系數(shù)的計算方法集合的交集除以集合的并集。

   3.消重對于刪除重復內(nèi)容,搜索引擎考慮到眾多收錄因素,所以使用了最簡單的最實用的方法。先被爬蟲抓取的頁面同時很大程度也保證了優(yōu)先保留原創(chuàng)網(wǎng)頁。

  網(wǎng)頁查重工作是系統(tǒng)中不可缺少的,刪除了重復的頁面,所以搜索引擎的其他環(huán)節(jié)也會減少很多不必要的麻煩,節(jié)省了索引存儲空間、減少了查詢成本、提高了PageRank計算效率。方便了搜索引擎用戶。

【責任編輯:junlee】

最新推薦  
 經(jīng)濟危機下 企業(yè)郵箱應用走俏
 億恩聯(lián)通GDC數(shù)據(jù)中心機房 打造國內(nèi)最專業(yè)的
 美橙建站寶典系列:域名陷阱見招拆招(一)
 熱烈祝賀五舟銷售第一臺Nehelam架構(gòu)的服務器
 博鰲論壇聚焦互聯(lián)網(wǎng)經(jīng)濟 電子商務逆勢看好
 演繹“水泥+鼠標”新模式 建站基石先穩(wěn)好
 世紀互聯(lián)云計算正式商用 落地IDC行業(yè)
 第三屆中國制造業(yè)CIO年會在京隆重召開
 防止網(wǎng)頁木馬  如何加強網(wǎng)站安全后盾
 高性價比服務器主板華碩P5BV-C-2L震撼上市
相關文章  
手段各有利弊 中小企業(yè)網(wǎng)絡營銷淺談
搜索開放平臺 對百度阿拉丁的深入解讀
網(wǎng)站遇到瓶頸了嗎 不同階段各有特征
CEO和站長謹記 五種不可取的網(wǎng)站推廣
SEO技術:企業(yè)網(wǎng)站整站優(yōu)化的技巧
網(wǎng)絡編輯SEO兩大招 關鍵詞與內(nèi)部鏈接
八條隱患:影響你網(wǎng)站的搜索引擎排名!
29處細節(jié) 網(wǎng)站推廣宣傳途徑集結(jié)號
搜索引擎最不喜歡哪些網(wǎng)站 預防九種情況
善用免費工具 網(wǎng)站地圖對SEO優(yōu)化有益
 文章評論
Chinaitlab Group 旗下網(wǎng)站:
北京盛世創(chuàng)富廣告?zhèn)髅接邢薰?BR>北京運營中心:北京市海淀區(qū)中關村南大街9號理工科技大廈2107室 服務電話:86-10-85655622
深圳研發(fā)中心:深圳市福田保稅區(qū)英達利科技數(shù)碼園C座701D 服務電話:86-755-82044560
Copyright©2001 - 2009 All Rights Reserved