日本久久99,色婷婷我要去我去也97,久久久久人妻精品一区三寸蜜桃,91人妻在线超碰,亚洲欧洲综合av在线

第三屆中國IDC產(chǎn)業(yè)年度大典(北京 2009年1月7日) 第二屆大典回顧 第一屆大典回顧

新聞資訊 國內(nèi) 情報 法規(guī)  技術(shù) CDN 機房 云計算  名錄 電信運營商  企業(yè)應(yīng)用 網(wǎng)站營銷 SEO  訪談 供求 下載 搜索
通信 國際 分析 報告 活動  虛擬化 存儲 綠色科技  機房 IDC服務(wù)商  網(wǎng)游 電子商務(wù) 視頻 方案  專題 調(diào)查 論壇 測速
 
 您現(xiàn)在的位置:中國IDC圈 >> SEO(搜索優(yōu)化)

中文分詞?SEO優(yōu)化有什么幫助?

來源:admin5 時間:2007-12-4 作者:idcquan 保存本文 進入論壇 

  中國IDC圈12月4日報道:什么是中文分詞?

  眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。例如,英文句子I am a student,用中文則為:“我是一個學(xué)生”。計算機可以很簡單通過空格知道student是一個單詞,但是不能很容易明白“學(xué)”、“生”兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。上海SEO服務(wù),分詞的結(jié)果是:上海 SEO 服務(wù)

  目前主流的中文分詞算法有以下3種:

  1、 基于字符串匹配的分詞方法

  這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最。ㄗ疃蹋┢ヅ洌话凑帐欠衽c詞性標注過程相結(jié)合,又可以分為單純分詞方法和分詞與標注相結(jié)合的一體化方法。常用的幾種機械分詞方法如下:

  1)正向最大匹配法(由左到右的方向);

  2)逆向最大匹配法(由右到左的方向);

  3)最少切分(使每一句中切出的詞數(shù)最小)。

  還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計結(jié)果表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245.但這種精度還遠遠不能滿足實際的需要。實際使用的分詞系統(tǒng),都是把機械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進一步提高切分的準確率。

  一種方法是改進掃描方式,稱為特征掃描或標志切分,優(yōu)先在待分析字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進機械分詞,從而減少匹配的錯誤率。另一種方法是將分詞和詞類標注結(jié)合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標注過程中又反過來對分詞結(jié)果進行檢驗、調(diào)整,從而極大地提高切分的準確率。

  對于機械分詞方法,可以建立一個一般的模型,在這方面有專業(yè)的學(xué)術(shù)論文,這里不做詳細論述。

  2、 基于理解的分詞方法

  這種分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗階段。

  3、 基于統(tǒng)計的分詞方法

  從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度?梢詫φZ料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計,計算它們的互現(xiàn)信息。定義兩個字的互現(xiàn)信息,計算兩個漢字X、Y的相鄰共現(xiàn)概率;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當緊密程度高于某一個閾值時,便可認為此字組可能構(gòu)成了一個詞。這種方法只需對語料中的字組頻度進行統(tǒng)計,不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法。但這種方法也有一定的局限性,會經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對常用詞的識別精度差,時空開銷大。實際應(yīng)用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統(tǒng)計方法識別一些新的詞,即將串頻統(tǒng)計和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點。

  那分詞技術(shù)再SEO優(yōu)化中有什么幫助呢?

  SEO優(yōu)化過程中是絕對離不開分詞的技術(shù)作為輔助!

  拿上海SEO作為比較看:

  (上海SEO服務(wù)網(wǎng)幫助企業(yè)或個人網(wǎng)站提供優(yōu)質(zhì)的網(wǎng)站優(yōu)化服務(wù),搜索引擎優(yōu)化服務(wù),網(wǎng)站策劃。SEO-SH是以SEO優(yōu)化服務(wù)、網(wǎng)站策劃營銷為核心的上海SEO優(yōu)化服務(wù)網(wǎng))

  通過分詞技術(shù)大概可以分為:上海SEO,上海SEO服務(wù),SEO服務(wù),企業(yè)網(wǎng)站優(yōu)化服務(wù),個人網(wǎng)站優(yōu)化服務(wù),搜索引擎服務(wù),搜索引擎優(yōu)化等等…… 所以說做SEO優(yōu)化 是離不開分詞技術(shù)的使用 熟練的使用分詞 了解搜索引擎 是每個SEOER必須學(xué)習(xí)的一課!

 

【責任編輯:junlee】

最新推薦  
 經(jīng)濟危機下 企業(yè)郵箱應(yīng)用走俏
 億恩聯(lián)通GDC數(shù)據(jù)中心機房 打造國內(nèi)最專業(yè)的
 美橙建站寶典系列:域名陷阱見招拆招(一)
 熱烈祝賀五舟銷售第一臺Nehelam架構(gòu)的服務(wù)器
 博鰲論壇聚焦互聯(lián)網(wǎng)經(jīng)濟 電子商務(wù)逆勢看好
 演繹“水泥+鼠標”新模式 建站基石先穩(wěn)好
 世紀互聯(lián)云計算正式商用 落地IDC行業(yè)
 第三屆中國制造業(yè)CIO年會在京隆重召開
 防止網(wǎng)頁木馬  如何加強網(wǎng)站安全后盾
 高性價比服務(wù)器主板華碩P5BV-C-2L震撼上市
相關(guān)文章  
SEO技術(shù):企業(yè)網(wǎng)站整站優(yōu)化的技巧
網(wǎng)絡(luò)編輯SEO兩大招 關(guān)鍵詞與內(nèi)部鏈接
八條隱患:影響你網(wǎng)站的搜索引擎排名!
29處細節(jié) 網(wǎng)站推廣宣傳途徑集結(jié)號
搜索引擎最不喜歡哪些網(wǎng)站 預(yù)防九種情況
善用免費工具 網(wǎng)站地圖對SEO優(yōu)化有益
從標題制作到內(nèi)容提高網(wǎng)站權(quán)重的技巧
SEO優(yōu)化技巧 如何優(yōu)化網(wǎng)頁中的圖片
權(quán)威SEO解決方案 三步驟推廣網(wǎng)站
如何使沉寂已久論壇起死回生
 文章評論
Chinaitlab Group 旗下網(wǎng)站:
北京盛世創(chuàng)富廣告?zhèn)髅接邢薰?BR>北京運營中心:北京市海淀區(qū)中關(guān)村南大街9號理工科技大廈2107室 服務(wù)電話:86-10-85655622
深圳研發(fā)中心:深圳市福田保稅區(qū)英達利科技數(shù)碼園C座701D 服務(wù)電話:86-755-82044560
Copyright©2001 - 2009 All Rights Reserved