第三屆中國IDC產(chǎn)業(yè)年度大典(北京 2009年1月7日)　第二屆大典回顧　第一屆大典回顧

新聞資訊國內(nèi) 情報法規(guī)	技術(shù) CDN 機房云計算	名錄電信運營商	企業(yè)應(yīng)用網(wǎng)站營銷 SEO	訪談供求下載搜索
通信國際分析報告活動	虛擬化存儲綠色科技	機房 IDC服務(wù)商	網(wǎng)游電子商務(wù) 視頻方案	專題調(diào)查論壇測速

　IDC機房：電信網(wǎng)通鐵通聯(lián)通　IDC運營商：華北華東華南華中西北西南東北

　您現(xiàn)在的位置：中國IDC圈 >> SEO（搜索優(yōu)化）

中文分詞？SEO優(yōu)化有什么幫助？

來源：admin5 時間：2007-12-4 作者：idcquan 保存本文進入論壇　

　　中國IDC圈12月4日報道：什么是中文分詞？

　　眾所周知，英文是以詞為單位的，詞和詞之間是靠空格隔開，而中文是以字為單位，句子中所有的字連起來才能描述一個意思。例如，英文句子I am a student，用中文則為：“我是一個學(xué)生”。計算機可以很簡單通過空格知道student是一個單詞，但是不能很容易明白“學(xué)”、“生”兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞，就是中文分詞，有些人也稱為切詞。上海SEO服務(wù)，分詞的結(jié)果是：上海 SEO 服務(wù)

　　目前主流的中文分詞算法有以下3種：

　　1、基于字符串匹配的分詞方法

　　這種方法又叫做機械分詞方法，它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配，若在詞典中找到某個字符串，則匹配成功（識別出一個詞）。按照掃描方向的不同，串匹配分詞方法可以分為正向匹配和逆向匹配；按照不同長度優(yōu)先匹配的情況，可以分為最大（最長）匹配和最�。ㄗ疃蹋┢ヅ洌话凑帐欠衽c詞性標注過程相結(jié)合，又可以分為單純分詞方法和分詞與標注相結(jié)合的一體化方法。常用的幾種機械分詞方法如下：

　　1）正向最大匹配法（由左到右的方向）；

　　2）逆向最大匹配法（由右到左的方向）；

　　3）最少切分（使每一句中切出的詞數(shù)最小）。

　　還可以將上述各種方法相互組合，例如，可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。由于漢語單字成詞的特點，正向最小匹配和逆向最小匹配一般很少使用。一般說來，逆向匹配的切分精度略高于正向匹配，遇到的歧義現(xiàn)象也較少。統(tǒng)計結(jié)果表明，單純使用正向最大匹配的錯誤率為1/169，單純使用逆向最大匹配的錯誤率為1/245.但這種精度還遠遠不能滿足實際的需要。實際使用的分詞系統(tǒng)，都是把機械分詞作為一種初分手段，還需通過利用各種其它的語言信息來進一步提高切分的準確率。

　　一種方法是改進掃描方式，稱為特征掃描或標志切分，優(yōu)先在待分析字符串中識別和切分出一些帶有明顯特征的詞，以這些詞作為斷點，可將原字符串分為較小的串再來進機械分詞，從而減少匹配的錯誤率。另一種方法是將分詞和詞類標注結(jié)合起來，利用豐富的詞類信息對分詞決策提供幫助，并且在標注過程中又反過來對分詞結(jié)果進行檢驗、調(diào)整，從而極大地提高切分的準確率。

　　對于機械分詞方法，可以建立一個一般的模型，在這方面有專業(yè)的學(xué)術(shù)論文，這里不做詳細論述。

　　2、基于理解的分詞方法

　　這種分詞方法是通過讓計算機模擬人對句子的理解，達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析，利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個部分：分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下，分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進行判斷，即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統(tǒng)、復(fù)雜性，難以將各種語言信息組織成機器可直接讀取的形式，因此目前基于理解的分詞系統(tǒng)還處在試驗階段。

　　3、基于統(tǒng)計的分詞方法

　　從形式上看，詞是穩(wěn)定的字的組合，因此在上下文中，相鄰的字同時出現(xiàn)的次數(shù)越多，就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度�？梢詫φZ料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計，計算它們的互現(xiàn)信息。定義兩個字的互現(xiàn)信息，計算兩個漢字X、Y的相鄰共現(xiàn)概率�；ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當緊密程度高于某一個閾值時，便可認為此字組可能構(gòu)成了一個詞。這種方法只需對語料中的字組頻度進行統(tǒng)計，不需要切分詞典，因而又叫做無詞典分詞法或統(tǒng)計取詞方法。但這種方法也有一定的局限性，會經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組，例如“這一”、“之一”、“有的”、“我的”、“許多的”等，并且對常用詞的識別精度差，時空開銷大。實際應(yīng)用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典（常用詞詞典）進行串匹配分詞，同時使用統(tǒng)計方法識別一些新的詞，即將串頻統(tǒng)計和串匹配結(jié)合起來，既發(fā)揮匹配分詞切分速度快、效率高的特點，又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點。

　　那分詞技術(shù)再SEO優(yōu)化中有什么幫助呢？

　　SEO優(yōu)化過程中是絕對離不開分詞的技術(shù)作為輔助！

　　拿上海SEO作為比較看：

　　（上海SEO服務(wù)網(wǎng)幫助企業(yè)或個人網(wǎng)站提供優(yōu)質(zhì)的網(wǎng)站優(yōu)化服務(wù)，搜索引擎優(yōu)化服務(wù)，網(wǎng)站策劃。SEO-SH是以SEO優(yōu)化服務(wù)、網(wǎng)站策劃營銷為核心的上海SEO優(yōu)化服務(wù)網(wǎng)）

　　通過分詞技術(shù)大概可以分為：上海SEO，上海SEO服務(wù)，SEO服務(wù)，企業(yè)網(wǎng)站優(yōu)化服務(wù)，個人網(wǎng)站優(yōu)化服務(wù)，搜索引擎服務(wù)，搜索引擎優(yōu)化等等…… 所以說做SEO優(yōu)化是離不開分詞技術(shù)的使用熟練的使用分詞了解搜索引擎是每個SEOER必須學(xué)習(xí)的一課！

【責任編輯:junlee】

　文章評論

聚焦視點

熱點關(guān)注

·	搜索開放平臺對百度阿拉丁的深入解讀	05-13
·	世紀互聯(lián)商標糾紛終判 IDC需重視品牌保護	05-13
·	一個網(wǎng)頁游戲商的“非典型套現(xiàn)”	05-13
·	電信網(wǎng)絡(luò)運行監(jiān)管辦法出臺	05-13
·	廣電禁播令遭尷尬：網(wǎng)站和網(wǎng)民不把禁令當回事	05-13
·	古永鏘：閉站3小時只為吸引“回頭客”	05-13
·	億唐域名今結(jié)束公開拍賣最終售價3.56萬美元	05-13
·	固網(wǎng)寬帶也是時候該提速了	05-12
·	聯(lián)通電信聯(lián)合開展IDC行業(yè)專項整治行動	05-11
·	易名中國遭黑客攻擊已上報國家安全局	05-11

市場情報

主機促銷

友情推薦

· Asp源碼　 PHP源碼　 JSP源碼　 .net源碼　 CGI源碼
· 建站書籍教程　服務(wù)器軟件　建站工具軟件

Chinaitlab Group 旗下網(wǎng)站：

中國IT實驗室 | 中國IDC圈 | 存儲世界 | 數(shù)字網(wǎng)校 | 21世紀IT人才網(wǎng)

關(guān)于我們 \| 廣告服務(wù)\| 成功客戶 \| 友情鏈接 \| 網(wǎng)站歷史 \| 聯(lián)系我們 \| 招聘信息 \| 免責聲明
	北京盛世創(chuàng)富廣告?zhèn)髅接邢薰?BR>北京運營中心：北京市海淀區(qū)中關(guān)村南大街9號理工科技大廈2107室　服務(wù)電話：86-10－85655622 深圳研發(fā)中心：深圳市福田保稅區(qū)英達利科技數(shù)碼園C座701D　服務(wù)電話：86-755－82044560 Copyright©2001 - 2009 All Rights Reserved
京ICP備09039051號

日本久久99,色婷婷我要去我去也97,久久久久人妻精品一区三寸蜜桃,91人妻在线超碰,亚洲欧洲综合av在线

中文分詞？SEO優(yōu)化有什么幫助？

中文分詞？SEO優(yōu)化有什么幫助？