全國服務(wù)熱線:400-080-4418
(上海企業(yè)網(wǎng)站建設(shè))有了成熟的分詞算法,是否就能容易的解決中文分詞的問題呢?事實(shí)遠(yuǎn)非如此。中文是一種十分復(fù)雜的語言,讓計(jì)算機(jī)理解中文語言更是困難。在中文分詞過程中,有兩大難題一直沒有完全突破。
1、歧義識(shí)別(上海網(wǎng)站建設(shè))
歧義是指同樣的一句話,可能有兩種或者更多的切分方法。例如:表面的,因?yàn)椤氨砻妗焙汀懊娴摹倍际窃~,那么這個(gè)短語就可以分成“表面的”和“表面的”。這種稱為交叉歧義。像這種交叉歧義十分常見,前面舉的“和服”的例子,其實(shí)就是因?yàn)榻徊嫫缌x引起的錯(cuò)誤。“化妝和服裝”可以分成“化妝和服裝”或者“化妝和服裝”。由于沒有人的知識(shí)去理解,計(jì)算機(jī)很難知道到底哪個(gè)方案正確。
交叉歧義相對(duì)組合歧義來說是還算比較容易處理,組合歧義就必需根據(jù)整個(gè)句子來判斷了。例如,在句子“這個(gè)門把手壞了”中,“把手”是個(gè)詞,但在句子“請(qǐng)把手拿開”中,“把手”就不是一個(gè)詞;在句子“將軍任命了一名中將”中,“中將”是個(gè)詞,但在句子“產(chǎn)量三年中將增長兩倍”中,“中將”就不再是詞。這些詞計(jì)算機(jī)又如何去識(shí)別?
如果交叉歧義和組合歧義計(jì)算機(jī)都能解決的話,在歧義中還有一個(gè)難題,是真歧義。真歧義意思是給出一句話,由人去判斷也不知道哪個(gè)應(yīng)該是詞,哪個(gè)應(yīng)該不是詞。例如:“乒乓球拍賣完了”,可以切分成“乒乓球拍賣完了”、也可切分成“乒乓球拍賣完了”,如果沒有上下文其他的句子,恐怕誰也不知道“拍賣”在這里算不算一個(gè)詞。
2、新詞識(shí)別(上海做網(wǎng)站)
新詞,專業(yè)術(shù)語稱為未登錄詞。也就是那些在字典中都沒有收錄過,但又確實(shí)能稱為詞的那些詞。典型的是人名,人可以很容易理解句子“王軍虎去廣州了”中,“王軍虎”是個(gè)詞,因?yàn)槭且粋(gè)人的名字,但要是讓計(jì)算機(jī)去識(shí)別就困難了。如果把“王軍虎”做為一個(gè)詞收錄到字典中去,全世界有那么多名字,而且每時(shí)每刻都有新增的人名,收錄這些人名本身就是一項(xiàng)巨大的工程。即使這項(xiàng)工作可以完成,還是會(huì)存在問題,例如:在句子“王軍虎頭虎腦的”中,“王軍虎”還能不能算詞?(上海網(wǎng)絡(luò)優(yōu)化)
新詞中除了人名以外,還有機(jī)構(gòu)名、地名、產(chǎn)品名、商標(biāo)名、簡(jiǎn)稱、省略語等都是很難處理的問題,而且這些又正好是人們經(jīng)常使用的詞,因此對(duì)于搜索引擎來說,分詞系統(tǒng)中的新詞識(shí)別十分重要。目前新詞識(shí)別準(zhǔn)確率已經(jīng)成為評(píng)價(jià)一個(gè)分詞系統(tǒng)好壞的重要標(biāo)志之一。
中文分詞的應(yīng)用(上海網(wǎng)站推廣)
目前在自然語言處理技術(shù)中,中文處理技術(shù)比西文處理技術(shù)要落后很大一段距離,許多西文的處理方法中文不能直接采用,就是因?yàn)橹形谋匦栌蟹衷~這道工序。中文分詞是其他中文信息處理的基礎(chǔ),搜索引擎只是中文分詞的一個(gè)應(yīng)用。其他的比如機(jī)器翻譯(MT)、語音合成、自動(dòng)分類、自動(dòng)摘要、自動(dòng)校對(duì)等等,都需要用到分詞。因?yàn)橹形男枰衷~,可能會(huì)影響一些研究,但同時(shí)也為一些企業(yè)帶來機(jī)會(huì),因?yàn)閲獾挠?jì)算機(jī)處理技術(shù)要想進(jìn)入中國市場(chǎng),首先也是要解決中文分詞問題。在中文研究方面,相比外國人來說,中國人有十分明顯的優(yōu)勢(shì)。
分詞準(zhǔn)確性對(duì)搜索引擎來說十分重要,但如果分詞速度太慢,即使準(zhǔn)確性再高,對(duì)于搜索引擎來說也是不可用的,因?yàn)樗阉饕嫘枰幚頂?shù)以億計(jì)的網(wǎng)頁,如果分詞耗用的時(shí)間過長,會(huì)嚴(yán)重影響搜索引擎內(nèi)容更新的速度。因此對(duì)于搜索引擎來說,分詞的準(zhǔn)確性和速度,二者都需要達(dá)到很高的要求。(企業(yè)網(wǎng)站建設(shè))
Copyright 2008 © 上海網(wǎng)至普信息科技有限公司 All rights reserved. 滬ICP備11006570號(hào)-13 滬公網(wǎng)安備 31011402007386號(hào)