全國服務熱線:400-080-4418
“敲入mantiandaxue,出來的正是‘漫天大雪’,為什么不是‘滿天大雪’,或者‘漫天大學’?”網民小姚在網上提出了這樣的問題。(上海企業網站建設)
小姚不知道的是,輸入法如此“善解人意”的背后,決定性因素是一種名為“語料”的東西。日前,搜狗輸入法宣布,其語料庫容量已超1TB,是其他中文輸入法的數十倍,對于韓文、日文等語系,這更是“天文數字”。
“享受輸入”之謎(上海網絡優化)
小姚是搜狗輸入法的忠實粉絲,“平時用習慣了倒沒覺得什么,一次重裝系統無法上網,只用系統自帶的智能ABC,那種感覺太痛苦了,一夜回到了解放前。”
在中國上網的計算機中,有80%安裝了搜狗,他們與小姚一樣,已經習慣了“享受輸入”。(上海網站建設)
“語料”正是重要的幕后功臣之一。據搜狗輸入法工程師介紹,很多人都知道“詞庫”,詞庫越大,則輸入法越聰明,不過“語料庫”的重要性有過之而無不及,它決定了詞庫中詞匯的組合,并且決定了哪一個詞被排在輸入結果的前面。
一般來說,語料庫越大,則輸入效率越高。據統計,目前多數輸入法語料庫大約在40GB~150GB,搜狗輸入法的1TB,即約1000GB,多出數十倍。如此龐大的信息量相當于200億本《新華字典》收錄的字數。
搜狗的自我挑戰(上海做網站)
雖然已遠比對手“聰明”,但搜狗還在“自己跟自己較勁”。按照搜狗語料庫目前的容量,它的輸入準確率可以接近90%,而其他輸入法只有50%~80%,但當這個容量再擴大,它對輸入效率的提升將越來越難。
對此,搜狗做了兩方面的工作,力圖讓語料庫爆炸增長:其一,發揮“人肉”的優勢,讓用戶貢獻;其二,通過搜索引擎抓取互聯網上的詞匯。
顯然,圍繞“語料”,搜狗已率先找到了一條可讓其無限、爆炸增長的路,這也是過去幾年里,它能引領輸入體驗潮流,不斷推高文字錄入效率水準的原因。
中文輸入的未來(上海網站推廣)
回首輸入法的發展歷程,它已從過去的“單機軟件”變成了今天來自云端的“互聯網服務”,集搜索引擎、大規模數據處理、自然語言處理、大規模網絡并發處理等多項技術于一身。
業內人士指出,搜狗對文字輸入的大貢獻在于,它既給出了輸入法的宏觀方向,又形成了自己體系化的方法論。(企業網站建設)
Copyright 2008 © 上海網至普信息科技有限公司 All rights reserved. 滬ICP備11006570號-13 滬公網安備 31011402007386號