啊~嗯~用力~啊~啊~~动态图_gogo亚洲肉体艺术照片9090_公厕偷拍直男撒尿全集_女攻男受肉文

全國服務熱線:400-080-4418

您現在的位置是:首頁 > 新聞資訊 > 網站建設常識

商業主題搜索引擎研究2010/2/9 16:50:22 瀏覽:39

  一、引言

  互聯網對商業發展產生了巨大的推動作用,我國商業信息網站已經發展到成千上萬家,在傳播商業政策和信息方面發揮了顯著作用。隨著網絡信息數量的迅猛增長,“信息過載”、“信息超載”現象引起了人們的重視。如何高效、準確的獲得包含用戶所需的信息的網頁,日益成為需要迫切解決的問題。

  垂直搜索引擎是解決這一問題的一個有效方法。面向商業的中文專題垂直搜索引擎有針對性的搜索網上商業專題信息,從而使商務人員高效檢索所需的信息。而隨著萬維網上的信息數量呈指數增長,大量信息垃圾也混雜其中。如何向商業用戶提供質量好且數量適當的檢索結果成為垂直搜索引擎關注的方向之一。

  二、國內外現狀與發展趨勢

  垂直搜索引擎大都處于研究和試驗階段,利用其搜索的結果再加上專業人士的加工而形成的面向某一學科、領域的垂直門戶網站也已經出現。目前在國外,對有關主題搜索引擎的研究已經成為一大熱點,我國主題搜索引擎的研究則剛剛起步。

  目前面向主題的網絡搜索主要有兩種技術:

  一是基于內容的搜索,這種搜索方式是傳統的信息檢索技術的延伸。它的主要方式就是在搜索引擎內部建立一個針對主題的詞表,搜索引擎的爬行器根據其內設的詞表對網上的信息進行索引。各個不同的系統詞表建設的復雜度也大不相同。

  二是基于鏈接分析的搜索。網頁之間的鏈接指引關系與傳統的引文索引非常相似,通過對鏈接進行分析,可以找出各個網頁之間的引用關系。由于引用網頁與被引用網頁之間內容上一般都比較相關,所以就可以很容易地按照引用關系對大量網頁分類。

  三、技術關鍵

  基于面向商業的垂直搜索引擎服務具有其自身的特性,下面列舉出實現商業信息垂直搜索引擎的四大關鍵技術。

  1.針對性、實時性和易于管理的網頁采集技術:面向商業的垂直搜索帶有專業性或行業性的需求和目標,所以只對局部來源的網頁進行采集,采集的網頁數量適中,但其要求采集的網頁全面,必須達到更深的層級,采集動態網頁的優先級也相對較高。在實際應用中,垂直搜索的網頁采集技術應能夠按需控制采集目標和范圍、按需支持深度采集及按需支持復雜的動態網頁采集,即采集技術要能達到更加針對性、實時性和易于管理,并且網頁信息更新周期也更短,獲取信息更及時。

  2.結構化數據的網頁解析技術:由于面向商業的垂直搜索引擎服務的特殊性,往往要求按需提供時間、來源、作者及其他元數據解析,包括對網頁中特定內容的提取。在商業垂直搜索服務中,要求對于作者、主題、地區、機構名稱、產品名稱以及特定行業用語進行提取,才能進一步提供更有價值的搜索服務。

  3.全文索引和聯合檢索技術:面向商業的垂直搜索由于在信息的專業性和使用價值方面有更高的要求,因此能夠支持全文檢索和精確檢索,并按需提供多種結果排序方式。另外,還要求按需支持結構化和非結構化數據聯合檢索,比如結合作者、內容、分類進行組合檢索等。

  4.智能化的文本挖掘技術:面向商業的垂直搜索是以結構化數據為小單位。基于結構化數據和全文數據的結合,垂直搜索才能為用戶提供更加到位、更有價值的服務。整個結構化信息提取貫穿從網頁解析到網頁加工處理的過程。同時面對上述要求,垂直搜索還能夠按需提供智能化處理功能,比如自動分類、自動聚類、自動標引、自動重排,文本挖掘等等。這部分是垂直搜索乃至信息處理的前沿技術。

  四、設計方案

  1.技術路線。采用如下的研究開發路線:

  (1)針對商業信息的分布特點以及用戶的實際需求,在充分調研的基礎上,詳細了解和比較其他研究人員在類似領域取得的一些重要而有一定創新性的成果,在此基礎上初步提出平臺的整體架構。

  (2)結合面向對象設計技術,對上一步設計出的平臺進一步細化,從而明確對該項目所采用的具體設計模式。[Page]

  (3)根據設計模式所面臨的具體問題(例如,如何提高爬行速度問題、系統資源限制問題、網頁分類器問題、HTML文檔解析問題等)給出有效的解決方案。

  (4)將以上的方案付諸實施,形成一個面向商業的信息查詢與共享平臺;同時對系統的各種參數進行進一步測試,不斷地完善和優化,終形成一個界面友好、響應速度/查全率/查準率均符合用戶要求的面向商業的垂直搜索引擎。

  2.創新點。為達到商業信息搜索引擎預期的響應速度、查全率和查準率,在系統的開發中有如下創新點:

  (1)系統總體為模塊化結構,各個模塊之間高內聚,低耦合。

  (2)系統使用面向對象語言開發,能夠有效地重用系統部分代碼。

  (3)在設計過程中,使用面向對象的思想做指導,建立系統類圖,便于開發人員之間的交流。在編碼過程中,不斷重構代碼,使得代碼具有很高的運行效率,大大提高其重用性。

  (4)系統集成時,使用XML文檔作為模塊間傳遞信息的工具。

  (5)大量采用散列表來提高數據的查找速度,優化系統性能。

  目前,對于搜索引擎的首要關注點已經從如何找到更多的信息轉移到如何找到準確、有用的信息,查準率已經成為眾多搜索引擎的首要目標。垂直搜索引擎從商業專題出發,有針對性的搜索網上商業專題信息,從而使商務用戶高效檢索所需的信息。這項研究可以方便商業用戶更有效的挖掘網上信息資源,提高信息查詢效率。從商業搜索引擎入手,這種以點帶面的新構想必將使商業用戶上網獲得所需專題信息,并且對搜索引擎的發展產生不可低估的影響。

 

服務網絡

關于我們

網至普專注于網站建設/網站優化,始終追求 “您的滿意,我的追求!”。懂您所需、做您所想!我們一直在思考如何為客戶創造更大的價值,讓客戶更省心!立足上海,服務全國。服務:上海,北京,廣州,深圳,成都,杭州,南京,蘇州,無錫等地

查看更多 >>

聯系我們

Copyright 2008 © 上海網至普信息科技有限公司 All rights reserved. 滬ICP備11006570號-13 滬公網安備 31011402007386號


關于我們 | 聯系我們 | 網站建設

返回頂部