91免费国产精品,cl榴社区1024入口一二三四,黄色aa视频

識別搜索引擎爬蟲真偽的方法淺析2010/2/25 11:11:32　瀏覽：30

　　相信不少網站對搜索引擎爬蟲都是又愛又恨，因為其中不僅有些爬蟲不守規矩，還有人冒充爬蟲對網站進行瘋狂的掃描。

　　做的比較好的爬蟲抓取頻率都比較合理，對網站資源消耗比較少，Google Spider會根據網頁的下載速度等因素進行抓取速度的動態調整，你可以通過Webmaster Tools來調整Spider的抓取速度。

　　Google_Webmaster_Tools_Settings

　　很多糟糕的網絡爬蟲，經常并發幾十上百個請求循環重復抓取。一個“爬蟲”先是將PageNo遞增到無窮大——被封，過了4個小時，“爬蟲”又回來了，這次程序倒是改進了不少，通過分析網頁內部的鏈接進行抓取，可是沒過多久發現總是抓取那幾個特定的頁面，原來被網頁內部鏈接套住，程序進入了死循環，只能封殺。

　　網上也出現了很多如何封殺惡意爬蟲的方法。常見的就是根據UserAgent中的標識進行識別封殺，但是道高一尺魔高一丈，接下來就有人偽造User-Agent，偽裝成各大搜索引擎的爬蟲進行抓取。

　　目前的做法是根據UserAgent進行判斷，如果是真正的搜索引擎爬蟲，那么就放過；如果發現是偽造的就堅決封殺。剩余的正常UserAgent的訪問則通過限制IP并發請求次數來限制。

　　那么問題就出現了，如何才能正確識別搜索引擎爬蟲的真偽，其實一些大型的搜索引擎商都已經提供了相關的方法，那就是反向DNS驗證。

　　拿Google Spider舉個例子：

　　Google：www.google.com/support/webmasters/bin/answer.py?answer=80553

　　Yahoo：http://www.ysearchblog.com/2007/06/05/yahoo-search-crawler-slurp-has-a-new-address-and-signature-card/

　　Bing：cn.bing.com/community/blogs/search/archive/2006/11/29/search-robots-in-disguise.aspx

　　可喜可賀的是baidu的2個月前爬蟲也開始遵守這一“潛規則”，雖然沒有在任何網頁公開此消息，但經過測試，實際上是可行的。

相關資訊: 企業網建設過程中需要考慮的幾點

現在這個互聯網時代，企業網站已經成為了企業營銷推廣的基礎，更是品牌建設中不可或缺的部分，但是網站也不..; 企業官網建設多少錢？

許多公司為了滿足自身發展的需要，會建立屬于自己公司網站。每個公司在制作網站的時候都需要有產品和服務營..; 移動互聯網+時代，還是企業官網嗎？

在這樣一個移動互聯網的時代，搭建好企業的官網，做好互聯網上面的一個營銷宣傳工作，對于企業，尤其是傳統行業來說，起著至關重要的作用。; 如何選擇一家好的網站建設公司

品牌網站建設公司; 2021年的新網站建設報價

2021年的網站建設報價

^{<ol id="22lqc"></ol>}