全國服務熱線:400-080-4418
相信不少網站對搜索引擎爬蟲都是又愛又恨,因為其中不僅有些爬蟲不守規矩,還有人冒充爬蟲對網站進行瘋狂的掃描。
做的比較好的爬蟲抓取頻率都比較合理,對網站資源消耗比較少,Google Spider會根據網頁的下載速度等因素進行抓取速度的動態調整,你可以通過Webmaster Tools來調整Spider的抓取速度。
Google_Webmaster_Tools_Settings
很多糟糕的網絡爬蟲,經常并發幾十上百個請求循環重復抓取。一個“爬蟲”先是將PageNo遞增到無窮大——被封,過了4個小時,“爬蟲”又回來了,這次程序倒是改進了不少,通過分析網頁內部的鏈接進行抓取,可是沒過多久發現總是抓取那幾個特定的頁面,原來被網頁內部鏈接套住,程序進入了死循環,只能封殺。
網上也出現了很多如何封殺惡意爬蟲的方法。常見的就是根據UserAgent中的標識進行識別封殺,但是道高一尺魔高一丈,接下來就有人偽造User-Agent,偽裝成各大搜索引擎的爬蟲進行抓取。
目前的做法是根據UserAgent進行判斷,如果是真正的搜索引擎爬蟲,那么就放過;如果發現是偽造的就堅決封殺。剩余的正常UserAgent的訪問則通過限制IP并發請求次數來限制。
那么問題就出現了,如何才能正確識別搜索引擎爬蟲的真偽,其實一些大型的搜索引擎商都已經提供了相關的方法,那就是反向DNS驗證。
拿Google Spider舉個例子:
Google:www.google.com/support/webmasters/bin/answer.py?answer=80553
Yahoo:http://www.ysearchblog.com/2007/06/05/yahoo-search-crawler-slurp-has-a-new-address-and-signature-card/
Bing:cn.bing.com/community/blogs/search/archive/2006/11/29/search-robots-in-disguise.aspx
可喜可賀的是baidu的2個月前爬蟲也開始遵守這一“潛規則”,雖然沒有在任何網頁公開此消息,但經過測試,實際上是可行的。
Copyright 2008 © 上海網至普信息科技有限公司 All rights reserved. 滬ICP備11006570號-13 滬公網安備 31011402007386號