啊~嗯~用力~啊~啊~~动态图_gogo亚洲肉体艺术照片9090_公厕偷拍直男撒尿全集_女攻男受肉文

全國服務熱線:400-080-4418

您現在的位置是:首頁 > 新聞資訊 > 網站建設常識

識別搜索引擎爬蟲真偽的方法淺析2010/2/25 11:11:32 瀏覽:30

  相信不少網站對搜索引擎爬蟲都是又愛又恨,因為其中不僅有些爬蟲不守規矩,還有人冒充爬蟲對網站進行瘋狂的掃描。

  做的比較好的爬蟲抓取頻率都比較合理,對網站資源消耗比較少,Google Spider會根據網頁的下載速度等因素進行抓取速度的動態調整,你可以通過Webmaster Tools來調整Spider的抓取速度。

  Google_Webmaster_Tools_Settings

  很多糟糕的網絡爬蟲,經常并發幾十上百個請求循環重復抓取。一個“爬蟲”先是將PageNo遞增到無窮大——被封,過了4個小時,“爬蟲”又回來了,這次程序倒是改進了不少,通過分析網頁內部的鏈接進行抓取,可是沒過多久發現總是抓取那幾個特定的頁面,原來被網頁內部鏈接套住,程序進入了死循環,只能封殺。

  網上也出現了很多如何封殺惡意爬蟲的方法。常見的就是根據UserAgent中的標識進行識別封殺,但是道高一尺魔高一丈,接下來就有人偽造User-Agent,偽裝成各大搜索引擎的爬蟲進行抓取。

  目前的做法是根據UserAgent進行判斷,如果是真正的搜索引擎爬蟲,那么就放過;如果發現是偽造的就堅決封殺。剩余的正常UserAgent的訪問則通過限制IP并發請求次數來限制。

  那么問題就出現了,如何才能正確識別搜索引擎爬蟲的真偽,其實一些大型的搜索引擎商都已經提供了相關的方法,那就是反向DNS驗證。

  拿Google Spider舉個例子:

  Google:www.google.com/support/webmasters/bin/answer.py?answer=80553

  Yahoo:http://www.ysearchblog.com/2007/06/05/yahoo-search-crawler-slurp-has-a-new-address-and-signature-card/

  Bing:cn.bing.com/community/blogs/search/archive/2006/11/29/search-robots-in-disguise.aspx

  可喜可賀的是baidu的2個月前爬蟲也開始遵守這一“潛規則”,雖然沒有在任何網頁公開此消息,但經過測試,實際上是可行的。

 

服務網絡

關于我們

網至普專注于網站建設/網站優化,始終追求 “您的滿意,我的追求!”。懂您所需、做您所想!我們一直在思考如何為客戶創造更大的價值,讓客戶更省心!立足上海,服務全國。服務:上海,北京,廣州,深圳,成都,杭州,南京,蘇州,無錫等地

查看更多 >>

聯系我們

Copyright 2008 © 上海網至普信息科技有限公司 All rights reserved. 滬ICP備11006570號-13 滬公網安備 31011402007386號


關于我們 | 聯系我們 | 網站建設

返回頂部