網站日志是網站管理員和搜索引擎對話溝通的途徑。通過日志,了解搜索引擎蜘蛛的訪問情況。
從日志中,挑出一段來,就是如下的形式:
2015-12-01 01:05:03 202.173.122.109 GET /atang_1859.html - 80 - 123.125.71.13 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0 1981
蜘蛛名稱:百度->baiduspider、Google ->Googlebot、Msn ->msnbot、yahoo ->Slurp、yodao ->YoudaoBot、sogou ->Sogou+get+spider

在日志文件里,搜索以上蜘蛛名稱。就可以看到蜘蛛抓取的痕跡。
我們分析的主要點是,HTTP狀態碼,如以上的200和301。
" 200 0 0 1981 " 代表正常抓取,這次抓取了1981個字節。
不同的服務器或虛擬主機設置的日志記錄內容不同。
有的如:200 0 5583 207 823 我們通過多看幾條記錄,觀察規律,可以判斷第三個數字代表字節數。
有的如:200 0 0或200 0 64 這是沒有記錄抓取字節數。注意:200 0 0和200 0 64 沒代表什么問題。所謂200 0 64代表要被K的言論沒有根據,一般的網站都有64代碼。
在日志里,發現比較多的HTTP狀態碼是,200(正常)、304(沒變化)、404(錯誤鏈接)。
304代表,自從上次抓取后,該內容沒有更新。一般情況下,網站的圖片經常會返回該值。
404代表,訪問的這個鏈接是錯誤鏈接。這個錯誤鏈接,一方面來自原本存在后來刪除了網頁,另一方面可能來自本來就不存在,但其他人外鏈了這么個死鏈接。
需要對日志統計分析,可以下載一些日志分析工具進行分析。


