如何分析網站日志

2015年12月3日00:44:44 發表評論 4,214 ℃

網站日志是網站管理員和搜索引擎對話溝通的途徑。通過日志,了解搜索引擎蜘蛛的訪問情況。

從日志中,挑出一段來,就是如下的形式:

2015-12-01 01:05:03 202.173.122.109 GET /atang_1859.html  - 80 - 123.125.71.13 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0 1981

蜘蛛名稱:百度->baiduspider、Google ->Googlebot、Msn ->msnbot、yahoo ->Slurp、yodao ->YoudaoBot、sogou ->Sogou+get+spider

如何分析網站日志

在日志文件里,搜索以上蜘蛛名稱。就可以看到蜘蛛抓取的痕跡。

我們分析的主要點是,HTTP狀態碼,如以上的200和301。

" 200 0 0 1981 " 代表正常抓取,這次抓取了1981個字節。

不同的服務器或虛擬主機設置的日志記錄內容不同。

有的如:200 0 5583 207 823  我們通過多看幾條記錄,觀察規律,可以判斷第三個數字代表字節數。

有的如:200 0 0或200 0 64  這是沒有記錄抓取字節數。注意:200 0 0和200 0 64 沒代表什么問題。所謂200 0 64代表要被K的言論沒有根據,一般的網站都有64代碼。

在日志里,發現比較多的HTTP狀態碼是,200(正常)、304(沒變化)、404(錯誤鏈接)。

304代表,自從上次抓取后,該內容沒有更新。一般情況下,網站的圖片經常會返回該值。

404代表,訪問的這個鏈接是錯誤鏈接。這個錯誤鏈接,一方面來自原本存在后來刪除了網頁,另一方面可能來自本來就不存在,但其他人外鏈了這么個死鏈接。

需要對日志統計分析,可以下載一些日志分析工具進行分析。

【騰訊云】云服務器、云數據庫、COS、CDN、短信等云產品特惠熱賣中

發表評論

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: