一个合格的站长或者seoer必须要能看懂网站的做事器日志文件,这个日志记录了网站被搜索引擎爬取的痕迹,给站长供应了蜘蛛是否来访的有力佐证,站长朋友可以通过网站日志来剖析搜索引擎蜘蛛的抓取情形,剖析网站的是否存在收录非常问题。并且我们可以根据这个日志文件判断蜘蛛来访频率以及抓取规律,这将非常有利于我们做优化。其余,学习剖析网站日志文件也是站长必须具备的能力,也是你从一个低级seo进阶到seo高手的必由之路。但是条件是要主机做事商开通日志统计功能,一样平常虚拟主机供应商都不会开通,你可以申请开通,或者自己到做事器管理后台开通这个日志统计功能,不过日志也会占用空间的,我们在看完日志文件后,可以隔段韶光清理下日志文件。那么如何剖析做事器日志文件呢?听阿涛给你娓娓道来。
如果你的博客或网站是搭建在付费主机上,如果你是博客或网站的站长,如果你连原始访问日志是什么都不知道,或者对其根本不屑一顾,我只能说你是一个不称职的网站站长,一旦网站出问题,必定是束手无策!
相信大家都在自己的网站上安装了网站统计的代码,如Google analytics、量子统计、百度统计、cnzz、51.la等,这些工具可以统计网站的流量,也便是网站客可以看到的所有页面的访问量,但是这些统计工具都不能统计你主机上资源的原始访问信息,例如某个图片被谁下载了,也不能统计到那些没有添加统计代码的地方,比如后台操作页面。

绝大多数收费主机都供应原始访问日志,网站做事器会把每一个访客来访时的一些信息自动记录下来,保存在原始访问日志文件中,如果你的主机不供应日志功能,建议你到期后还是换主机吧。日志中记录了网站上所有资源的访问信息,包括图片、CSS、JS、FLASH、HTML、MP3等所有网页打开过程载入的资源,同时记录了这些资源都被谁访问了、用什么来访问以及访问的结果是什么等等,可以说原始访问日志记录了主机的所有资源利用情形。
剖析网站日志有什么浸染?
1、我们可以比较准确的定位搜索引擎蜘蛛来爬行我们网站的次数,可以屏蔽伪蜘蛛(此类蜘蛛多以采集为主,会增加我们做事器的开销)点此识别Baiduspider真伪。
2、通过剖析网站日志,我们可以准确定位搜索引擎蜘蛛爬行的页面以及时间是非,我们可以依次有针对性的对我们的网站进行微调。
3、http返回状态码,搜索引擎蜘蛛以及用户每访问我们的网站一次,做事器端都会产生类似301,404,200的状态吗,我们可以参照此类信息,对我们涌现问题的网站进行大略的诊断,及时处理问题。
网站日志文件存放在什么地方?
一样平常的虚拟主机都供应日志文件,但是不同的虚拟主机系统会供应不同的LOG文件存储文件名,笔者利用的是万网的虚拟主机,日志文件存储在wwwlogs文件夹下。
网站日志文件里面的记录怎么看?
原始访问日志每一行便是类似以下的记录:
116.231.220.179 - - [25/Mar/2015:11:21:15 +0800] \"大众GET /blog/article/10.html HTTP/1.1\"大众 200 8671 \公众[color=black !important]http://www.weiaipin.cn\公众 \公众Mozilla/5.0 (Windows NT 6.1; WOW64; rv:36.0)\"大众
下面我们来说说这一行记录的意思:
116.231.220.179这是访客(也可能是机器人)的IP
[25/Mar/2015:11:21:15 +0800]这是访客访问该资源的韶光(Date),+0800是该韶光所对应的时区,即与格林威治韶光相差+8个小时
\公众GET /blog/article/10.html HTTP/1.1\"大众要求信息,包括要求办法、所要求的资源以及所利用的协议,该语句的意思便是以GET办法,按照HTTP/1.1协议获取网页/blog/article/10.html,10html为网站上的某个页面。
200 8671,200为该要求返回的状态码(Http Code),不同的状态码代表不同的意思,详细请阅读 HTTP 状态代码;8671为这次要求所耗费的流量(Size in Bytes),单位为byte
\"大众htt p://www. weiaipin .cn/\公众为访客来源(Referer)。这一段是见告我们访客是从哪里来到这一个网页。有可能是你的网站其他页,有可能是来自搜索引擎的搜索页等。通过这条来源信息,你可以揪出盗链者的网页。
\"大众Mozilla/5.0 (Windows NT 6.1; WOW64; rv:36.0)\公众为访客所利用的浏览器类型(Agent),这里记录了用户利用的操作系统、浏览器型号等信息。
如何剖析网站日志中的内容?
1、把稳那些被频繁访问的资源
如果在日志中,你创造某个资源(网页、图片和mp3等)被人频繁访问,那你该当把稳该资源被用于何处了!如果这些要求的来源(Referer)不是你的网站或者为空,且状态码(Http Code)为200,解释你的这些资源很可能被人盗链了,通过 Referer 你可以查出盗链者的网址,这可能便是你的网站流量暴增的缘故原由,你该当做好防盗链了。
2、把稳那些你网站上不存在资源的要求
如果某些要求信息不是本站的资源,Http Code不是403便是404,但从名称剖析,可能是保存数据库信息的文件,如果这些信息让别人拿走,那么攻击你的网站就轻松多了。发起这些要求的目的无非便是扫描你的网站漏洞,通过漫无目的地扫描下载这些已知的漏洞文件,很可能会创造你的网站某个漏洞哦!通过不雅观察,可以创造,这些要求所利用的Agent差不多都是Mozilla/4.0、Mozilla/5.0或者libwww-perl/等等非常规的浏览器类型,以上我供应的日志格式化工具已经集成了对这些要求的警报功能。我们可以通过禁止这些Agent的访问,来达到防止被扫描的目的,详细方法下面再先容。
3、不雅观察搜索引擎蜘蛛的来访情形
通过不雅观察日志中的信息,你可以看出你的网站被蜘蛛访问的频率,进而可以看出你的网站是否被搜索引擎青睐,这些都是SEO所关心的问题吧。日志格式化工具已经集成了对搜索引擎蜘蛛的提示功能。常见搜索引擎的蜘蛛所利用的Agent列表如下:
Google蜘蛛 :Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Baidu蜘蛛 :Baiduspider+(+http://www.baidu.com/search/spider.htm)
Yahoo!蜘蛛 :Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)
Yahoo!中国蜘蛛 :Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
微软Bing蜘蛛 :msnbot/2.0b (+http://search.msn.com/msnbot.htm)
Google Adsense蜘蛛 :Mediapartners-Google
有道蜘蛛 :Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/)
Soso搜搜博客蜘蛛 :Sosoblogspider+(+http://help.soso.com/soso-blog-spider.htm)
Sogou搜狗蜘蛛 :Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
Twiceler爬虫程序 :Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html)
Google图片搜索蜘蛛 :Googlebot-Image/1.0
俄罗斯Yandex搜索引擎蜘蛛 :Yandex/1.01.001 (compatible; Win16; I)
Alexa蜘蛛 :ia_archiver (+http://www.alexa.com/site/help/webmasters)
Feedsky蜘蛛 :Mozilla 5.0 (compatible; Feedsky crawler /1.0)
韩国Yeti蜘蛛:Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)
4、不雅观察访客行为
通过查看格式化后的日志,可以查看跟踪某个IP在某个韶光段的一系列访问行为,单个IP的访问记录越多,解释你的网站PV高,用户粘性好;如果单个IP的访问记录希希,你该当考虑如何将你的网站内容做得更加吸引人了。通过剖析访客的行为,可以为你的网站培植供应有力的参考,哪些内容好,哪些内容不好,确定网站的发展方向;通过剖析访客的行为,看看他们都干了些什么事,可以揣测访客的用意,及时揪出恶意用户。
网站日志剖析工为难刁难老站长来说是非常随意马虎的,从日志代码的查看到日志剖析出的问题办理是管窥蠡测。实在网站日志剖析不难,只是新手不理解个中的意思,才会以为有问题。逐步看多了网站日志你也就懂了个中的意思。这里我以幸运赛车网站的日志为例,交新手如何快速入门这项事情。
实在代码没大家想象的那么难,打仗代码,网站日志代码都看得懂,崇拜之情无以言表。在看了一段韶光网站日志后,才创造原来不是他们牛,是我还是菜鸟。自己摸索的话,对网站日志剖析入门韶光会比较久,在这里分享些履历,相信对付新手可以快速入门的。
1、蜘蛛名称先容
在网站日志中,蜘蛛名称一样平常有一下几类:百度->baiduspider、Google ->Googlebot、Msn ->msnbot、yahoo ->Slurp、yodao ->YoudaoBot、sogou ->Sogou+get+spider 。在日志中,只要搜索以上蜘蛛名称,就可以看到该蜘蛛类型的爬取痕迹。
2、蜘蛛爬取返回类型
在蜘蛛爬取后会返回代码,通过查看贷款状态可以看到爬取结果,紧张HTTP状态码有一下几类:
(1)200代码,表示蜘蛛爬取正常。
(2)304代码,表示自早年次抓取后,该内容没有更新。一样平常情形下,网站的图片常常会返回该值。
(3)404代码,访问的这个链接是缺点链接。这个缺点链接,一方面来自原来存在后来删除了网页,另一方面可能来自本来就不存在,但其他人外链了这么个去世链接。
(4)302代码,表示临时重定向。
(5)301代码,表示永久重定向。
(6)500代码,表示程序有错。
3、日志代码解读
#Software: Microsoft Internet Information Services 6.0
#Version: 1.0
#Date: 2015-7-6 16:00:39
#Fields: date time s-sitename s-computername s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs-version cs(User-Agent) cs(Cookie) cs(Referer) cs-host sc-status sc-substatus sc-win32-status sc-bytes cs-bytes time-taken
date表示记录访问日期;
time访问韶光;
s-sitename表示你的虚拟主机的代称。
s-ip访问者IP;
cs-method表示访问方法,常见的有两种,一是GET,便是平常我们打开一个 URL访问的动作,二是POST,提交表单时的动作;
cs-uri-stem便是访问哪一个文件;
cs-uri-query是指访问地址的附带参数,如asp文件?后面的字符串id=12等等,如果没有参数则用-表示;
s-port 访问的端口;
cs-username 访问者名称;
c-ip 来源ip;
cs(User-Agent)访问来源;
sc-status状态,200表示成功,403表示没有权限,404表示打不到该页面,500表示程序有错;
sc-substatus 做事端传送到客户真个字节大小;
cs–win32-statu客户端传送到做事真个字节大小;
详细案例剖析:
2015-7-8 18:47:12 W3SVC2137573334 D-901195C886694 119.147.151.150 GET /a.aspx id=2230&TypeId=91 80 - 123.125.71.28 HTTP/1.1 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) - - www.7ien.cn 200 0 0 59004 243 2250
这段日志表示,Baiduspider:表示蜘蛛爬取类型为百度蜘蛛,GET /a.aspx id=2230&TypeId=91表示蜘蛛爬取文件名为a.aspx id=2230&TypeId=91。返回结果为200。
常用网站日志剖析软件有哪些?
笔者试用过很多网站日志剖析工具,常用的并且功能又比较全面的大概有三款:光年SEO日志剖析系统、逆火网站日志剖析器、Web Log Explorer。
搜索引擎抓取网站信息必会在做事器上留下信息,这个信息就在网站日志文件里。我们通过日志可以理解搜索引擎的访问情形,一样平常通过主机做事商开通日志功能,再通过FTP访问网站的根目录,在根目录下可以看到一个log或者weblog文件夹,这里面便是日志文件,我们把这个日志文件下载下来,用记事本(或浏览器)打开就可以看到网站日志的内容。那么到底这个日志里面隐蔽了什么玄机呢?实在日志文件就像飞机上的黑匣子。我们可以通过这个日志理解很多信息,那么到底这个日志给我们通报了什么内容呢?
如果想要知道网站日志文件包含了什么内容,首先必须知道各搜索引擎的蜘蛛名称,比如百度的蜘蛛程序名称是baiduspider,Google的机器人程序名称是Google-Googlebot等等,我们在日志的内容里搜索上述的的蜘蛛名就可以知道哪个搜索引擎已经爬取过网站了,这里就留下了他们的蛛丝马迹。再者,必须能看懂常见的http状态码,最常见的HTTP状态码有200(页面抓取成功)、304(上次抓取的和这次抓取的没变革),404(未找到页面,缺点链接)500(做事器未相应,一样平常由做事器掩护和出故障,网站打不开时涌现的),这些状态码是我们站长朋友必须能看懂的,做事器状态码的值是我们和蜘蛛互换的旗子暗记。知道了这些基本信息往后我们就可以根据网站日志进行剖析了,一样平常来说我们只看百度和谷歌蜘蛛的爬行和抓取情形,当然有分外须要的也可以对其他几个蜘蛛的爬行情形进行剖析。网站日志中涌现大量的谷歌蜘蛛和百度蜘蛛,解释搜索引擎蜘蛛时常来光顾你的网站。
说到剖析日志文件,我们就不得不说剖析日志文件的机遇了,那么在什么情形下我们要去剖析日志文件呢?首先,新网站刚建立的时候,这个时候也是站长朋友最迫切的时候,我们一样平常都会发急的等待搜索引擎收录网站内容,常常会做的事情便是去百度或者Google用命令site:下网站域名看看是否被收录,这个时候,实在我们没必要频繁的查询网站是否被收录,要想知道搜索引擎是否关顾我们的网站。我们就可以借助网站日志文件来查看,怎么看?看网站日志是否有搜索引擎的蜘蛛来网站抓取过,看返回的状态码是200还是其他,如果返回200解释抓取成功,如果返回404解释页面缺点,或者页面不存在,就须要做301永久重定向或者302暂时重定向。一样平常抓取成功后被搜索引擎放出来的韶光也会晚点,一样平常谷歌机器人放出来的比较快,最快可秒杀,但是百度反应就慢了,最快也要一周旁边,不过11月份百度算法调度后,放出来的速率还是很快的。其次,当网站收录非常时我们要把正常收录的日志和非常的日志进行比拟剖析,找出问题所在,这样可以办理网站收录问题,也是对完全优化大有裨益的。第三,网站被搜索引擎K掉后,我们必须要不雅观察网站日志文件来亡羊补牢,一样平常这种情形下,日志文件里只有很少的几个蜘蛛爬行了首页和robots,我们要找出被K的缘故原由并改正,再提交给搜索引擎,接下来就可以通过不雅观察日志来看蜘蛛是否正常来临,逐步过一段韶光,如果蜘蛛数量增加或者常常来临并且返回200状态吗,那么恭喜你,你的网站又活了,如果半年都没反应,那么建议放弃该域名重新再战了。
很多站长朋友不睬解如何利用网站日志文件,碰着网站收录问题就去提问别人,而不好好自检,这是作为站长或者seoer的悲哀。而且网上的很多软文都提到要做好日志文件的剖析,但是那只是软文而已,说不定写文章的作者都没有去看日志文件。说到底,还是希望站长朋友一定不要忽略了网站日志文件,合理的利用好网站日志文件是一个站长或seoer必备的技能。再者说,看懂网站日志文件并不须要你有多么博识的编码知识,实在只要看得懂html代码和几个返回的状态码就可以了,一定不能
集创建一组关联规则。当我们把最小置信度设为85%,通过关联规则的形成以及对应置信度的打算,我们可以从中得到以下有用的信息:1.置信度大于最小置信度时:我们可以这样认为,用户群体在浏览干系网页时,所呈列的链接之间是有很大关联的,他们是用户群的共同爱好,通过网页布局的调度,从某种意义上,可以带来更高的点击率及潜在客户;2.置信度小于最小置信度时:我们可以这样认为,用户群体对所呈列链接之间没太多的关联,亦或关联规则中的链接在争夺用户。
网站中网站日志挖掘内容
(1)网站的概要统计。网站的概要统计包括剖析覆盖的韶光、总的页面数、访问数、会话数、惟一访问者、以及均匀访问、最高访问、上周访问、昨日访问等结果集。
(2)内容访问剖析。内容访问剖析包括最多及最少被访问的页面、最多访问路径、最多访问的新闻、最高访问的韶光等。
(3)客户信息剖析。客户信息剖析包括访问者的来源省份统计、访问者利用的浏览器及操作系统剖析、访问来自的页面或者网站、来自的IP地址以及访问者利用的搜索引擎。
(4)访问者活动周期行为剖析。访问者活动周期行为剖析包括一周7天的访问行为、一天24小时的访问行为、每周的最多的访问日、每天的最多访问时段等。
(5)紧张访问缺点剖析。紧张访问缺点剖析包括做事端缺点、页面找不到缺点等。
(6)网站栏目剖析。网站栏目剖析包括定制的频道和栏目设定,统计出各个栏目的访问情形,并进行剖析。
(7)商务网站扩展剖析。商务网站扩展剖析是专门针对专题或多媒体文件或下载等内容的访问剖析。
(8)有4个方向可以选择:①对用户点击行为的追踪,click stream研究;②对网页之间的关联规则的研究;③对网站中各个频道的浏览模式的研究;④根据用户浏览行为,对用户进行聚类,细分研究;(如果你能够结合现有的互联网产品和运用提出一些自己的建媾和见地,那就更有代价了。)
(9)创造用户访问模式。通过剖析和探究网站日志记录中的规律,可以识别电子商务的潜在客户,提高对终极用户的做事质量,并改进网站做事器系统的性能。(10)反竞争情报活动。反竞争情报是企业竞争情报活动的主要组成部分。