最近的某一个晚上,在冲冷水澡的时候头脑发热,突然来了灵感.灵感来自于对百度等众多搜索引擎的蜘蛛爬虫原理猜想,在这里以百度蜘蛛为例子.我发现,百度蜘蛛也有脾气,跟人很相似.在这里不得不再次佩服一下百度的工程师.
站长们都希望自己的站为百度蜘蛛所宠爱,恨不得百度蜘蛛全都来自己的网站上爬个不停,因为那样百度的更新会很神速,收录也会飞速增长.经过自己之前做过的一些站综合起来的经验,我得到下面的一些猜想结果.
一.发现
在新站完成之后,提交给百度或在网络上其他地方发上一个有效的连接开始.百度的蜘蛛便会在24小时内光临你的网站,一般来的蜘蛛数量,跟你所发连接那个网站有很大关系.
例如,你在百度贴吧里某个热门的吧里发了你的网址.如果这个吧的更新频率快,说明在那里的蜘蛛也很多,能看到你发的那个连接的蜘蛛也会很多.于是乎,看到你连接的蜘蛛们都会很自然地爬到你网站上,并在同时将你的网站保存在蜘蛛们的"收藏夹(数据库)"里,以便下次它们再来.
二.了解
我们假设第一批来到你网站的蜘蛛有10只,它们当中有8只保存了你的网址,所以在这8只蜘蛛所隶属的服务器里面的其他蜘蛛,也能通过那8只蜘蛛的"口口相传"而知道你的网站(这个在下面会解释).
这8只蜘蛛当中,有4只比较勤快,24小时内先后光临你网站好几次,并抓取了很多网页,保存到百度数据库里.而另外4只则在到了你网站上的时候,当天爬了不少网站,已经很累了,就是随便抓取了你网站少许的几个页面后就回去休息了.
三.熟悉
像我们到一个新网站一样,我们或许是通过搜索发现,或许是朋友推荐发现,或许是从网络上其他地方看到连接而发现等等.在我们到了一个新网站的时候,都会花上几天时间去了解这个网站有多少是我们需要的.在对这个网站熟悉了之后,便会有规律地来仿.
百度蜘蛛也是一样,它们在发现你网站的前几天时间,都会通过你页面上连接去抓取你网站上容易发现的页面.在过了几天后,对你网站也熟悉了.
这个时候,如果你的网站没有经常更新,不管是普通用户还是蜘蛛,都会慢慢减少来仿的次数.相反,如果你的网站更新速度快,蜘蛛们便会爬个不停.
如果内容质量高,而且都独挡一面(原创),普通用户会将你的网站推荐给身边的朋友.蜘蛛也是一样,随着它们抓取你网站页面数量的增加,同一服务器上其它蜘蛛就会有好奇的跟着来看,蜘蛛们可能也会将你的网站推荐给其他蜘蛛.这个时候,百度蜘蛛会来得越来越多.
看完上面的介绍,可能有的朋友已经关闭了网页或已经快睡着了.哈哈~!别介意,那些是对蜘蛛的简单介绍,下面来说说百度蜘蛛的其他几个技术点.
去年年底做过几个用黑帽做的垃圾站,当时百度对反连的权重还是给得比较高的.每天稳定收购几个连接,并坚持每天更新.基本上每个站,每天百度蜘蛛的访问量都在2000只至5000只.而大部分都是抓取了首页,每隔一分钟抓取一至两次.原因何在?
这是我最近才想通的,原来我那些垃圾站的外连都特别多,而那些连向我的站的网站上,每天都会有新蜘蛛访问.一个有点权重的站,更新正常的站,每天至少都有一百只蜘蛛访问着,当它们发现反连就很自然地爬到了我的网站上,所以呢,全部加起来就有几千只了.
至于为什么都只是抓取首页,这个还在测试当中,请各位朋友留意奥斯卡网络营销,近期将会发布.
本文为本站原创,如需转载,请注明来源!
文章来自: OscarShen(奥斯卡)网络营销 (www.oscarshen.com)