搜索引擎如何去抓取网页

搜索引擎看似简单的抓取-入库-查询工作,但其中各个环节暗含的算法却十分复杂。

搜索引擎抓取页面工作靠蜘www.warmstore.eu蛛(Spider)来完成,抓取动作很容易实现,但是抓取哪些页面,优先抓取哪些页面却需要算法来决定,下面介绍几个抓取算法:

1、宽度优先抓取策略:

我们都知道,大部分网站都是按照树状图来完成页面分布的,那么在一个树状图的链接结构中,哪些页面会被优先抓取呢?为什么要优先抓取这些页面呢?宽度优先抓取策略就是按照树状图结构,优先抓取同级链接,待同级链接抓取完成后,再抓取下一级链接。如下图:

Read More

被惩罚的网站抓取不会减少

网站被惩罚是一个非常令人苦恼的事情,因为网站被惩罚往往伴随着索引量减少,关键词排名下降,流量减少等,自己的成果付之东流,没人愿意看到。很多人认为被搜索引擎惩罚就相当于被贴上了“垃圾”的标签,被牢牢的抓住了,再也翻不了身,搜索引擎也不会再很好的抓取这个网站,事实如此吗?

网站被惩罚 搜索引擎抓取 搜索引擎排名

被惩罚的网站,抓取不会减慢

是否谷歌抓取被惩罚的站点频率会更少或更慢?谷歌回应,通常对被惩罚的网站,抓取不会减慢。因为网站被某个算法惩罚后,需要等待谷歌抓取这个网站,提取网站上的变化,然后继续执行这个算法。也就是说,如果你的网站被惩罚,你需要去修正你的网站不对的地方,那么当谷歌抓取并提取了这些变化的时候,就会不断重新运行算法。如果这个时候网站一切都很好,你的网站就会脱离这个惩罚,恢复正常。

Read More