搜索引擎看似简单的抓取-入库-查询工作,但其中各个环节暗含的算法却十分复杂。
搜索引擎抓取页面工作靠蜘www.warmstore.eu蛛(Spider)来完成,抓取动作很容易实现,但是抓取哪些页面,优先抓取哪些页面却需要算法来决定,下面介绍几个抓取算法:
1、宽度优先抓取策略:
我们都知道,大部分网站都是按照树状图来完成页面分布的,那么在一个树状图的链接结构中,哪些页面会被优先抓取呢?为什么要优先抓取这些页面呢?宽度优先抓取策略就是按照树状图结构,优先抓取同级链接,待同级链接抓取完成后,再抓取下一级链接。如下图:
Read More