TA的每日心情 | 难过 昨天 01:25 |
---|
签到天数: 41 天 [LV.5]常住居民I
超级版主
 
- 积分
- 305106
|
爬行策略有如下几种:深度先爬行策略是爬虫沿着发现的链接先爬取一个页,然后一直往前爬行,爬行到前面再也没有其他链接为止,然后在返回到首个页面,沿着另一个链接再一直往前爬行。如图1所示,爬取的顺序是ADEBCFG;广度先爬行策略:是指爬虫在一个页面上发现多个络链接时,不是沿着一个络链接一直向前爬行,而是先把页面上同一层次链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第层页面。爬取的顺序是ABCDEFG;大站先爬行策略是对于准备抓取地址队列中的所有页,把其根据所属的进行分类,先爬取的页数量比其他多的。反链爬行策略是指的是一个页被其他页链接指向的数量,当某个页的内容受到其他人的推荐的程度高,这种页被先爬取。 |
|