高端定制,品牌设计

指南针2005 - 2016作品集

指南针网络科技有限公司

搜索引擎抓取网页的方式

13-04-02 09:12:08 · 搜索引擎 ·

  做seo就是为了取悦搜索引擎那么我们必须要了解搜索引擎抓取页面的方式 搜索引擎不可能一次性抓取到网站中所有的页面而且网站中页面的数量也会不断地变化内容也在不断地更新。因此搜索引擎还需要对已经抓取的页面进行维护、更新以便能及时获取页面中最新的信息及抓取更多的新页面。常见页面维护方式包括定期抓取、增量抓取及分类定位抓取。

  ●定期抓取 定期抓取也称为周期性抓取即搜索引擎周期性地对网站中已收录的页面进行全面更新。更新的时候把抓取到的新页面替换原有的旧页面删除不存在的页面并存储新发现的页面。周期性更新针对的是全部已收录的页面因此更新周期会比较长。例如Google-般是3060天才会对已收录的页面进行更新。 定期抓取算法的实现相对简单。由于每次更新涉及到网站中所有已经收录的页面因此页面权重的再分配也是同步进行的。这种方式适用于维护页面比较少、内容更新缓慢的网站例如普通的企业网站。但是由于更新周期十分漫长这就导致不能及时向用户反映更新其间页面的变化情况。例如某个页面的内容更新以后至少需要3060天才能在搜索引擎上有所体现。

  ●增量抓取 增量抓取是通过对已抓取的页面进行定时监控实现对页面的更新及维护。但是对网站中的每个页面都进行定时监控的做法是不现实的。基于重要页面携带重要内容的思想以及80/20法则搜索引擎只需对网站中部分重要页面进行定时的监控即可获取网站中相对重要的信息。因此增量抓取只针对网站中某些重要的页面而非所有已经收录的页面这也是为什么搜索引擎对重要页面的更新周期会更短的原因。例如内容经常更新的页面搜索引擎也会经常对其进行更新从而可以及时发现新内容、新链接并删除不存在的信息。 由于增量抓取是在原有页面的基础上进行的因此会大大缩减搜索引擎的抓取时间而且还可以及时向用户展示页面中最新的内容。

  ●分类定位抓取 与增量抓取由页面重要性决定不同分类定位抓取是指根据页面的类别或性质而制定相应更新周期的页面监控方式。例如对于“新闻资讯”与“资源下载”这两类页面新闻资讯类页面的更新周期可以精确到每分钟而下载类页面更新周期就可以定为一天或更长。 分类定位抓取对不同类别的页面进行分开处理这样就可以节省大量的抓取时间并大大提高页面内容的实时性也增强页面抓取的灵活性。但是按照类别而制定页面更新周期的方式比较笼统很难跟踪页面的更新情况。因为即使是相同类别的页面在不同的网站上内容的更新周期也会存在很大的差别。例如新闻类页面在大型门户网站中内容的更新速度就会比其他小型网站快得多。

  所以还需要结合其他的方式例如增量抓取等对页面进行监控、更新。 实际上搜索引擎对网站中页面的维护也是结合多种方式进行相当于间接为每一个页面选择最合适的维护方式。这样既可以减少搜索引擎的负担又可以为用户提供及时的信息。 例如在一个网站中会存在多种不同性质的页面常见的包括首页、论坛页面、内容页面等。对于更新比较频繁的页面例如首页可以使用增量抓取方式对其进行监控这样就可以对网站中相对重要的页面进行及时更新而对于实时性非常高的论坛页面则可以采用分类定位的抓取方式而为了防止遗漏网站中的某些页面还需要采用定期抓取的方式。

推荐阅读

居然丽家装饰城

2016-07-1210

河北世航科技有限公司

2016-07-1212

石家庄指南针网络科技有限公司

2016-07-126

石家庄大地种业有限公司

2016-07-127