51排名北京百度排名优化_刷百度排名行业领先【SEO快速排名】一站式服务商,帮助企业网站快速排名,快速上首页!| 网站地图
首页

主页 > 移动SEO搜索优化 > 搜索引擎蜘蛛是怎么收集网站信息的?(百度排名优化)

搜索引擎蜘蛛是怎么收集网站信息的?(百度排名优化)

百度排名优化 2020-01-08 移动SEO搜索优化 89 ℃


搜索引擎蜘蛛
搜索引擎蜘蛛是怎么收集网站信息的?

  信息收集模块包括“蜘蛛控制”和“网络蜘蛛”两部分,“蜘蛛”这个称呼形象的描述出了信息收集模块在网络数据形成的“Web”上进行信息获取的功能。

  总体而言,网络蜘蛛从种子网页出发,通过反复下载网页并从文档中寻找未曾见过的URL,达到访问其他网页得以遍历Web的目的。

  而其工作策略一般则可以分为累积式抓取(cumulative crawling)和增量式抓取(incremental crawling)两种。

  1、累积式抓取

  累积式抓取是指从某一个时间点开始,通过遍历的方式抓取系统所能允许存储和处理的所有网页。在理想的软硬件环境下,经过足够的运行时间,累积式抓取的策略可以保证抓取到相当规模的网页集合。

  但在古月建站看来由于Web数据的动态特性,集合中网页的被抓取时间点是不同的,页面被更新的情况也不同,因此累积式抓取到的网页集合事实上并无法与真实环境中的网络数据保持一致。

  2、增量式抓取

  与累积式抓取不同,增量式抓取是指在具有一定量规模的网络页面集合的基础上,采用更新数据的方式选取已有集合中的过时网页进行抓取,以保证所抓取到的数据与真实网络数据足够接近。

  进行增量式抓取的前提是,系统已经抓取了足够数量的网络页面,并具有这些页面被抓取的时间信息。面向实际应用环境的网络蜘蛛设计中,通常既包括累积式抓取,也包括增量式抓取的策略。

  累积式抓取一般用于数据集合的整体建立或大规模更新阶段,而增量式抓取则主要针对数据集合的日常维护与即时更新。

  在确定了抓取策略之后,如何从充分利用网络带宽,合理确定网页数据更新的时间点就成了网络蜘蛛运行策略中的核心问题。

  总体而言,在合理利用软硬件资源进行针对网络数据的即时抓取方面,已经形成了相对比较成熟的技术和实用性解决方案,古月建站觉得在这方面目前所需解决的主要问题是如何更好的处理动态网络数据问题(如数量越来越庞大的Web2.0数据等),以及更好的根据网页质量修正抓取策略的问题。

原标题:搜索引擎蜘蛛是怎么收集网站信息的?(百度排名优化)

tag标签: 搜索引擎蜘蛛

搜索
网站分类
标签列表
 

18665360949