首页 > 文章资讯 > 站长教程 > seo优化 > 搜索引擎Spider蜘蛛爬虫抓取介绍

搜索引擎Spider蜘蛛爬虫抓取介绍

时间：2023年12月02日

来源：网络

编辑：佚名

Spider也就是大家所说的爬虫，蜘蛛或机器人。是处于整个搜索引擎最上游的模块，只有Spider抓回的页面和URL，才会被索引和参与排名。需要注意的是，只要Spider抓到的URL，都可能会参与排名，但参与排名的网页并不一定被Spider抓取了内容，比如有些网站屏蔽了搜索引擎Spider，不能抓取网页内容，但是会有一些域名的URL，在搜过引擎中参与排名，(例如天猫上的很多独立域名的店铺)。根据搜索引擎的不同，Spider也会有不同的分类，大型搜索引擎都会有以下需要解决的问题，也是和SEO有密切相关的问题。
首先Spider要想抓取网页就要发现网页抓取入口，没有抓取入口也就没有办法继续工作，所以首先要给到一些网页入口，然后Spider对这些入口进行查询抓取，这里就涉及到抓取的策略问题，抓取策略的选择会直接影响Spider所需要的资源，Spider所抓取网页占全网网页的比例，Spider工作效率，那么Spider一般会采取什么样的策略抓取网页呢。
其次网页内容也是有时效性的，所以Spider对不同网页的抓取频率也有一定的策略性，否则可能会使得索引库中的内容都很陈旧，或者该更新的没有更新该更新的全浪费资源更新了，甚至还会出现该网页已经被删除，但是该页面还处在搜索结果中的情况，Spider一般会使用什么样再次抓取和更新策略呢。
再次，互联网中的网页总有一部分是没有外部链接导入的，也就是常说的“暗网”。并且这部分网页也是需要呈现给广大网民浏览的，此时Spider就要想方设法针对处于暗网中的网页进行抓取，当下百度如何来处理这个暗网的问题呢?
最后，大型搜索引擎，Spider不可能只有一个，为了节约资源，要保证多个Spider同时抓取，且抓取页面不重复，又由于各地Spider分配问题，搜索引擎一般不会Spider放在同一个地区。会多地区进行同时抓取，这么就需要设计分布式抓取的策略问题，那么一般搜索引擎的发展，而会采取怎么样的分步抓取策略?

新闻资讯更多

猜你需要