屏蔽神马搜索蜘蛛YisouSpider减轻网站压力的方法

时间:2023年05月26日

/

来源:网络

/

编辑:佚名

YisouSpider看名字应该是一搜这个搜索引擎的蜘蛛,一搜这个名字现在已经很难见到的,一搜最早是由雅虎中国于2004年创建的,在阿里巴巴收购雅虎中国后归到了神马搜索旗下,所以神马搜索的蜘蛛名字就成了YisouSpider,目前神马搜索只有移动端,PC端暂时没有提供服务,所以对于移动端有需要的用户可以保留这个蜘蛛,但是以PC端流量为主力的网站可以屏蔽这个YisouSpider蜘蛛,优化网站压力。
为什么要屏蔽神马搜索YisouSpider蜘蛛,因为这个蜘蛛会不定时的在白天或晚上都大量抓取网站数控,而且蜘蛛都是一个ip组形式来抓取,导致网站负载增大,甚至崩溃。在网站日志分析中,通过 IP 段加上完整的 User Agent,这个蜘蛛应该是服务器集群的一组 IP 池,一种为移动端的 User Agent,一种则为 PC 端的 User Agent,都是神马搜索的蜘蛛。这个蜘蛛爬行频率和次数超过几乎所有其他蜘蛛。不过还好YisouSpider遵守robots.txt协议,所以可以通过这个协议来禁止抓取,减轻网站压力。
具体方法如下:
在网站根目录robots.txt加入下面代码。
User-agent: YisouSpider
Disallow: /
限定YisouSpider访问权限的robots协议写法(已经尝试,无用)
robots.txt 必须放在网站根目录下,且文件名要小写。
具体写法:
1) 完全禁止 YisouSpider 抓取:
User-agent: YisouSpider
Disallow: /
2) 禁止 YisouSpider 抓取指定目录
User-agent: YisouSpider
Disallow: /update
Disallow: /history
禁止抓取 update、history 目录下网页
Nginx屏蔽爬虫YisouSpider访问站点方法(没有尝试过,我是apache的)
进入到 nginx 安装目录下的 conf 目录,将如下代码保存为 agent_deny.conf
#禁止 Scrapy 等工具的抓取if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {    return 403;}#禁止指定 UA 及 UA 为空的访问if ($http_user_agent ~ "YisouSpider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) {    return 403;}#禁止非 GET|HEAD|POST 方式的抓取if ($request_method !~ ^(GET|HEAD|POST)$) {    return 403;}
然后,在网站相关配置中的
location / {try_files $uri $uri/ /index.php?$args;
下方插入如下代码:
include agent_deny.conf;
保存后,执行如下命令,平滑重启 nginx 即可:
/usr/local/nginx/sbin/nginx -s reload
猜你需要

豫ICP备2021026617号-1  豫公网安备:41172602000185   Copyright © 2021-2028 www.78moban.com/ All Rights Reserved

本站作品均来自互联网,转载目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。如有侵犯您的版权,请联系 1565229909#qq.com(把#改成@),我们将立即处理。