屏蔽神马搜索蜘蛛YisouSpider减轻网站压力的方法
时间:2023年05月26日
/来源:网络
/编辑:佚名
YisouSpider看名字应该是一搜这个搜索引擎的蜘蛛,一搜这个名字现在已经很难见到的,一搜最早是由雅虎中国于2004年创建的,在阿里巴巴收购雅虎中国后归到了神马搜索旗下,所以神马搜索的蜘蛛名字就成了YisouSpider,目前神马搜索只有移动端,PC端暂时没有提供服务,所以对于移动端有需要的用户可以保留这个蜘蛛,但是以PC端流量为主力的网站可以屏蔽这个YisouSpider蜘蛛,优化网站压力。
为什么要屏蔽神马搜索YisouSpider蜘蛛,因为这个蜘蛛会不定时的在白天或晚上都大量抓取网站数控,而且蜘蛛都是一个ip组形式来抓取,导致网站负载增大,甚至崩溃。在网站日志分析中,通过 IP 段加上完整的 User Agent,这个蜘蛛应该是服务器集群的一组 IP 池,一种为移动端的 User Agent,一种则为 PC 端的 User Agent,都是神马搜索的蜘蛛。这个蜘蛛爬行频率和次数超过几乎所有其他蜘蛛。不过还好YisouSpider遵守robots.txt协议,所以可以通过这个协议来禁止抓取,减轻网站压力。
具体方法如下:
在网站根目录robots.txt加入下面代码。
User-agent: YisouSpider
Disallow: /
限定YisouSpider访问权限的robots协议写法(已经尝试,无用)
robots.txt 必须放在网站根目录下,且文件名要小写。
具体写法:
1) 完全禁止 YisouSpider 抓取:
User-agent: YisouSpider
Disallow: /
2) 禁止 YisouSpider 抓取指定目录
User-agent: YisouSpider
Disallow: /update
Disallow: /history
禁止抓取 update、history 目录下网页
Nginx屏蔽爬虫YisouSpider访问站点方法(没有尝试过,我是apache的)
进入到 nginx 安装目录下的 conf 目录,将如下代码保存为 agent_deny.conf
#禁止 Scrapy 等工具的抓取if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { return 403;}#禁止指定 UA 及 UA 为空的访问if ($http_user_agent ~ "YisouSpider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) { return 403;}#禁止非 GET|HEAD|POST 方式的抓取if ($request_method !~ ^(GET|HEAD|POST)$) { return 403;}
然后,在网站相关配置中的
location / {try_files $uri $uri/ /index.php?$args;
下方插入如下代码:
include agent_deny.conf;
保存后,执行如下命令,平滑重启 nginx 即可:
/usr/local/nginx/sbin/nginx -s reload
为什么要屏蔽神马搜索YisouSpider蜘蛛,因为这个蜘蛛会不定时的在白天或晚上都大量抓取网站数控,而且蜘蛛都是一个ip组形式来抓取,导致网站负载增大,甚至崩溃。在网站日志分析中,通过 IP 段加上完整的 User Agent,这个蜘蛛应该是服务器集群的一组 IP 池,一种为移动端的 User Agent,一种则为 PC 端的 User Agent,都是神马搜索的蜘蛛。这个蜘蛛爬行频率和次数超过几乎所有其他蜘蛛。不过还好YisouSpider遵守robots.txt协议,所以可以通过这个协议来禁止抓取,减轻网站压力。
具体方法如下:
在网站根目录robots.txt加入下面代码。
User-agent: YisouSpider
Disallow: /
限定YisouSpider访问权限的robots协议写法(已经尝试,无用)
robots.txt 必须放在网站根目录下,且文件名要小写。
具体写法:
1) 完全禁止 YisouSpider 抓取:
User-agent: YisouSpider
Disallow: /
2) 禁止 YisouSpider 抓取指定目录
User-agent: YisouSpider
Disallow: /update
Disallow: /history
禁止抓取 update、history 目录下网页
Nginx屏蔽爬虫YisouSpider访问站点方法(没有尝试过,我是apache的)
进入到 nginx 安装目录下的 conf 目录,将如下代码保存为 agent_deny.conf
#禁止 Scrapy 等工具的抓取if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { return 403;}#禁止指定 UA 及 UA 为空的访问if ($http_user_agent ~ "YisouSpider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) { return 403;}#禁止非 GET|HEAD|POST 方式的抓取if ($request_method !~ ^(GET|HEAD|POST)$) { return 403;}
然后,在网站相关配置中的
location / {try_files $uri $uri/ /index.php?$args;
下方插入如下代码:
include agent_deny.conf;
保存后,执行如下命令,平滑重启 nginx 即可:
/usr/local/nginx/sbin/nginx -s reload
新闻资讯 更多
- 【建站知识】查询nginx日志状态码大于400的请求并打印整行04-03
- 【建站知识】Python中的logger和handler到底是个什么?04-03
- 【建站知识】python3拉勾网爬虫之(您操作太频繁,请稍后访问)04-03
- 【建站知识】xpath 获取meta里的keywords及description的方法04-03
- 【建站知识】python向上取整以50为界04-03
- 【建站知识】scrapy xpath遇见乱码解决04-03
- 【建站知识】scrapy爬取后中文乱码,解决word转为html 时cp1252编码问题04-03
- 【建站知识】scrapy采集—爬取中文乱码,gb2312转为utf-804-03