首页 > 文章资讯 > 站长教程 > 建站知识 > 屏蔽神马搜索蜘蛛YisouSpider减轻网站压力的方法

屏蔽神马搜索蜘蛛YisouSpider减轻网站压力的方法

时间：2023年05月26日

来源：网络

编辑：佚名

YisouSpider看名字应该是一搜这个搜索引擎的蜘蛛，一搜这个名字现在已经很难见到的，一搜最早是由雅虎中国于2004年创建的，在阿里巴巴收购雅虎中国后归到了神马搜索旗下，所以神马搜索的蜘蛛名字就成了YisouSpider，目前神马搜索只有移动端，PC端暂时没有提供服务，所以对于移动端有需要的用户可以保留这个蜘蛛，但是以PC端流量为主力的网站可以屏蔽这个YisouSpider蜘蛛，优化网站压力。
为什么要屏蔽神马搜索YisouSpider蜘蛛，因为这个蜘蛛会不定时的在白天或晚上都大量抓取网站数控，而且蜘蛛都是一个ip组形式来抓取，导致网站负载增大，甚至崩溃。在网站日志分析中，通过 IP 段加上完整的 User Agent，这个蜘蛛应该是服务器集群的一组 IP 池，一种为移动端的 User Agent，一种则为 PC 端的 User Agent，都是神马搜索的蜘蛛。这个蜘蛛爬行频率和次数超过几乎所有其他蜘蛛。不过还好YisouSpider遵守robots.txt协议，所以可以通过这个协议来禁止抓取，减轻网站压力。
具体方法如下：
在网站根目录robots.txt加入下面代码。
User-agent: YisouSpider
Disallow: /
限定YisouSpider访问权限的robots协议写法(已经尝试，无用)
robots.txt 必须放在网站根目录下，且文件名要小写。
具体写法：
1) 完全禁止 YisouSpider 抓取：
User-agent: YisouSpider
Disallow: /
2) 禁止 YisouSpider 抓取指定目录
User-agent: YisouSpider
Disallow: /update
Disallow: /history
禁止抓取 update、history 目录下网页
Nginx屏蔽爬虫YisouSpider访问站点方法（没有尝试过，我是apache的）
进入到 nginx 安装目录下的 conf 目录，将如下代码保存为 agent_deny.conf
#禁止 Scrapy 等工具的抓取if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { return 403;}#禁止指定 UA 及 UA 为空的访问if ($http_user_agent ~ "YisouSpider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) { return 403;}#禁止非 GET|HEAD|POST 方式的抓取if ($request_method !~ ^(GET|HEAD|POST)$) { return 403;}
然后，在网站相关配置中的
location / {try_files $uri $uri/ /index.php?$args;
下方插入如下代码：
include agent_deny.conf;
保存后，执行如下命令，平滑重启 nginx 即可：
/usr/local/nginx/sbin/nginx -s reload

新闻资讯更多

猜你需要