首页 > 文章资讯 > 范文大全 > 报告总结 > 【网站防采集】通过User Agent屏蔽Web爬虫防采集

【网站防采集】通过User Agent屏蔽Web爬虫防采集

时间：2022年03月19日

来源：网络

编辑：佚名

识别User Agent屏蔽一些Web爬虫防采集

自从做网站以来，大量自动抓取我们内容的爬虫一直是个问题，防范采集是个长期任务，可以通过两种方法防采集

1、Apache中设置屏蔽IP地址和URL网址来禁止采集，

2、还可以识别User Agent来辨别和屏蔽一些采集者

在Apache中设置的代码例子如下：

RewriteCond %{HTTP_USER_AGENT} ^(.*)(DTS\sAgent|Creative\sAutoUpdate|HTTrack|YisouSpider|SemrushBot)(.*)$

RewriteRule .* - [F,L]

屏蔽User Agent为空的代码：

RewriteCond %{HTTP_USER_AGENT} ^$

RewriteRule .* - [F]

屏蔽Referer和User Agent都为空的代码：

RewriteCond %{HTTP_REFERER} ^$ [NC]

RewriteCond %{HTTP_USER_AGENT} ^$ [NC]

RewriteRule .* - [F]

下面把一些可以屏蔽的常见采集软件或者机器爬虫的User Agent的特征关键词列一下供参考：

User-Agent

DTS Agent

HttpClient

Owlin

Kazehakase

Creative AutoUpdate

HTTrack

YisouSpider

baiduboxapp

Python-urllib

python-requests

SemrushBot

SearchmetricsBot

MegaIndex

Scrapy

EMail Exractor

007ac9

ltx71

　其它也可以考虑屏蔽的：

Mail.RU_Bot：http://go.mail.ru/help/robots

Feedly

ZumBot

Pcore-HTTP

Daum

your-server

Mobile/12A4345d

PhantomJS/2.1.1

archive.org_bot

AcooBrowser

Go-http-client

Jakarta Commons-HttpClient

Apache-HttpClient

BDCbot

ECCP

Nutch

cr4nk

MJ12bot

MOT-MPx220

Y!OASIS/TEST

libwww-perl

　　一般不要屏蔽的主流搜索引擎特征：

Google

Baidu

Yahoo

Slurp

yandex

YandexBot

MSN

　　一些常见浏览器或者通用代码也不要轻易屏蔽：

FireFox

Apple

Chrome

Microsoft

Android

Mail

Windows

Mozilla

Safar

Macintosh

新闻资讯更多

猜你需要