【网站防采集】通过User Agent屏蔽Web爬虫防采集

时间:2022年03月19日

/

来源:网络

/

编辑:佚名

识别User Agent屏蔽一些Web爬虫防采集

自从做网站以来,大量自动抓取我们内容的爬虫一直是个问题,防范采集是个长期任务,可以通过两种方法防采集

1、Apache中设置屏蔽IP地址和URL网址来禁止采集,

2、还可以识别User Agent来辨别和屏蔽一些采集者

在Apache中设置的代码例子如下:

RewriteCond %{HTTP_USER_AGENT} ^(.*)(DTS\sAgent|Creative\sAutoUpdate|HTTrack|YisouSpider|SemrushBot)(.*)$

RewriteRule .* - [F,L]

屏蔽User Agent为空的代码:

RewriteCond %{HTTP_USER_AGENT} ^$

RewriteRule .* - [F]

屏蔽Referer和User Agent都为空的代码:

RewriteCond %{HTTP_REFERER} ^$ [NC]

RewriteCond %{HTTP_USER_AGENT} ^$ [NC]

RewriteRule .* - [F] 

下面把一些可以屏蔽的常见采集软件或者机器爬虫的User Agent的特征关键词列一下供参考:

    User-Agent

    DTS Agent

    HttpClient

    Owlin

    Kazehakase

    Creative AutoUpdate

    HTTrack

    YisouSpider

    baiduboxapp

    Python-urllib

    python-requests

    SemrushBot

    SearchmetricsBot

    MegaIndex

    Scrapy

    EMail Exractor

    007ac9

    ltx71

 其它也可以考虑屏蔽的:

    Mail.RU_Bot:http://go.mail.ru/help/robots

    Feedly

    ZumBot

    Pcore-HTTP

    Daum

    your-server

    Mobile/12A4345d

    PhantomJS/2.1.1

    archive.org_bot

    AcooBrowser

    Go-http-client

    Jakarta Commons-HttpClient

    Apache-HttpClient

    BDCbot

    ECCP

    Nutch

    cr4nk

    MJ12bot

    MOT-MPx220

    Y!OASIS/TEST

    libwww-perl

  一般不要屏蔽的主流搜索引擎特征:

    Google

    Baidu

    Yahoo

    Slurp

    yandex

    YandexBot

    MSN

  一些常见浏览器或者通用代码也不要轻易屏蔽:

    FireFox

    Apple

    PC

    Chrome

    Microsoft

    Android

    Mail

    Windows

    Mozilla

    Safar

    Macintosh

猜你需要

豫ICP备2021026617号-1  豫公网安备:41172602000185   Copyright © 2021-2028 www.78moban.com/ All Rights Reserved

本站作品均来自互联网,转载目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。如有侵犯您的版权,请联系 1565229909#qq.com(把#改成@),我们将立即处理。