火车头采集常用正则过滤

时间：2023年10月01日

来源：网络

编辑：佚名

为了得到一个标准的内容，在采集上必须下足功夫才行!编写好采集规则。
我对标准内容的衡量：
每一个段落都是
没有多余的HTML标签和与主题无关的字符
提取数据方式
选择正则提取，组合结果填 [参数1]
有些内容开始和结尾并没有p标签，换行是用br标签来完成，所以我们要创造p标签
数据处理
第一步：清除与正文无关的内容，如文中的广告，注释等
正则 <header>[\s\S]*?</header>|<!–.*?–>| |规则4|规则5 替换为空
如果发布到一些免费平台，有的HTML特殊字符并不会被转化，只需在末尾加入'|&.*?;'过滤掉最后特殊HTML字符即可。
第二步：只保留图片以及常用的块级元素
正则 (?i)<(?!/?h|/?p|/?div|br|img).*?> 替换为空
只保留标题标签 h 分段标签 p、div、br 以及图像标签 img ;前面的(?i)表示不区分大小写
第三步：去掉除了img标签外的所有标签的选择器或样式，并把标签修改为p
正则 <(?!img)(/?)\w+.*?> 替换为 <$1p>
第四步：把乱七八糟的图像样式，改成标准图像代码
正则 <img.*?src="(.+?)".*?> 替换为 <img src="$1">
第五步：规范段落标签开始结束
正则 </?p>替换为
慧聪网段落只有开始没有结束
某些站个别文章,结束后没有开始就直接是下个段落的内容
第六步：把或前后的空格替换为空
正则 \s*(<\/?p>)\s* 替换为 $1
第七步：把连续2个以上的或替换为1个
正则 (){2,}|(){2,} 替换为 $1$2
第八步：把所有的空段落替换为空
内容 替换为空
第九步：由于第五步的关系，文章开头可能是结尾可能是需要清理他们
正则 ^|$ 替换为空
过滤英文正则 [a-zA-Z]
正则过滤两位以上的数字(\d{2,100})

新闻资讯更多

猜你需要