如何用火车头采集当前页面url网址
时间:2023年10月01日
/来源:网络
/编辑:佚名
首先创建一个标签为本文网址,勾选后面的“从网址中采集”。
选择下面的“正则提取”,点击通配符“(?<content>?)”,这样在窗口中就显示为(?<content>[\s\S]*?) 我们再在它前加一个与字符串开始的地方匹配的符号^,又在它后面加一个与字符串结束的地方匹配的符号$,这样就变成了^(?<content>[\s\S]*?)$。
如图:
Content 代表内容
? 表示匹配0次或者1次
\s 匹配所有空白字符
\S 匹配所有非空白字符
* 修饰匹配次数为 0 次或任意次
选择下面的“正则提取”,点击通配符“(?<content>?)”,这样在窗口中就显示为(?<content>[\s\S]*?) 我们再在它前加一个与字符串开始的地方匹配的符号^,又在它后面加一个与字符串结束的地方匹配的符号$,这样就变成了^(?<content>[\s\S]*?)$。
如图:
Content 代表内容
? 表示匹配0次或者1次
\s 匹配所有空白字符
\S 匹配所有非空白字符
* 修饰匹配次数为 0 次或任意次
新闻资讯 更多
- 【建站知识】查询nginx日志状态码大于400的请求并打印整行04-03
- 【建站知识】Python中的logger和handler到底是个什么?04-03
- 【建站知识】python3拉勾网爬虫之(您操作太频繁,请稍后访问)04-03
- 【建站知识】xpath 获取meta里的keywords及description的方法04-03
- 【建站知识】python向上取整以50为界04-03
- 【建站知识】scrapy xpath遇见乱码解决04-03
- 【建站知识】scrapy爬取后中文乱码,解决word转为html 时cp1252编码问题04-03
- 【建站知识】scrapy采集—爬取中文乱码,gb2312转为utf-804-03