火车头采集器，如何在标签中获取当前文章链接URL地址

2022 年 8 月 18 日

内容纲要

偶然机会，遇上使用火车头采集器采集内容时候需要获取当前页面的URL地址，于是记录下操作：

火车头 v9：

1、在采集字段中添加链接字段

2、数据获取方式设置“从源码中获取数据”

3、数据来源设置：“从默认页》网页地址中”

4、提取方式：设置“正则提取”，正则表达式：

^(?<content>[\s\S]*?)$

火车头 v7：

以上来源：https://www.seoxiehui.cn/article-315151-1.html

如何用火车头采集当前页面url网址

首先创建一个标签为本文网址，勾选后面的“从网址中采集”。

选择下面的“正则提取”，点击通配符“(?<content>?)”，这样在窗口中就显示为(?<content>[sS]*?)

我们再在它前加一个与字符串开始的地方匹配的符号^，又在它后面加一个与字符串结束的地方匹配的符号$，这样就变成了^(?<content>[sS]*?)$。如图：

Content　　代表内容

?　　表示匹配0次或者1次

s　　匹配所有空白字符

S　　匹配所有非空白字符

*　　修饰匹配次数为 0 次或任意次

以上来源：http://t.zoukankan.com/ytkah-p-3480492.html

Post Views: 274