火车头采集器的标签纯正则替换功能如何使替换?
内容纲要
我们可以通过标签纯正则替换功能,从采集的数据里面提取我们想要的内容,这个功能需要有一定的正则表达式功底,这里重点说明采集器里面如何使用正则,具体的正则是什么意思,可以查资
料研究,这个不是我们教程的重点。
这个功能就是用正则表达式分开来表达我们需要的部分和不需要的部分,然后把需要的那那部分拿出来,不要的那部分就去掉。用下面的一个例子来简单说明下如何在采集器里面使用:
在标签编辑的界面,数据处理那里点击添加,然后选择纯正则替换如下图:
界面如下:
原正则表达式:用正则把需要的部分和不需要的部分分开表示出来,不同部分用括号区分开来
替换后表达式:把需要的那部分放到这里,也可以随意写些别的组合在这里,用采集器自带的表示方式 $1 $2 $数字表示
比如上图我们要从标题里面使用正则把“清纯女生”四个字给提取出来。
使用正则把标题给表示出来如下图:
原理是:用最简单的正则,前面3个汉字做为一组,中间4个汉字做为一组,剩下的是一组。每一组用括号()区分,我们要的是第二组,那么替换后表达式就直接写$2 ,如果要第一组就是$1
按照顺序以此类推。当然正则表达式可以有很多种,小芳也是正则白痴,只能用这种简单的方式来做,高手可以写更好的表达式,原理都是一样的。
采集器里面使用正则的规律就是上面说的那样,先用正则分开表示,用括号区分开来,然后用$1 $2 $数字按照前后顺序依次对应表示结果。
看下测试结果:
测试结果是对的。