火车头采集隐藏的数据怎么采?

内容纲要

我们使用火车头采集的时候,其实很大一部分时间都是在分析网站的情况,分析这个站点能不能采集,熟练的朋友会直接先看数据情况,只要数据情况分析清楚了,思路理顺了,采集规则写起来就不麻烦了,我们在采集网页时,有时会发现网页源代码中没有我们想要的数据,那是怎么回事呢?这种情况大部分是数据被隐藏或者加密起来了。在采集这种网页时,我们需要注意以下几点!

1、抓包分析数据

抓包可以使用fiddler抓包或者使用浏览器抓包,都可以,只要自己熟练就可以了,抓包多了,其实浏览器抓包更方便,使用fiddler抓包,还需要对fiddler进行设置,尤其是针对https站点,使用fiddler抓包也有他的好处,分析数据时可以更直观一些。

2、列表页post 内容页post

很多网页没有数据,有可能是post提交的请求的,列表页post请求好处理,火车头可以应付,但是内容页post请求火车头只能使用插件进行处理。

关于列表页post请求的问题,淘小白在B站给大家录制了一期视频,大家可以根据视频更加直观的进行学习。

B站教程点击直达:https://www.bilibili.com/video/BV1yU4y1Z7hx?share_source=copy_web

3、数据转码

数据转码也是比较常见的,其实数据就在源代码中,但是,你不知道他的编码情况,所以到让人误以为是数据隐藏了,其实数据就在源代码中,可以举个简单的例子,西瓜视频的视频文件路径就在源代码中,你可以去找随便找一个视频去看下它的源代码,看能够找出来不。

数据转码的形式很多,能不能识别,和自己的经验还有基础知识储备有关。

4、高级混淆

高级的混淆很难搞,需要具备非常多的计算机知识,可以给大家举个例子,企知道的政策信息是js混淆的,这种混淆,需要使用插件按照混淆方法执行,才能够看到符合条件的json数据,直接爬是不行的。

有兴趣的朋友可以去简单了解一下。

5、鉴权反爬

对于简单的数据隐藏可以通过抓包解决,但是如果需要鉴权才能够看到的数据,抓包也是没有用的,比如常见的小说类采集,很多都是需要会员vip的cookie,还有一种鉴权就是列表的鉴权,对方服务器会根据一些算法生成具体的验证信息,只有验证通过才可以进行列表页的爬取,否则会返回错误页面,这种也是比较难搞的。

来源: 火车头采集隐藏的数据怎么采?