火车采集器教程

POST方式获得网址 

2009版本起,火车采集器加强了post采集网址的功能,这是一个非常好的消息,我们可以提交自定义的数据并获得想要的结果。比如我们使用搜索,查询一个关键字,返回一些结果。我们再采集返回的这些内容网址,再去采它。

post采集

我们以程序自带的51job的网址采集说明一下这个功能的使用.我们在获取相关职位时,是设定好搜索,然后再提交,就可以获得我们需要的内容了.现在,我们在提交时用抓包工具(抓取过程请参考 抓包工具Fiddler 的使用)抓取一下程序提交的数据,发现是向这个网页提交了数据.

post网址采集

这时,我们需要设置提交的网址为如图设置,采深度为1,然后在填写提交的数据.我们可以发现,第一次提交的数据是这样的.

第二页的最后一项是2,这样的话,我们就只需要在提交时更改最后一个参数就可以获得网址了.填写时指定页数的范围就可以了.

下边还要介绍一个功能,有朋友会用到的.看上图那个大图的右下角,有一个随机值的获取.这个功能是用来处理这样的页面,比如你post了一个参数给一个页面,获得一个网址列表页,然后您获得第二页时需将第一个列表页上的一些值传过去,这个随机值就是用来获得上一个页面的一些参数的.下边我们举个例子.看图,兴趣的朋友自己研究下.

post变态页

测试了几页,看结果是正确的.

网址post结果

规则下载