火车采集器教程

自动分析链接 

  网址采集里最常用的就是自动分析链接。程序可以分析出<a 标签这样的网址,不用我们手工去设置。我们以http://www.admin5.com/browse/9/index.shtml 为例,讲一下自动分析链接的使用。请选看一下前边网址对应的网页。

我们先测试下可以采到我们需要的网址不?我们选用刚才的网址来测试,先添加网址

点完成,在任务里就可以看到见网址了。

我们点开始测试网址,就可以看到有很多网址采集下来。但是有很多不是我们需要的,怎么办呢?我们可以采选定区域的网址,

我们仔细看代码,就可以发现在 <div class="list-y list-all">和<div class="clear"></div>之间是文章列表内容,而且这两个标记是唯一的,我们就以此为分页区域。

在没有任务设置的情况下采到的是89条,我们这里设置区域后获得30条,刚好是列表里的网址数,这就是我们需要的。规则下载

这只是一个列表页的,想把 搜索&SEO 这个栏目的所有文章采下来,怎么办呢? 我先分析一下所有列表页网址规律。

首页的网址是http://www.admin5.com/browse/9/index.shtml,第二页的网址是http://www.admin5.com/browse/9/list_2.shtml,第三页的网址是 http://www.admin5.com/browse/9/list_3.shtml,第100页的网址是

http://www.admin5.com/browse/9/list_100.shtml我们可以看出这些网址是有序递增的,同时我们发现首页还有另一个网址http://www.admin5.com/browse/9/list_1.shtml,我们用批量多页一次就可以加完。

这样就可以完全的采集所有的网址了。规则下载

上边这是一个用设置采集区域来采集网址的方法,还有一个包含和不包含采网址的选项,如果在选定区域内有其它的不同类的网址,如http://ww.xx.com/as.asp 这样的,你可以用文章内容页网址包含http://www.admin5.com/article/20 或是不包含asp这样的字符来过滤掉那些不需要的网址。