使用正则匹配模式采集数据
正则表达式很强大,利用它我们可以获得一定格式的数据,比如网址,E-mail地址,数字,字母等等.可喜的是,从3.2版开始,火车采集器就支持正则规则的编写了,这给喜欢用正则来实现不同需求的朋友带来福音。火车采集器里支持两种正则,一个纯正则,一个参数正则。我们下边分开讲一下。
1.纯正则:
先看一下图
在标签中用正则表达式采内容的格式是这样:
开始代码(?<content>正则表达式)结束代码
其中在开始代码和结束代码中如有需要转义的字符就要用\转义。
比如我们要获取火车论坛的版块,我们从首页获取,正则可以这样写
然后就可以获得我们需要的版块名称了。
2.参数正则
这个不算是正则,和网址采集那块的参数使用原理是一样的,可以对采到的内容进行组合。输入框两边都不得为空,后边的组合结果参数几是按匹配内容的顺序来写的,我们还是以http://bbs.locoy.com/为例,来获得栏目ID和栏目名称。
测试一下,是可以获得我们需要的结果了。^_^ 。
正则基本就这样,主要是写表达式的问题。如果您对这有兴趣,可以下载相关一些资料研究一下。