使用前后截取模式采集数据
前后模式获取的原理很简单,比如一个网页里的代码顺序是abcd这样子的,而b是你需要获取的,你就可以使用开始字符串a,结束字符串c或cd来获得b的内容。其中,a必须是b之前唯一的代码,c或cd在a后必须是唯一的。
我们以这个页面为例http://www.admin5.com/article/20080731/96671.shtml,采一下标题和内容等。先看源码。
这里我们获得标题,可以选开始"<title>"结束"</title>",然后过滤一下 “- 站长网”这字符,也可以开始“<title>"结束”- 站长网“来直接获得
标题。想获得关键字的话可以 开始 <meta name="keywords" content=" 结束 ">
下边讲一下怎么获得内容,我们先打开网页源代码,查找内容附近的代码。
我们可以看到,文章前边是<div id="arctext">这个代码,我们查找一下,这是唯一的,可以使用,然后找后边文章结束有个这个代码
<center></center>,这个也是唯一的。这样,我们以这两个代码为开头和结尾就可以获得内容了。
规则下载
在使用前后截取模式采集数据时要善于使用通配符(*)。需要注意的是i通配符的使用是在代码的中间,两边是不能使用的,那样一般是会出错的,如果可以是以这个开始 <til(*)> ,但不能这样,(*)title 或是 title(*) 。比如这个可以代替任何内容,有的采集时不容易获得最开始的标识,或者说是那样的代码很多,比如代码里 (*)<div id="arctext"> 很多很多,但是有的代码后的很少,这时我们可以考虑用通配符。比如上边的我们开始可以写成 来源:<a(*)<div id="arctext"> 或者 我要投稿</a>(*)<div id="arctext"> 或者 来源:(*)时间:(*)收藏</a>(*)我要投(*)<div id="arctext"> 等........注意前边的基本都是唯一的代码.
使用前后截取模式采集数据是最常用的方法,也是最简单的方法,使用好这个可以基本采集的都可以处理了。