使用多页同时采集多个页面
何为多页?本来我们是从网址采集那块采集到网址,再对这个网址(也叫默认页)进行采集。但是有时有许多信息他并不在一个页面上,而是和这个默认页有一定的关系,要不他网址在默认页里,要不他网址和默认页网址有联系。我们就这个问题来说一下具体的解决办法。
这里也有两种途径获得第三个网址,我们先讲从默认页网址替换得到新网址。我们以http://data.movie.xunlei.com/movie/39843 这个页面为例,比如我们要获得全部的”剧情简介“,就得进入一下页,刚好这两页有关系,”剧情简介“页面的地址是 http://movie.xunlei.com/movie/39843/introduction,只是多了一个 introduction ,这里可以使用普通替换,也可以使用正则。我们看一下。
这样就可以获得所需要的了。当然这里组合也可以有多个$的,比如$1,$2....规则下载。
下边我们说一下用默认页源代码中获得网址的方法来处理上边的网址,
这样就可以获得和上边一样的效果了。规则下载。