使用前后截取模式采集数据

　　前后模式获取的原理很简单，比如一个网页里的代码顺序是abcd这样子的，而b是你需要获取的，你就可以使用开始字符串a,结束字符串c或cd来获得b的内容。其中，a必须是b之前唯一的代码，c或cd在a后必须是唯一的。

　　我们以这个页面为例http://www.admin5.com/article/20080731/96671.shtml，采一下标题和内容等。先看源码。

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=gb2312" /> <title>怎么让自己站火起来 - 站长网</title> <meta name="keywords" content="推广,建站,运营,站长,网站,网站推广,赚钱"> <meta name="description" content="站长网:站长必上的网站　　做网站我认为最重要的就是两个字"人气",怎样让网民来一次就想来第二次、第三次，这是每个站长都必须要想的事情，我当时做论坛时刚开始没有人，后宣传一下来些人，但基本不发贴，再后来发了几个贴可很少见到回贴，呵呵，那段时间真有是有尽使不上，不知道"> <script src="/images/2008a/web.js" type="text/javascript"></script> <link href="/images/2008a/web.css" rel="stylesheet" type="text/css" /> <script src="/include/dedeajax2.js" language="javascript"></script> <script type="text/javascript"> function Digg(divId,aid){ var taget_obj = document.getElementById(divId+''+aid); var myajax = new DedeAjax(taget_obj,false,false,"","",""); myajax.SendGet2("/digg.php?action=digg&aid="+aid); DedeXHTTP = null; } function FontZoom(fsize){ var ctext = document.getElementById("arctext"); ctext.style.fontSize = fsize +"px"; } </script> </head> <body> <ul id="top"> <li class="first">[ 站长必上的网站 ]</li> <li class="none"><a href="/plus/rssmap.html" target="_blank">RSS订阅</a></li> <li><a href="/plus/sitemap.html" target="_blank">网站地图</a></li> <script language="JavaScript" src="/images/javascript/topnav.js"></script> </ul> <div class="header"> <div id="header" class="clearfix"> <div id="logo"> <a href="http://www.admin5.com/" target="_self"><img src="/images/2008a/logo_d.gif" /></a> </div> <div id="head-info"> <ul> <script language="JavaScript" src="/images/javascript/t6_all.js"></script> </ul> </div> <div id="banner"> <script language="JavaScript" src="/images/javascript/banner.js"></script> </div> </div> </div> <div id="menu"> <ul class="menu"> <li class="home"><a href="/">首页</a></li> <li><a href="/browse/177/index.shtml">站长新闻</a></li> <li><a href="/browse/20/index.shtml">访谈</a></li> <li><a href="/browse/19/index.shtml">经验心得</a></li> <li class='current'><a href='/browse/26/index.shtml'>推广策划</a></li> <li><a href="/browse/9/index.shtml">搜索&SEO</a></li> <li><a href="/browse/5/index.shtml">网赚</a></li> <li><a href="/browse/15/index.shtml">互联网</a></li> <li><a href="/browse/17/index.shtml">域名</a></li> <li><a href="/browse/186/index.shtml">技术</a></li> <li><a href="/browse/185/index.shtml">聚会交流</a></li> <li><a href="/browse/183/index.shtml">站长休闲</a></li> <li><a href="/special/index.php">专题</a></li> </ul> <ul class="link"> <li><a href="http://bbs.admin5.com/" target="_blank">交易论坛</a></li> </ul> </div> <div id="navi"> <ul> <script language="JavaScript" src="/images/javascript/subnav.js"></script> </ul> </div> <div id="m_b" class="c"> <b class="b4"></b><b class="b3"></b><b class="b2"></b><b class="b1"></b> </div> <div id="search"> <div class="keyword"> 热门关键词：　<a href='/plus/search.php?keyword=%D7%AC%C7%AE&searchtype=titlekeyword'>赚钱</a> 　<a href='/plus/search.php?keyword=seo&searchtype=titlekeyword'>seo</a> 　<a href='/plus/search.php?keyword=%C1%F7%C1%BF&searchtype=titlekeyword'>流量</a> 　<a href='/plus/search.php?keyword=%D3%F2%C3%FB&searchtype=titlekeyword'>域名</a> 　<a href='/plus/search.php?keyword=%CD%F8%D5%BE&searchtype=titlekeyword'>网站</a> 　<a href='/plus/search.php?keyword=%D5%BE%B3%A4&searchtype=titlekeyword'>站长</a> 　<a href='/plus/search.php?keyword=%C1%AA%C3%CB&searchtype=titlekeyword'>联盟</a> 　<a href='/plus/search.php?keyword=%CD%C6%B9%E3&searchtype=titlekeyword'>推广</a> 　<a href='/plus/search.php?keyword=%B3%F6%CA%DB&searchtype=titlekeyword'>出售</a> 　<a href='/plus/search.php?keyword=%B9%E3%B8%E6&searchtype=titlekeyword'>广告</a> </div> <div class="search"> <form action="/plus/search.php" name="formsearch" target="_blank"> <input type="hidden" name="kwtype" value="1" /> <input name="searchtype" value="title" checked="checked" type="radio"><label for="header_article">标题</label> <input name="searchtype" value="titlekeyword" type="radio"><label for="header_photo">智能</label> <input class="textbox" size="30" name="keyword" id="keyword" type="text"> <input src="/images/2008a/btn_search.gif" value="搜索" alt="搜索" type="image"> </form>  </div> </div> <div id="main-info" style="background-image:none;"> <ul class="clearfix"> <script language="JavaScript" src="/images/javascript/innert.js"></script> </ul> </div> <div id="content" class="clearfix"> <div class="news-list"> <div class="article"> <h1>怎么让自己站火起来</h1> <div class="desc"> 来源:<a href="http://www.zhengzhourc.com" target="_blank">郑州人才网</a> 时间:2008-07-31 14:03 字体:[<a href='javascript:FontZoom(16)'>大</a> <a href='javascript:FontZoom(14)'>中</a> <a href='javascript:FontZoom(12)'>小</a>] <a href="/plus/stow.php?arcID=96671" target="_blank">收藏</a> <a href="/member/article_add.php" target="_blank">我要投稿</a> </div> <div class="text"> <div id="arctext"> <p>　　做网站我认为最重要的就是两个字"人气",怎样让网民来一次就想来第二次、第三次，这是每个站长都必须要想的事情，我当时做论坛时刚开始没有人，后宣传一下来些人，但基本不发贴，再后来发了几个贴可很少见到回贴，呵呵，那段时间真有是有尽使不上，不知道从和下手，知道后来想到了破窗效应：</p> <p>　　“破窗效应”的理论来源于美国心理学家詹巴斗进行的一次实验。在这项实验中：一位学者找来两量一模一样的汽车，分别把它们放置在中等阶级社区和杂乱街区，他把停在中等阶级社区的那辆车的车牌摘掉，顶棚打了个洞。结果这量车一天之内就被人偷走了。而放在杂乱街区的那辆车摆了一星期却仍旧完好无损。而把这辆车也打一个洞，结果仅过几小时这辆车也被偷走了。以这个实验为基础得出“破窗理论”。</p> <p>　　一位企业老总经过仔细观察发现的现象：当一栋房子的窗户玻璃出现第一块破损后，如不及时修补，很快，其他玻璃会接二连三的遭到破坏，如果及时修补，其他玻璃极少在被破坏。</p> <p>　　网站上如果有几个垃圾贴，那么不出很长时间垃圾贴会越来越多，有时候在论坛的回帖和文章的评论上也很明显，如果第一个评论的人骂作者，第二个人看到了很可能也会骂，那么第三个人肯定也是骂的，这就是破窗效应，但我们反过来想，如果头几个人都说作者的好，那么就很少会出现骂人的话了。</p> <p>　　所以我当时就用好多马甲回复各个主题，加上朋友的帮忙，该社区很快有了人气，虽然访问量不是特别大，但基本上都是我们的忠实用户。</p> <p>　　现在虽然我重点做郑州人才网而不做社区了，但这其中的道理是一样的，很多站长在推广增加流量的同时忽略了人气，其实人气和流量是同等重要的，怎么做出个有较高人气的网站，就要靠各位站长在解决用户需求的同时多多利用破窗理论喽!</p> <center></center> </div> <div class="author"><span class="right navy"></span><a href='/member/index.php?uid=zhengzhourc' target='_blank'>作者 <font color='red'>郑州人才网</font> 的个人空间</a> <font color="#666666" style="font-size:12px;">本文仅代表作者观点,与站长网立场无关.</font></div> <div class="diggdiv"> <div class='diggbox' id="digg96671"> <div class='diggnum'>1</div> <div class="digglink"><a href="javascript:Digg('digg',96671);">顶一下</a></div> </div> <div class="prevnext">上一篇：<a href='/article/20080731/96663.shtml'>我的网站推广方案请大家给点意见</a> <br />下一篇：<a href='/article/20080731/96673.shtml'>专业网站的设计要注意什么</a> </div> </div> <div class="clear"></div> 编辑热线:0516-85995555 Email:0051@vip.163.com <a href="/member/index_do.php?fmdo=user&dopost=regnew" target="_blank"><font color="red">20秒注册会员结交站长朋友分享你的精彩</font></a> </div> <div class="list-b text-info"> <div class="space"></div><ul class="list float arts"><script language="JavaScript" src="/images/javascript/artbot.js"></script></ul><div class="space"></div> </div> <div id="feedback"> <span class="feednums">站长评论(3)</span> <div class="intel"></div> <div id="gbook"><img src="/images/2008a/ajax_small.gif" align="absmiddle" /> 评论加载中…</div> </div> </div> <div class="thead">相关新闻</div> <div class="tbody normal"> <div class="itembox" style='background:#fff;'> <div class="box1"><span class="date">2008-08-01 15:04:15</span><a href="/article/20080801/96899.shtml" target="_blank">谈谈自己做联盟推广的经验</a></div> </div><div class="itembox" > <div class="box1"><span class="date">2008-08-01 13:12:57</span><a href="/article/20080801/96882.shtml" target="_blank">王通的连环赚钱计划与后果</a></div> </div><div class="itembox" style='background:#fff;'> <div class="box1"><span class="date">2008-08-01 11:50:33</span><a href="/article/20080801/96867.shtml" target="_blank">一般网站策划的几个步骤</a></div> </div><div class="itembox" > <div class="box1"><span class="date">2008-08-01 11:44:57</span><a href="/article/20080801/96864.shtml" target="_blank">您还记得在其他博客上的留言吗</a></div> </div><div class="itembox" style='background:#fff;'> <div class="box1"><span class="date">2008-08-01 08:46:51</span><a href="/article/20080801/96809.shtml" target="_blank">简述网站推广方法 </a></div> </div><div class="itembox" > <div class="box1"><span class="date">2008-08-01 08:05:38</span><a href="/article/20080801/96802.shtml" target="_blank">垃圾站有流量就能被百度收录排名就能涨</a></div> </div> <div class="clear"></div> </div> </div>  <div class="rank-list"> <script language="JavaScript" src="/images/javascript/rt_img.js"></script> <div class="title-b"><h3>热门新闻</h3></div> <div class="list-b"> <ul class="list eiss date"> <li>16日 <a href="/article/20080716/94226.shtml" target="_blank">手把手教你成为推广狂人</a></li><li>04日 <a href="/article/20080704/92133.shtml" target="_blank">2008年7月底PR即将更新马上提高您的PR值</a></li><li>31日 <a href="/article/20080731/96605.shtml" target="_blank">对弹窗的一点看法跟新手朋友共勉</a></li><li>11日 <a href="/article/20080711/93485.shtml" target="_blank">百度的搜索技术并不强大的几个表现</a></li><li>23日 <a href="/article/20080723/95344.shtml" target="_blank">友情链接交换攻略：哪些方面值得注意</a></li><li>15日 <a href="/article/20080715/94049.shtml" target="_blank">利用图片推广网站的又一猛招</a></li><li>24日 <a href="/article/20080724/95523.shtml" target="_blank">网站推广方法大全（2008迎奥运版）</a></li><li>15日 <a href="/article/20080715/93999.shtml" target="_blank">Google是如何判断网站的原创性的</a></li><li>28日 <a href="/article/20080728/96080.shtml" target="_blank">日大于5000IP的站长该做些什么</a></li><li>04日 <a href="/article/20080704/92044.shtml" target="_blank">一举多得的宣传方案（巧用威客任务）</a></li> </ul> </div> <div class="title-b"><h3>推荐新闻</h3></div> <div class="list-b"> <ul class="list eiss date"> <li>30日 <a href="/article/20080730/96567.shtml" target="_blank">刘韧八年前写的DoNews《关于我们》还多少要坚持?</a></li><li>11日 <a href="/article/20080711/93485.shtml" target="_blank">百度的搜索技术并不强大的几个表现</a></li><li>09日 <a href="/article/20080709/92983.shtml" target="_blank">地方行业站发展新思路招生加广告</a></li><li>07日 <a href="/article/20080707/92673.shtml" target="_blank">网络营销的三重境界:淫、营、嬴 </a></li> </ul> </div> <script language="JavaScript" src="/images/javascript/rb_img.js"></script> </div>  </div> <div id="footer"> <script language="JavaScript" src="/images/javascript/footer.js"></script> </div> <script type="text/javascript">admin5.init()</script> <script src="/plus/count.php?aid=96671&mid=" language="javascript"></script> <iframe width="0" height="0" style="visibility:hidden" src="/plus/feedback_if.php?arcID=96671" id="igbook" name="igbook"></iframe> </body> </html>

这里我们获得标题，可以选开始"<title>"结束"</title>"，然后过滤一下 “- 站长网”这字符，也可以开始“<title>"结束”- 站长网“来直接获得

标题。想获得关键字的话可以开始 <meta name="keywords" content=" 　结束　">

下边讲一下怎么获得内容，我们先打开网页源代码，查找内容附近的代码。

来源:<a href="http://www.zhengzhourc.com" target="_blank">郑州人才网</a> 时间:2008-07-31 14:03 字体:[<a href='javascript:FontZoom(16)'>大</a> <a href='javascript:FontZoom(14)'>中</a> <a href='javascript:FontZoom(12)'>小</a>] <a href="/plus/stow.php?arcID=96671" target="_blank">收藏</a> <a href="/member/article_add.php" target="_blank">我要投稿</a> </div> <div class="text"> <div id="arctext"> <p>　　做网站我认为最重要的就是两个字"人气",怎样让网民来一次就想来第二次、第三次，这是每个站长都必须要想的事情，我当时做论坛时刚开始没有人，后宣传一下来些人，但基本不发贴，再后来发了几个贴可很少见到回贴，呵呵，那段时间真有是有尽使不上，不知道从和下手，知道后来想到了破窗效应：</p> <p>　　“破窗效应”的理论来源于美国心理学家詹巴斗进行的一次实验。在这项实验中：一位学者找来两量一模一样的汽车，分别把它们放置在中等阶级社区和杂乱街区，他把停在中等阶级社区的那辆车的车牌摘掉，顶棚打了个洞。结果这量车一天之内就被人偷走了。而放在杂乱街区的那辆车摆了一星期却仍旧完好无损。而把这辆车也打一个洞，结果仅过几小时这辆车也被偷走了。以这个实验为基础得出“破窗理论”。</p> <p>　　一位企业老总经过仔细观察发现的现象：当一栋房子的窗户玻璃出现第一块破损后，如不及时修补，很快，其他玻璃会接二连三的遭到破坏，如果及时修补，其他玻璃极少在被破坏。</p> <p>　　网站上如果有几个垃圾贴，那么不出很长时间垃圾贴会越来越多，有时候在论坛的回帖和文章的评论上也很明显，如果第一个评论的人骂作者，第二个人看到了很可能也会骂，那么第三个人肯定也是骂的，这就是破窗效应，但我们反过来想，如果头几个人都说作者的好，那么就很少会出现骂人的话了。</p> <p>　　所以我当时就用好多马甲回复各个主题，加上朋友的帮忙，该社区很快有了人气，虽然访问量不是特别大，但基本上都是我们的忠实用户。</p> <p>　　现在虽然我重点做郑州人才网而不做社区了，但这其中的道理是一样的，很多站长在推广增加流量的同时忽略了人气，其实人气和流量是同等重要的，怎么做出个有较高人气的网站，就要靠各位站长在解决用户需求的同时多多利用破窗理论喽!</p> <center></center> </div> <div class="author"><span class="right navy"></span><a href='/member/index.php?uid=zhengzhourc' target='_blank'>作者 <font color='red'>郑州人才网</font> 的个人空间</a>

我们可以看到，文章前边是<div id="arctext">这个代码，我们查找一下，这是唯一的，可以使用，然后找后边文章结束有个这个代码

<center></center>，这个也是唯一的。这样，我们以这两个代码为开头和结尾就可以获得内容了。

规则下载

在使用前后截取模式采集数据时要善于使用通配符(*)。需要注意的是i通配符的使用是在代码的中间，两边是不能使用的，那样一般是会出错的，如果可以是以这个开始 <til(*)> ，但不能这样，(*)title 或是 title(*) 。比如这个可以代替任何内容，有的采集时不容易获得最开始的标识，或者说是那样的代码很多，比如代码里 (*)<div id="arctext"> 很多很多，但是有的代码后的很少，这时我们可以考虑用通配符。比如上边的我们开始可以写成　　　来源:<a(*)<div id="arctext">　　或者　我要投稿</a>(*)<div id="arctext">　或者　来源:(*)时间:(*)收藏</a>(*)我要投(*)<div id="arctext">　等........注意前边的基本都是唯一的代码.

使用前后截取模式采集数据是最常用的方法，也是最简单的方法，使用好这个可以基本采集的都可以处理了。