cmsez挂接的新闻抓取模块(2) 例如列表开始之前的代码是<table width="100%" border="0" cellspacing="0" cellpadding="0">,这个一定要够特别,否则不能保证抓取的正确性 技术的标记是 <!--竞价广告 Start--> 那么列表识别的代码就是 <table width="100%" border="0" cellspacing="0" cellpadding="0">**<!--竞价广告 Start--> 没错就是这么简单的。标题识别:具体文章的标题识别表达式,做法和列表识别类似,不过分析的是新闻页面。比如:<div class="Heading">**</div>日期识别代码:这里会写正则的就写,但是因为入库的时候日期字段是datatime,格式不正确是写不进去的。来源识别:<div class="Date">**</div>内容识别:就是正文前后的html代码加上**就可以了。比如:<td class="Content">**</td> </tr> </table>这里要注意一下,html代码中的回车符号和空格符合一定要和页面中的一致,因为加上这些东西,才是唯一性的代码。你可以用文本编辑器直接打开页面,复制过来就可以了。广告识别:这里识别出来的东西,将会被剔除的,代码范例:<table align = left><tr><td><SCRIPT**</SCRIPT></td></tr></table>填写完上面的代码之后,保存一下,然后返回了站点列表页面,点击你刚刚增加的站点后面的测试,看看返回的信息是不是正确的,正确的说明你作的很好,不正确说明你哪里写错了,重新编辑一下,再来测试,直到返回的是正确的。返回信息最上面是你抓取的url列表,下面是你抓取的标题和取出广告后的内容。