设为首页  
联系我们  
加入收藏  
网页制作 冲浪宝典 图形图像 操作系统 软件教学 编程开发 认证考试 安全技术 站长专区 文学驿站 娱乐天地 游戏天地 办公软件
文章搜索
您的位置: 首页 >> 文章首页 >> 编程开发 >> 其他开发语言 >> cmsez挂接的新闻抓取模块
精品推荐
其他开发语言点击TOP10
·数字小键盘指法练习
·用C语言编通讯录程序(初学者级别的)
·Modem 常用AT指令集
·单片机模拟I2C总线及24C02(I2C EEPROM)读写实例(源代码)
·C++经典电子书下载
·Thinking in C++ 简体中文第二版
·debug和release的区别
·error LNK2001: unresolved external symbol __ftol2 错误解决
·C库函数手册
·一个简单的C语言编译器
编程开发点击TOP10
·数字小键盘指法练习
·ASP.NET 程序中常用的三十三种代码
·用C语言编通讯录程序(初学者级别的)
·我写的Java学生成绩管理系统源代码
·CHK文件恢复工具
·Modem 常用AT指令集
·java笔试题
·异常java.sql.SQLException: Io exception:The Network Adapter could not establish connection
·单片机模拟I2C总线及24C02(I2C EEPROM)读写实例(源代码)
·C++经典电子书下载
精选专题

cmsez挂接的新闻抓取模块

作者: 来源:网络文章 时间:2005-12-17 0:40:14

cmsez挂接的新闻抓取模块(2)   例如列表开始之前的代码是<table width="100%" border="0" cellspacing="0" cellpadding="0">,这个一定要够特别,否则不能保证抓取的正确性
  技术的标记是 <!--竞价广告 Start-->
  那么列表识别的代码就是 <table width="100%" border="0" cellspacing="0" cellpadding="0">**<!--竞价广告 Start-->
  没错就是这么简单的。

标题识别:具体文章的标题识别表达式,做法和列表识别类似,不过分析的是新闻页面。
比如:<div class="Heading">**</div>

日期识别代码:这里会写正则的就写,但是因为入库的时候日期字段是datatime,格式不正确是写不进去的。
来源识别:<div class="Date">**</div>
内容识别:就是正文前后的html代码加上**就可以了。比如:<td class="Content">**</td>
          </tr>
        </table>
这里要注意一下,html代码中的回车符号和空格符合一定要和页面中的一致,因为加上这些东西,才是唯一性的代码。你可以用文本编辑器直接打开页面,复制过来就可以了。
广告识别:这里识别出来的东西,将会被剔除的,代码范例:<table align = left><tr><td><SCRIPT**</SCRIPT></td></tr></table>

填写完上面的代码之后,保存一下,然后返回了站点列表页面,点击你刚刚增加的站点后面的测试,看看返回的信息是不是正确的,正确的说明你作的很好,不正确说明你哪里写错了,重新编辑一下,再来测试,直到返回的是正确的。
返回信息最上面是你抓取的url列表,下面是你抓取的标题和取出广告后的内容。

共2页 9 7 [1] [28 :>

cmsez挂接的新闻抓取模块 相关文章:
cmsez挂接的新闻抓取模块 相关软件:
特别声明:本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员,我们尽快予以更正。
转载请注明来源:http://www.xgdown.com