设为首页  
联系我们  
加入收藏  
网页制作 冲浪宝典 图形图像 操作系统 软件教学 编程开发 认证考试 安全技术 站长专区 文学驿站 娱乐天地 游戏天地 办公软件
文章搜索
您的位置: 首页 >> 文章首页 >> 编程开发 >> 其他开发语言 >> cmsez挂接的新闻抓取模块
精品推荐
其他开发语言点击TOP10
·数字小键盘指法练习
·用C语言编通讯录程序(初学者级别的)
·Modem 常用AT指令集
·单片机模拟I2C总线及24C02(I2C EEPROM)读写实例(源代码)
·C++经典电子书下载
·Thinking in C++ 简体中文第二版
·debug和release的区别
·error LNK2001: unresolved external symbol __ftol2 错误解决
·C库函数手册
·一个简单的C语言编译器
编程开发点击TOP10
·数字小键盘指法练习
·ASP.NET 程序中常用的三十三种代码
·用C语言编通讯录程序(初学者级别的)
·我写的Java学生成绩管理系统源代码
·CHK文件恢复工具
·Modem 常用AT指令集
·java笔试题
·异常java.sql.SQLException: Io exception:The Network Adapter could not establish connection
·单片机模拟I2C总线及24C02(I2C EEPROM)读写实例(源代码)
·C++经典电子书下载
精选专题

cmsez挂接的新闻抓取模块

作者: 来源:网络文章 时间:2005-12-17 0:40:14

cmsez挂接的新闻抓取模块(1)                                                 cmsez挂接的新闻抓取模块

前2天发了篇关于抓取的文章,而且看到大家对抓取的功能比较赶兴趣,画了点时间把抓取功能做到了cmsez 1.01中去了。
给大家看一下demo
http://www.cmsez.com/demo/admin.PHP
用户名:a1,a2,a3,admin
密码:admin

(测试版本,屏蔽了参数设定,用户管理,输出html不能删除前2个抓取的代码,也不能更新前2个代码,主要是给大家看一个范例)
如果你登陆上去了,很快就退出来了,说明有人用同样的用户上去了,你被挤下来了。
抓取速度和你要抓的网站速度和主机速度有关系,主机在湛江,可能北方的哥们访问的慢一些。)

测试抓取的方式如下:
点击“增强模块->新闻抓取”
点击:添加,可以增加抓取的url,并自己设定抓取的代码

下面是代码说明,整个过程无需写任何的正则表达式
原文在此:[url=http://www.cmsez.com/demo/db/fetch_intro.txt]原文[/url]
新闻专区功能的简单说明(以千龙网为例)
注意:默认抓取100条,多了就忽略了,而且只抓最新的,遇上以前抓取过的内容,程序就自动停止了。如果想抓取同样的数据,请点击站点后面的清零链接。
1)添加抓取的站点,此处的站点是你需要抓取的内容的列表页面。
   站点名称:随便写,便于记忆就可以了
   新闻类别:也是随便写,便于记忆的
   选择分类:是cmsez的文章分类,抓取结果直接进入此分类的数据库的
   url:你要抓取的新闻的列表页面,比如说:http://china.qianlong.com/ 这是千龙的国内新闻列表页面
   内容url:这个要注意,因为有些新闻列表页面的新闻链接是相对地址,你需要在这里把链接补足,变成绝对地址。
       比如说刚刚那个列表页面中,新闻地址是
       <a href=http://china.qianlong.com/4352/2004/10/10/Zt45@2312627.htm target=_blank>新闻标题</a>
       本身就是一个绝对的url地址,这里内容url就留空就可以了。
       假如说上面的地址是
       <a href=/4352/2004/10/10/Zt45@2312627.htm target=_blank>新闻标题</a>
       那么你就需要在这里填写http://china.qianlong.com,这样才能是一个完整的绝对的url地址。

  运行:随便,这个现在没用,是以前给自动运行准备的。
  简介:随便写,方便记忆的
  列表识别:这里你不需要写正则表达式,首先你分析一下http://china.qianlong.com/这个页面,找出列表前后的标记

共2页 9 7 [1] [28 :>

cmsez挂接的新闻抓取模块 相关文章:
cmsez挂接的新闻抓取模块 相关软件:
特别声明:本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员,我们尽快予以更正。
转载请注明来源:http://www.xgdown.com