cmsez挂接的新闻抓取模块(1) cmsez挂接的新闻抓取模块前2天发了篇关于抓取的文章,而且看到大家对抓取的功能比较赶兴趣,画了点时间把抓取功能做到了cmsez 1.01中去了。给大家看一下demohttp://www.cmsez.com/demo/admin.PHP用户名:a1,a2,a3,admin密码:admin(测试版本,屏蔽了参数设定,用户管理,输出html不能删除前2个抓取的代码,也不能更新前2个代码,主要是给大家看一个范例)如果你登陆上去了,很快就退出来了,说明有人用同样的用户上去了,你被挤下来了。抓取速度和你要抓的网站速度和主机速度有关系,主机在湛江,可能北方的哥们访问的慢一些。)测试抓取的方式如下:点击“增强模块->新闻抓取”点击:添加,可以增加抓取的url,并自己设定抓取的代码下面是代码说明,整个过程无需写任何的正则表达式原文在此:[url=http://www.cmsez.com/demo/db/fetch_intro.txt]原文[/url]新闻专区功能的简单说明(以千龙网为例)注意:默认抓取100条,多了就忽略了,而且只抓最新的,遇上以前抓取过的内容,程序就自动停止了。如果想抓取同样的数据,请点击站点后面的清零链接。1)添加抓取的站点,此处的站点是你需要抓取的内容的列表页面。 站点名称:随便写,便于记忆就可以了 新闻类别:也是随便写,便于记忆的 选择分类:是cmsez的文章分类,抓取结果直接进入此分类的数据库的 url:你要抓取的新闻的列表页面,比如说:http://china.qianlong.com/ 这是千龙的国内新闻列表页面 内容url:这个要注意,因为有些新闻列表页面的新闻链接是相对地址,你需要在这里把链接补足,变成绝对地址。 比如说刚刚那个列表页面中,新闻地址是 <a href=http://china.qianlong.com/4352/2004/10/10/Zt45@2312627.htm target=_blank>新闻标题</a> 本身就是一个绝对的url地址,这里内容url就留空就可以了。 假如说上面的地址是 <a href=/4352/2004/10/10/Zt45@2312627.htm target=_blank>新闻标题</a> 那么你就需要在这里填写http://china.qianlong.com,这样才能是一个完整的绝对的url地址。 运行:随便,这个现在没用,是以前给自动运行准备的。 简介:随便写,方便记忆的 列表识别:这里你不需要写正则表达式,首先你分析一下http://china.qianlong.com/这个页面,找出列表前后的标记