设为首页  
联系我们  
加入收藏  
网页制作 冲浪宝典 图形图像 操作系统 软件教学 编程开发 认证考试 安全技术 站长专区 文学驿站 娱乐天地 游戏天地 办公软件
文章搜索
您的位置: 首页 >> 文章首页 >> 网页制作 >> 心得技巧 >> 搜索引擎技术核心揭密
精品推荐
心得技巧点击TOP10
·初学者入门:如何学习网页制作?
·网页自动转向代码
·Google Maps API 简易使用文件
·关于网页代码加密解密保护
·实现浏览器全屏窗口的几种方法
·用XML+JSP实现网页内容动态显示的方案
·网页屏蔽(左右键,代码等)的非JS方法
·javascript控制cookies及在跳出本页给出提示,是否放弃操作!
·网页设计之css+div PK table+css
·DIV CSS打造背景图片超级翻转网页导航菜单
网页制作点击TOP10
·菜鸟架设动网论坛全教程
·网页模板的使用方法 (教程)
·网页对联广告代码效果大全
·初学者入门:如何学习网页制作?
·用JavaScript实现文件图片滚动效果
·常用CSS大全
·网页自动转向代码
·图片循环滚动完美解决
·JS表格排序新法
·DIV CSS网页布局实例解析:实现表格形式
精选专题

搜索引擎技术核心揭密

作者: 来源:http://www.xgdown.com/ 时间:2006-9-18 23:13:09

搜索引擎技术核心揭密(2) echo '<input type="submit" value="查询">'; //构造一个提交查询按钮
echo '</form>';

if (isset( keywords)) //提交后PHP会生成变量 kwywords,即要求下面的程序在提交后运行
{
urlencode( keywords); //对用户输入内容进行URL编码
result=file("http://www.google.com/search?q=". keywords."&btnG=Google%CB%D1%CB%F7&hl=zh-CN&lr=");
//对查询语句进行变量替换,将查询结果保存在数组变量 result中
result_string=join(" ", result); //将数组$result合并成字符串,各数组元素之间用空格粘和
... //进一步处理
}
?>

  上面的这段程序已经能按用户输入内容进行查询,并将返回的结果合成一个字符串变量$result_string。请注意要使用urlencode()函数将用户输入内容进行URL编码,才可以正常地对输入的汉字、空格以及其他特殊字符进行查询,这样做也是尽可能逼真地模拟Google的查询命令,保证搜索结果的正确性。

对Google的分析

  为了便于理解,现在假设我们所真正需要的东西是:搜索结果的标题。网址和简介等,这是一个简洁而典型的需求。这样,我们所要做的便是:去除Google搜索结果的台头和脚注,包括一个Google的标志、再次搜索的输入框和搜索结果说明等,并且在剩余的搜索结果各项条目中剥离原来的HTML格式标记,替换成我们想要的格式。

  要做到这一点,我们必须仔细地分析Google搜索结果的HTML源码,找到其中的规律。不难发现,在Google的搜索结果的正文总是包含在源码的第一个<p>标记和倒数第二个<p>标记之间,并且倒数第二个<p>标记后紧跟table字符,而且这个组合“<p><table”在源码中也仅有一次,利用这个特点,我们可以这样去除Google的台头和脚注。

  以下所有程序均依次接续在上文程序的“进一步处理”处。

  result_string = strstr( result_string, "<p>"); //取 result_string从第一个<p>开始后的字符串,以去除Google台头
position= strpos( result_string,"<p>table符号的位置
result_string= substr( result_string,0, position);//截取第一个<p>table符号之前的字符串,以去除脚注

应用与实现

  OK,现在我们已经得到有用的HTML源码主干了,剩下的问题是如何自主地显示这些内容。我们再分析一下这些搜索结果条目,发现每个条目之间也是很有规律的用
分隔,也就是各成一个段落,按这个特点我们用eXPlode()函数把每个条目切开:

  语法:explode(string separator, string string);

  返回一个数组,按separator切开后的各个小字串被保存在数组中。

  于是:
result_array=explode("<p>", result_string); //用字串"<p>"把结果切开

  我们就得到一个数组 result_array,其中每个元素都是一个搜索结果条目。我们所要做的仅仅是研究每个条目及其HTML显示格式代码,然后按要求替换就行了。下面用循环来处理 result_array中的每个条目。
for( i=0; i {
... //处理每个条目
}

  对于每个条目,我们也很容易找到一些特点:每个条目都由标题、摘要、简介、类别、网址等组成,每个部分都换行,即包含<br>标记,于是再次分割:(以下处理程序放在上文的循环中)

共3页 9 7 [1] [2] [38 :>

搜索引擎技术核心揭密 相关文章:
搜索引擎技术核心揭密 相关软件:
特别声明:本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员,我们尽快予以更正。
转载请注明来源:http://www.xgdown.com