设为首页  
联系我们  
加入收藏  
网页制作 冲浪宝典 图形图像 操作系统 软件教学 编程开发 认证考试 安全技术 站长专区 文学驿站 娱乐天地 游戏天地 办公软件
文章搜索
您的位置: 首页 >> 文章首页 >> 站长专区 >> 建站经验杂谈 >> 控制搜索引擎访问和索引你的网站
精品推荐
建站经验杂谈点击TOP10
·WIN+IIS+PHP配置过程
·网站建设问题汇总
·漫谈网站开发规范
·什么是世界排名?PR是什么?
·国内备案难,转移国外空间的基本常识
·优秀的社区软件Discuz!之NT版本教程
·个人网站为何被百度封站
·网站最差的15种用户体验
·详细讲解从六个方面将您的网站质量提升至最高
·如何快速的呈现我们的网页
站长专区点击TOP10
·XP配置IIS+ASP详解(新手本机调试ASP必读)
·IIS+PHP+MYSQL配置功略
·WIN+IIS+PHP配置过程
·流媒体服务器架设
·IIS下配置Php+Mysql+zend的图文教程(完整版)
·使用srvinstw和srvany让程序加入到系统服务的方法
·Windows server 2003 服务器安装常识
·基于Tomcat+Oracle的应用程序安装配置手册
·WinXP + Apache +PHP5 + MySQL + phpMyAdmin安装全功略
·装上IIS之后无法显示ASP网页的解决方法
精选专题

控制搜索引擎访问和索引你的网站

作者: 来源:http://www.xgdown.com/ 时间:2007-9-13 11:10:09

控制搜索引擎访问和索引你的网站(1) 原文:Googleblog.blogspot.com/2007/01/controlling-how-search-engines-Access.html" target=_blank>Controlling how search engines access and index your website
发表于: 2007 年 1 月 26 日 上午 11:36:00

我经常被问到 Google(谷歌)和搜索引擎是怎样运转的。一个核心问题是:谷歌是怎样知道一个网站的哪些部分是网站所有者想让它们显示在搜索结果中?网站内容发布者能够指定部分网站不被搜索吗?好消息是,网站内容发布者可以使用很多方法控制你们的网页在搜索结果中的显示。

文件 robots.txt 是这里的主角,该文件已经成为业界标准好多年了。它让一个网站所有者控制搜索引擎访问他们的网站。你可以用 robots.txt 不同层次地控制访问,比如让搜索引擎只访问整个网站,单个目录,特定类型的网页,或者某一网页。有效地使用 robots.txt 能让你更好地控制对你的网站 的搜索,但是如何达到这一目标不是很显而易见的。这是我们关于如何使用 robots.txt 来控制对你的网站的存取的一系列帖子的第一篇。

文件 robots.txt 有什么用?

互联网真的很大。你只是不相信它是怎样地无穷无尽地大。你也许认为维护网站耗费好多精力,但是那只是“网海一粟”。 (对 Douglas Adams 致以诚挚的道歉)

象谷歌这样的搜索引擎会读取所有信息并对这些信息索引,索引是为了让一个搜索引擎对一些用户查询显示与之相匹配的网页。

为了做到这一点谷歌的一些电脑不断抓取网站,他们有一个谷歌所知道的所有网站的名单,他们阅读每个网站的所有网页。所有这些机器被称为谣 Googlebot。一般来说,你是愿意让 Googlebot 访问你的网站,这样你的网页才可以被人们在谷歌搜到。

然而,对你的网站上的某几页,你可能不想让谷歌索引。举例来说,你可能有一个目录包含内部日志,或者你可能有些新闻文章只能在支付费用后才能访问。你可以通过创建一个文本文件名为 robots.txt 的文件并把它放置在根目录下来告诉谷歌爬虫不要去抓取他们。文件 robots.txt 包含了一个搜索引擎不能访问的页面的清单。创建一个 robots.txt 是直截了当的,它允许你用一套精密分层控制搜索引擎对你网站的访问。

精细控制

除了 robots.txt 文件让您为你的一大堆文件简洁明了给出指令外,你也可以利用 robots META 标签来精确控制对你的单个网页的访问。为了做到这一点,你只需要对你的 HTML 网页添加特定的 META 标签来控制怎样对单个网页索引。归而总之,robots.txt 和 META 标签让你更灵活地表达复杂的访问规定变得比较容易。

一个简单的例子

这里是一个简单的例子,它是一个 robots.txt 文件。

User-Agent: Googlebot
Disallow: /logs/

User -Agent 行指明下面部分的一套指令只是为 Googlebot。所有主要搜索引擎都阅读并听从你放在 robots.txt 的指令。只要你愿意,你可以为不同的搜索引擎指定不同的规则。Disallow 行告诉 Googlebot 不能进入你网站的档案日志子目录。你放在日志目录中的内容将不会显示在谷歌搜索 结果中。

禁止访问单个文件

如果你有一篇只有注册用户才能访问的文章,你一定想让它排除在谷歌的结果之外。为了做到这一点,你只需要在该文章对应的 HTML 文件中添加一个 META 标签。该文件的代码的最开始有点像:

<html>
<head>
<meta name="googlebot" content="noindex">

共2页 9 7 [1] [28 :>

控制搜索引擎访问和索引你的网站 相关文章:
控制搜索引擎访问和索引你的网站 相关软件:
特别声明:本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员,我们尽快予以更正。
转载请注明来源:http://www.xgdown.com