进入旧版 | 服务项目 | 成功案例 | 联系方式 | 过客留言 | 友情链接
   
设为首页
加入收藏
联系我们
网站首页 | 新闻资讯 | 操作系统 | 办公软件 | 网络软件 | 工具软件 | 媒体动画 | 网页制作 | 网站开发 | 程序开发 | 平面设计
Photoshop视频教程 | Word入门 | Flash入门 | JScript | VBScript | ASP | PHP | ADO | 网页特效 | 3DS MAX6.0命令 | 系统进程
您当前的位置:GOODSGY电脑学习网 -> 网页制作 -> 其它 -> 文章内容  
网站优化中应该知道的知识:详细robots.txt

我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。 www.goodsgy.com

一、 robots.txtwww.goodsgy.com

1、 什么是robots.txt? www.goodsgy.com

robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。www.goodsgy.com

当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。www.goodsgy.com

 robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。 网站 URL相应的 robots.txt的 URLwww.goodsgy.com

http://www.w3.org/
http://www.w3.org/robots.txt
http://www.w3.org:80/
http://www.w3.org:80/robots.txt
http://www.w3.org:1234/
http://www.w3.org:1234/robots.txt
http://w3.org/
http://w3.org/robots.txtwww.goodsgy.com

2、 robots.txt的语法www.goodsgy.com

"robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:www.goodsgy.com

"<field>:<optionalspace><value><optionalspace>"。www.goodsgy.com

在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:www.goodsgy.com

User-agent:
该项的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中, "User-agent:*"这样的记录只能有一条。 www.goodsgy.com

Disallow :
该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robot访问到。例如"Disallow: /help"对/help.phpl 和/help/index.phpl都不允许搜索引擎访问,而"Disallow: /help/"则允许robot访问/help.phpl,而不能访问/help/index.phpl。www.goodsgy.com

任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。如果 "/robots.txt"是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。www.goodsgy.com

下面是一些robots.txt基本的用法:
l 禁止所有搜索引擎访问网站的任何部分:
User-agent: *
Disallow: / l 允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件 "/robots.txt" file l 禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/ l 禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: / l 只允许某个搜索引擎的访问(下例中的WebCrawler)
User-agent: WebCrawler
Disallow: User-agent: *
Disallow: /www.goodsgy.com

3、 常见搜索引擎机器人Robots名字www.goodsgy.com

名称     搜索引擎
Baiduspider http://www.baidu.com
Scooter http://www.altavista.com
ia_archiver http://www.alexa.com
Googlebot http://www.google.com
FAST-WebCrawler http://www.alltheweb.com
Slurp http://www.inktomi.com MSNBOT http://search.msn.com www.goodsgy.com

4、 robots.txt举例www.goodsgy.com

下面是一些著名站点的robots.txt:www.goodsgy.com

http://www.cnn.com/robots.txt
http://www.google.com/robots.txt
http://www.ibm.com/robots.txt
http://www.sun.com/robots.txt
http://www.eachnet.com/robots.txtwww.goodsgy.com

5、 常见robots.txt错误www.goodsgy.com

l 颠倒了顺序:
错误写成
User-agent: *
Disallow: GoogleBotwww.goodsgy.com

正确的应该是:
User-agent: GoogleBot
Disallow: *www.goodsgy.com

l 把多个禁止命令放在一行中:
例如,错误地写成
Disallow: /css/ /cgi-bin/ /../images/www.goodsgy.com

正确的应该是
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /../images/www.goodsgy.com

l 行前有大量空格
例如写成
Disallow: /cgi-bin/
尽管在标准没有谈到这个,但是这种方式很容易出问题。www.goodsgy.com

l 404重定向到另外一个页面:
当Robot访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt文件在站点根目录下。www.goodsgy.com

l 采用大写。例如
USER-AGENT: EXCITE
DISALLOW:
虽然标准是没有大小写的,但是目录和文件名应该小写:
user-agent:GoogleBot
disallow: www.goodsgy.com

l 语法中只有Disallow,没有Allow!
错误的写法是:
User-agent: Baiduspider
Disallow: /john/
allow: /jane/www.goodsgy.com

l 忘记了斜杠/
错误的写做:
User-agent: Baiduspider
Disallow: csswww.goodsgy.com

正确的应该是
User-agent: Baiduspider
Disallow: /css/ www.goodsgy.com

下面一个小工具专门检查robots.txt文件的有效性:http://www.searchengineworld.com/cgi-bin/robotcheck.cgiwww.goodsgy.com

二、 Robots META标签www.goodsgy.com

1、什么是Robots META标签www.goodsgy.com

Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。具体的形式类似(见黑体部分):www.goodsgy.com

<html>
<head>
<title>网页教学网--提供最新最快的网页技术咨讯</title>
<meta name="Robots" content="index,follow">
<meta http-equiv="Content-Type" CONTENT="text/html; charset=gb2312">
<meta name="keywords" content="网页… ">
<meta name="description" content="网页教学网…">
<link rel="stylesheet" href="/public/css.css" type="text/css">
</head>
<body>…</body>
</html>www.goodsgy.com

2、Robots META标签的写法:www.goodsgy.com

Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。www.goodsgy.com

INDEX 指令告诉搜索机器人抓取该页面;www.goodsgy.com

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;www.goodsgy.com

Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。www.goodsgy.com

这样,一共有四种组合:www.goodsgy.com

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">www.goodsgy.com

其中:www.goodsgy.com

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成
<META NAME="ROBOTS" CONTENT="ALL">;
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成
<META NAME="ROBOTS" CONTENT="NONE"> www.goodsgy.com

需要注意的是:上述的robots.txt和Robots META标签限制搜索引擎机器人(ROBOTS)抓取站点内容的办法只是一种规则,需要搜索引擎机器人的配合才行,并不是每个ROBOTS都遵守的。www.goodsgy.com

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:www.goodsgy.com

<META NAME="googlebot" CONTENT="index,follow,noarchive">www.goodsgy.com

表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。www.goodsgy.com

在百度中搜索:网站优化中应该知道的知识:详细robots.txt
在Google中搜索:网站优化中应该知道的知识:详细robots.txt
在Yahoo中搜索:网站优化中应该知道的知识:详细robots.txt

收藏到网摘:新浪VIVI 365key 我摘 POCO网摘 博采中心 YouNote 和讯网摘 天天收藏
[] [返回上一页] [打 印] [收 藏]

 相关文章    最新文章
· [组图] 2008中秋,我们对其他各大网站的Lo..
· 专家:社交网站取代色情网站成最热内容
· DIV+CSS布局设计对网站SEO优化的影响
· 用JS解决网站防挂iframe木马的方案
· 警方公布10个假淘宝网站 网页与淘宝如出一..
· 网站策划:网站栏目和页面的策划
· [图文] 驱除烦恼上网无忧 9991.com恶意网站..
· 防止ARP地址欺骗,解决网站被挂马的方法
· [图文] 互联网上网站数量突破1.5亿个
· CSS样式表创建美妙绝伦的网站
 
· Google搜索引擎:迈向云计算的未来
· 一个合格网页设计师的标准是什么?
· 建立自己的博客的过程中学习到的知识
· 网站策划:网站栏目和页面的策划
· 初学:关于域名和空间的一些认识
· 什么是静态网页和动态网页?
· 设计网页前端界面必备的技能
· 如何调用Flash才符合Web网页标准?
· 网页色彩的搭配
· 文章内容SEO优化基本原则

∷相关文章评论∷    (评论内容只代表网友观点,与本站立场无关!) [更多评论…]
站内搜索

精彩图文
  网站导航  
操作系统 办公软件 网络软件
Vista Windows2003 WindowsXP Windows2000/NT Windows9X/ME Linux 其他 Word Excel Powerpoint Outlook 金山系列 其他 网页浏览 上传下载 联络聊天 邮件工具 服务器软件 网络辅助
工具软件 媒体动画 网页制作
系统工具 媒体工具 压缩工具 图文处理 文件管理 其他 3DMAX Authorware Director Maya 视频处理 其他 Flash Dreamweaver FireWorks FrontPage LiveMotion Golive HTML/CSS 其它
网站开发 平面设计 程序设计
ASP JSP PHP CGI JavaScript VBScript XML/SOAP Web服务器 Photoshop PhotoImpact CorelDraw Illustrator Freehand 设计欣赏 其他 VB VC .NET C/C++ DELPHI JAVA

冀ICP备05019428号
Copyright © 2004-2008 电脑学习网 Inc.All rights reserved.
TEL:13832340607
QQ:39873155
E_Mail:goodsgy(#)hotmail.com   (把(#)替换成@)
MSN:goodsgy(#)hotmail.com   (把(#)替换成@)