robots.txt文件

一、什么是robots.txt文件?

搜索引擎机器人在抓取一个网站的页面时,会先检查网站根目录下有没有robots.txt文件,它用来告诉机器人哪些页面允许抓取,哪些页面禁止抓取。注意,robots.txt文件名字一定要小写,否则有可能不起作用。

二、robots.txt文件格式

User-agent:
Disallow:
Allow:

参数说明

User-agent:搜索引擎机器人的名字,常见的有:Googlebot、Baiduspider、Msnbot等等,*表示所有搜索引擎;
Disallow:禁止抓取的文件和文件夹,一般从/开始写,可用通配符,*匹配任意多个字符,$匹配结束符,例如/dede/;
Allow:允许抓取的文件和文件夹,一般从/开始写,可用通配符,通配符和Disallow相同,例如/*.gif$;

注意:Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。

三、robots.txt文件示例

例1.禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /

例2.允许所有的robot访问
User-agent: *
Allow: /

例3.仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
Disallow: /

例4.仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Disallow:

User-agent: *
Disallow: /

例5.禁止spider访问特定目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

例6.允许访问特定目录中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

例7.使用"*"限制访问url
User-agent: *
Disallow: /cgi-bin/*.htm

例8.使用"$"限制访问url
User-agent: *
Allow: .htm$
Disallow: /

例9.禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*

例10. 禁止Baiduspider抓取网站上所有图片
User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$

例11.仅允许Baiduspider抓取网页和.gif格式图片
User-agent: Baiduspider
Allow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$

例12.仅禁止Baiduspider抓取.jpg格式图片
User-agent: Baiduspider
Disallow: /*.jpg$

四、单个页面禁止/允许搜索引擎抓取

有时,比如后台登录页面,我们不想让搜索引擎收录,但又不想将页面地址写在robots.txt文件中被其他人看到,这时,可以在页面的head部分加入相应的元标记,即可设置单个页面禁止/允许搜索引擎抓取。

例1.拦截所有搜索引擎把网页收录
<meta name="robots" content="noindex,nofollow">

例2.只是拦截百度蜘蛛爬取网页,而允许其他搜索引擎收录
<meta name="baiduspider" content="noindex,nofollow">

例3.允许搜索引擎收录你的网页,但禁止其追踪外部链接
<meta name="robots" content="nofollow">

例4.禁止搜索引擎在搜索结果中显示网页快照
<meta name="robots" content="noarchive">

例5.允许搜索引擎收录你的网页,但禁止其收录网页上的图片
<meta name="robots" content="noimageindex">

五、robots.txt文件疑问

问:robots.txt文件中搜索引擎机器人名字是否区分大小写?
答:-

问:有没有工具检测robots.txt文件设置是否正确?
答:-

问:有没有robots.txt文件生成工具?
答:-

问:robots.txt文件通常用来禁止搜索引擎抓取哪些页面?
答:通常以下几个类型的页面会禁止抓取:
a.安全性页面,比如网站后台管理页面;
b.死链接;
c.相似的页面或没内容的页面,比如静态和动态页面同时存在时,一般屏蔽掉动态的;
d.大文件,比如大图片、音乐文件、电影文件、日志文件夹等,这些资源很占流量;
e.可能存在的被K外部链接的页面;

问:用robots.txt删除已收录的页面大概要多长时间?
答:一般需要1-2个月。

六、参考文章

@.禁止搜索引擎收录的方法:http://www.baidu.com/search/robots.html
@.使用 robots.txt 文件拦截或删除网页:
http://www.google.com/support/webmasters/bin/answer.py?hl=zh-Hans&answer=156449
@.如何使用标签阻止网页被收录:http://www.seowhy.com/12_61_zh.html

上一篇: XMLDOM对象操作实例
下一篇: 才明白中毒不是重装就能了事的
文章来自: 木子屋
引用通告: 查看所有引用 | 我要引用此文章
Tags:
最新日志:
评论: 1 | 引用: 0 | 查看次数: 5221
发表评论
登录后再发表评论!