网络技术

robots.txt文件

编辑:dnawo 日期:2007-04-10

字体大小: 小中大

一、什么是robots.txt文件?

搜索引擎机器人在抓取一个网站的页面时，会先检查网站根目录下有没有robots.txt文件，它用来告诉机器人哪些页面允许抓取，哪些页面禁止抓取。注意，robots.txt文件名字一定要小写，否则有可能不起作用。

二、robots.txt文件格式

复制内容到剪贴板

程序代码

User-agent:
Disallow:
Allow:

参数说明

User-agent：搜索引擎机器人的名字，常见的有：Googlebot、Baiduspider、Msnbot等等，*表示所有搜索引擎；
Disallow：禁止抓取的文件和文件夹，一般从/开始写，可用通配符，*匹配任意多个字符，$匹配结束符，例如/dede/；
Allow：允许抓取的文件和文件夹，一般从/开始写，可用通配符，通配符和Disallow相同，例如/*.gif$；

注意：Disallow与Allow行的顺序是有意义的，robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。

三、robots.txt文件示例

例1.禁止所有搜索引擎访问网站的任何部分

复制内容到剪贴板

程序代码

User-agent: *
Disallow: /

例2.允许所有的robot访问

复制内容到剪贴板

程序代码

User-agent: *
Allow: /

例3.仅禁止Baiduspider访问您的网站

复制内容到剪贴板

程序代码

User-agent: Baiduspider
Disallow: /

例4.仅允许Baiduspider访问您的网站

复制内容到剪贴板

程序代码

User-agent: Baiduspider
Disallow:

User-agent: *
Disallow: /

例5.禁止spider访问特定目录

复制内容到剪贴板

程序代码

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

例6.允许访问特定目录中的部分url

复制内容到剪贴板

程序代码

User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

例7.使用"*"限制访问url

复制内容到剪贴板

程序代码

User-agent: *
Disallow: /cgi-bin/*.htm

例8.使用"$"限制访问url

复制内容到剪贴板

程序代码

User-agent: *
Allow: .htm$
Disallow: /

例9.禁止访问网站中所有的动态页面

复制内容到剪贴板

程序代码

User-agent: *
Disallow: /*?*

例10. 禁止Baiduspider抓取网站上所有图片

复制内容到剪贴板

程序代码

User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$

例11.仅允许Baiduspider抓取网页和.gif格式图片

复制内容到剪贴板

程序代码

User-agent: Baiduspider
Allow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$

例12.仅禁止Baiduspider抓取.jpg格式图片

复制内容到剪贴板

程序代码

User-agent: Baiduspider
Disallow: /*.jpg$

四、单个页面禁止/允许搜索引擎抓取

有时，比如后台登录页面，我们不想让搜索引擎收录，但又不想将页面地址写在robots.txt文件中被其他人看到，这时，可以在页面的head部分加入相应的元标记，即可设置单个页面禁止/允许搜索引擎抓取。

例1.拦截所有搜索引擎把网页收录

复制内容到剪贴板

程序代码

例2.只是拦截百度蜘蛛爬取网页，而允许其他搜索引擎收录

复制内容到剪贴板

程序代码

例3.允许搜索引擎收录你的网页，但禁止其追踪外部链接

复制内容到剪贴板

程序代码

例4.禁止搜索引擎在搜索结果中显示网页快照

复制内容到剪贴板

程序代码

例5.允许搜索引擎收录你的网页，但禁止其收录网页上的图片

复制内容到剪贴板

程序代码

五、robots.txt文件疑问

问：robots.txt文件中搜索引擎机器人名字是否区分大小写？
答：-

问：有没有工具检测robots.txt文件设置是否正确？
答：-

问：有没有robots.txt文件生成工具？
答：-

问：robots.txt文件通常用来禁止搜索引擎抓取哪些页面？
答：通常以下几个类型的页面会禁止抓取：
a.安全性页面，比如网站后台管理页面；
b.死链接；
c.相似的页面或没内容的页面，比如静态和动态页面同时存在时，一般屏蔽掉动态的；
d.大文件，比如大图片、音乐文件、电影文件、日志文件夹等，这些资源很占流量；
e.可能存在的被K外部链接的页面；

问：用robots.txt删除已收录的页面大概要多长时间？
答：一般需要1-2个月。

六、参考文章

@.禁止搜索引擎收录的方法：http://www.baidu.com/search/robots.html
@.使用 robots.txt 文件拦截或删除网页：
http://www.google.com/support/webmasters/bin/answer.py?hl=zh-Hans&answer=156449
@.如何使用标签阻止网页被收录：http://www.seowhy.com/12_61_zh.html

上一篇: XMLDOM对象操作实例

下一篇: 才明白中毒不是重装就能了事的

文章来自: 木子屋

引用通告: 查看所有引用 | 我要引用此文章

Tags:

最新日志:

评论: 1 | 引用: 0 | 查看次数: 5221

发表评论

请登录后再发表评论！

Powered By PJBlog3 V3.2.9.518 CopyRight 2005 - 2025, 木子屋 xhtml | css
Processed in 1.395996 second(s) , 6 queries , Simple Yellow Design By ChangHua(FatMouse) 闽ICP备19016051号-1

01.w3school	02.51Windows
03.ES6入门教程	04.PHP中文手册
05.MSDN\|.NET	06.Visual Studio\|O
07.ASP.NET MVC2	08.ASP.NET MVC3
09.jQuery\|D\|P	10.Vue.js
11.AspNetPager	12.SharpZipLib
13.AjaxPro	14.Json.NET
15.Web Services	16.BaiDu API
17.数据堂	18.纯真IP库
19.SharpDevelop	20.动软
21..NET Reflector	22.百度\|高德[坐标]
23.Layui\|G\|X\|Q	24.Ele\|uni-app
25.SourceForge	26.CodeProject
27.Dynamic Drive	28.CodePlex
29.GitHub	30.Gitee
31.IItellYou	32.面包多
33.一门APP	34.友盟数据
35.JSON格式化	36.在线文本比较
37.微软开发者中心	38.Android开发者中心

robots.txt文件

编辑:dnawo 日期:2007-04-10

Category

IM Online

User Panel

Search

Recent Comments

最新评论

Resources