不错呦!smile@林凯西,确保“准备文件”中的几个文件都有安装,S...您好,看了您这篇帖子觉得很有帮助。但是有个问题想请...我的修改过了怎么还被恶意注册呢 @jjjjiiii 用PJ快9年了,主要是A...PJ3啊,貌似很少有人用PJ了,现在不是WP就是z...@332347365,我当时接入时错误码没有-10...楼主,ChkValue值应为-103是什么意思呢?...大哥 你最近能看到我发的信息,请跟我联系,我有个制...
robots.txt文件
编辑:dnawo 日期:2007-04-10
一、什么是robots.txt文件?
搜索引擎机器人在抓取一个网站的页面时,会先检查网站根目录下有没有robots.txt文件,它用来告诉机器人哪些页面允许抓取,哪些页面禁止抓取。注意,robots.txt文件名字一定要小写,否则有可能不起作用。
二、robots.txt文件格式
参数说明
User-agent:搜索引擎机器人的名字,常见的有:Googlebot、Baiduspider、Msnbot等等,*表示所有搜索引擎;
Disallow:禁止抓取的文件和文件夹,一般从/开始写,可用通配符,*匹配任意多个字符,$匹配结束符,例如/dede/;
Allow:允许抓取的文件和文件夹,一般从/开始写,可用通配符,通配符和Disallow相同,例如/*.gif$;
注意:Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。
三、robots.txt文件示例
例1.禁止所有搜索引擎访问网站的任何部分
例2.允许所有的robot访问
例3.仅禁止Baiduspider访问您的网站
例4.仅允许Baiduspider访问您的网站
例5.禁止spider访问特定目录
例6.允许访问特定目录中的部分url
例7.使用"*"限制访问url
例8.使用"$"限制访问url
例9.禁止访问网站中所有的动态页面
例10. 禁止Baiduspider抓取网站上所有图片
例11.仅允许Baiduspider抓取网页和.gif格式图片
例12.仅禁止Baiduspider抓取.jpg格式图片
四、单个页面禁止/允许搜索引擎抓取
有时,比如后台登录页面,我们不想让搜索引擎收录,但又不想将页面地址写在robots.txt文件中被其他人看到,这时,可以在页面的head部分加入相应的元标记,即可设置单个页面禁止/允许搜索引擎抓取。
例1.拦截所有搜索引擎把网页收录
例2.只是拦截百度蜘蛛爬取网页,而允许其他搜索引擎收录
例3.允许搜索引擎收录你的网页,但禁止其追踪外部链接
例4.禁止搜索引擎在搜索结果中显示网页快照
例5.允许搜索引擎收录你的网页,但禁止其收录网页上的图片
五、robots.txt文件疑问
问:robots.txt文件中搜索引擎机器人名字是否区分大小写?
答:-
问:有没有工具检测robots.txt文件设置是否正确?
答:-
问:有没有robots.txt文件生成工具?
答:-
问:robots.txt文件通常用来禁止搜索引擎抓取哪些页面?
答:通常以下几个类型的页面会禁止抓取:
a.安全性页面,比如网站后台管理页面;
b.死链接;
c.相似的页面或没内容的页面,比如静态和动态页面同时存在时,一般屏蔽掉动态的;
d.大文件,比如大图片、音乐文件、电影文件、日志文件夹等,这些资源很占流量;
e.可能存在的被K外部链接的页面;
问:用robots.txt删除已收录的页面大概要多长时间?
答:一般需要1-2个月。
六、参考文章
@.禁止搜索引擎收录的方法:http://www.baidu.com/search/robots.html
@.使用 robots.txt 文件拦截或删除网页:
http://www.google.com/support/webmasters/bin/answer.py?hl=zh-Hans&answer=156449
@.如何使用标签阻止网页被收录:http://www.seowhy.com/12_61_zh.html
搜索引擎机器人在抓取一个网站的页面时,会先检查网站根目录下有没有robots.txt文件,它用来告诉机器人哪些页面允许抓取,哪些页面禁止抓取。注意,robots.txt文件名字一定要小写,否则有可能不起作用。
二、robots.txt文件格式
复制内容到剪贴板
程序代码

User-agent:
Disallow:
Allow:
Disallow:
Allow:
参数说明
User-agent:搜索引擎机器人的名字,常见的有:Googlebot、Baiduspider、Msnbot等等,*表示所有搜索引擎;
Disallow:禁止抓取的文件和文件夹,一般从/开始写,可用通配符,*匹配任意多个字符,$匹配结束符,例如/dede/;
Allow:允许抓取的文件和文件夹,一般从/开始写,可用通配符,通配符和Disallow相同,例如/*.gif$;
注意:Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。
三、robots.txt文件示例
例1.禁止所有搜索引擎访问网站的任何部分
复制内容到剪贴板
程序代码

User-agent: *
Disallow: /
Disallow: /
例2.允许所有的robot访问
复制内容到剪贴板
程序代码

User-agent: *
Allow: /
Allow: /
例3.仅禁止Baiduspider访问您的网站
复制内容到剪贴板
程序代码

User-agent: Baiduspider
Disallow: /
Disallow: /
例4.仅允许Baiduspider访问您的网站
复制内容到剪贴板
程序代码

User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
Disallow:
User-agent: *
Disallow: /
例5.禁止spider访问特定目录
复制内容到剪贴板
程序代码

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例6.允许访问特定目录中的部分url
复制内容到剪贴板
程序代码

User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例7.使用"*"限制访问url
复制内容到剪贴板
程序代码

User-agent: *
Disallow: /cgi-bin/*.htm
Disallow: /cgi-bin/*.htm
例8.使用"$"限制访问url
复制内容到剪贴板
程序代码

User-agent: *
Allow: .htm$
Disallow: /
Allow: .htm$
Disallow: /
例9.禁止访问网站中所有的动态页面
复制内容到剪贴板
程序代码

User-agent: *
Disallow: /*?*
Disallow: /*?*
例10. 禁止Baiduspider抓取网站上所有图片
复制内容到剪贴板
程序代码

User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
例11.仅允许Baiduspider抓取网页和.gif格式图片
复制内容到剪贴板
程序代码

User-agent: Baiduspider
Allow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$
Allow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$
例12.仅禁止Baiduspider抓取.jpg格式图片
复制内容到剪贴板
程序代码

User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpg$
四、单个页面禁止/允许搜索引擎抓取
有时,比如后台登录页面,我们不想让搜索引擎收录,但又不想将页面地址写在robots.txt文件中被其他人看到,这时,可以在页面的head部分加入相应的元标记,即可设置单个页面禁止/允许搜索引擎抓取。
例1.拦截所有搜索引擎把网页收录
复制内容到剪贴板
程序代码

<meta name="robots" content="noindex,nofollow">
例2.只是拦截百度蜘蛛爬取网页,而允许其他搜索引擎收录
复制内容到剪贴板
程序代码

<meta name="baiduspider" content="noindex,nofollow">
例3.允许搜索引擎收录你的网页,但禁止其追踪外部链接
复制内容到剪贴板
程序代码

<meta name="robots" content="nofollow">
例4.禁止搜索引擎在搜索结果中显示网页快照
复制内容到剪贴板
程序代码

<meta name="robots" content="noarchive">
例5.允许搜索引擎收录你的网页,但禁止其收录网页上的图片
复制内容到剪贴板
程序代码

<meta name="robots" content="noimageindex">
五、robots.txt文件疑问
问:robots.txt文件中搜索引擎机器人名字是否区分大小写?
答:-
问:有没有工具检测robots.txt文件设置是否正确?
答:-
问:有没有robots.txt文件生成工具?
答:-
问:robots.txt文件通常用来禁止搜索引擎抓取哪些页面?
答:通常以下几个类型的页面会禁止抓取:
a.安全性页面,比如网站后台管理页面;
b.死链接;
c.相似的页面或没内容的页面,比如静态和动态页面同时存在时,一般屏蔽掉动态的;
d.大文件,比如大图片、音乐文件、电影文件、日志文件夹等,这些资源很占流量;
e.可能存在的被K外部链接的页面;
问:用robots.txt删除已收录的页面大概要多长时间?
答:一般需要1-2个月。
六、参考文章
@.禁止搜索引擎收录的方法:http://www.baidu.com/search/robots.html
@.使用 robots.txt 文件拦截或删除网页:
http://www.google.com/support/webmasters/bin/answer.py?hl=zh-Hans&answer=156449
@.如何使用标签阻止网页被收录:http://www.seowhy.com/12_61_zh.html
评论: 1 | 引用: 0 | 查看次数: 5221
发表评论
请登录后再发表评论!