岑辉宇SEO博客:分享搜索引擎优化的心得和经验,充当新手SEO道路上的照明灯,让SEO不再没方向,欢迎加入SEO交流群:241865235,微信公众号:qq945748441(每天前两名关注公众号的朋友,免费分析网站)

网站robots文件常见问题总结

seo技术分享 贵阳SEO 2158℃ 0评论

一.什么是robots.txt文件?

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

robots

二.robots.txt文件放在哪里?

robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站(比如 http://www.***.com)时,首先会检查该网站中是否存在http://www.***.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。
在robots.txt中禁止百度收录,百度搜索结果中还会显显示吗?

如果其他网站链接了您robots.txt文件中设置的禁止收录的网页,那么这些网页仍然可能会出现在百度的搜索结果中,但您的网页上的内容不会被抓取、建入索引和显示,百度搜索结果中展示的仅是其他网站对您相关网页的描述。


 

三.robots.txt文件用法举例

1、禁止所有搜索引擎访问网站的任何部分
Uer-agent: *
Disallow: /

2、允许所有的robot访问
Uer-agent: *
Allow: /

3、仅禁止Baiduspider访问您的网站
Uer-agent: Baiduspider
Disallow: /

4、仅允许百度Baiduspider访问您的网站
Uer-agent: Baiduspider
Allow: /

Uer-agent: *
Disallow: /

5、仅允许百度Baiduspider和谷歌Googlebot访问
Uer-agent: Baiduspider
Allow: /

Uer-agent: Googlebot
Allow: /

Uer-agent: *
Disallow: /

6、禁止spider访问特定目录
Uer-agent: *
Disallow: /目录名称
Disallow: /某某目录

7、允许访问特定目录中的部分url
Uer-agent: *
Allow: /tmp/bin

8、使用“*”限制访问url
Uer-agent: *
Disallow: /某某目录/*.html

9、使用“$”限制访问URL(仅允许访问以“.html”为后缀的URL)
Uer-agent: *
Disallow: /
Allow: /*.html$

10、禁止访问网站中的所有的动态页面
Uer-agent: *
Disallow: /*?*

11、禁止Baiduspider抓取网站上的所有图片
Uer-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$

12、仅允许Baiduspier抓取网页和.gif格式图片
Uer-agent: Baiduspider
Allow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$

13、仅禁止Baiduspider抓取.jpg格式图片
Uer-agent: Baiduspider
Disallow: /*.jpg$


 

四.robots.txt文件的格式

“robots.txt”文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
“<field>:<optional space><value><optional space>”

在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下:

User-agent:该项的值用于描述搜索引擎robot的名字。在”robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到”robots.txt”的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效, 在”robots.txt”文件中,”User-agent:*”这样的记录只能有一条。如果在”robots.txt”文件中,加入”User- agent:SomeBot”和若干Disallow、Allow行,那么名为”SomeBot”只受到”User-agent:SomeBot”后面的 Disallow和Allow行的限制。

Disallow:该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。例如”Disallow:/help”禁止robot访问/help.html、/helpabc.html、/help /index.html,而”Disallow:/help/”则允许robot访问/help.html、/helpabc.html,不能访问 /help/index.html。”Disallow:”说明允许robot访问该网站的所有url,在”/robots.txt”文件中,至少要有一 条Disallow记录。如果”/robots.txt”不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

Allow:该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如”Allow:/hibaidu”允许robot访问/hibaidu.htm、/hibaiducom.html、 /hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页 同时禁止访问其它所有URL的功能。
使用”*”and”$”:
Baiduspider支持使用通配符”*”和”$”来模糊匹配url。
“$” 匹配行结束符。
“*” 匹配0或多个任意字符。

转载请注明:岑辉宇SEO博客 » 网站robots文件常见问题总结

喜欢 (2)or分享 (0)
发表我的评论
取消评论
表情
(41)个小伙伴在吐槽
  1. Pleasurable article. It would appear that a good many simple tips are relying on the innovation factor. “The elegance of honesty needs no adornment.” by Merry Browne..
    匿名2019-06-30 09:48 回复
  2. Entre otras cosas, la calificación entra en consideración en los vasos sanguíneos que lleva como causa para la impotencia. Esto es válido para algunos, pero no todas las posilidades caben en la paraplejía.
    匿名2019-06-22 14:48 回复
  3. Thank you for finding the time to debate this, Personally i think strongly over it and love learning read more about this topic. Whenever possible, when you gain expertise, could you mind updating your blog with extra information? It is very great for me.
    匿名2019-06-17 21:50 回复
  4. We absolutely love your blog and find many of your post’s to be exactly I’m looking for. can you offer guest writers to write content for yourself? I wouldn’t mind creating a post or elaborating on many of the subjects you write related to here. Again, awesome web log!
    匿名2019-06-17 04:04 回复
  5. Youre so cool! I dont suppose Ive read anything similar to this prior to. So nice to find somebody with original ideas on this subject. realy thank you for beginning this up. this excellent website is something that is required on-line, somebody with a bit of originality. beneficial job for bringing a new challenge for the world wide web!
    匿名2019-06-16 17:22 回复
  6. I just want to mention I am just beginner to weblog and certainly loved you're page. Almost certainly I’m likely to bookmark your blog . You really have impressive articles and reviews. Thank you for revealing your web-site.
    here2019-06-13 02:13 回复
  7. You may need to make a few appointments. This type of hair loss usually affects just the scalp, but it sometimes also occurs in beards or eyebrows. Treatment is often entirely behavioral.
    匿名2019-05-31 14:37 回复
  8. También se relaciona con hipertensión, enfermedades cardiacas, vasculares, cirugía de la próstata, insuficiencia renal, alcoholismo, drogas, tabaquismo y obesidad. Información sobre Medicamentos para la Disfunción Erectil. Tales como la diabetes, afecciones del riñón, alcoholismo crónico, esclerosis múltiple, arteriosclerosis, psoriasis, enfermedad vascular y enfermedad neurológica son responsables de alrededor del 70 % de los casos de DE.
    匿名2019-05-30 06:17 回复
  9. Mientras haya óxido nítrico en el cuerpo cavernoso, el pene se mantendrá lleno de sangre y, por lo tanto, erecto; cuando lo niveles de óxido nítrico caen, la erección termina.
    匿名2019-05-26 01:06 回复
  10. Recomendaciones para evitar la disfunción eréctil. La adicción o la dependencia de la pornografía es una causa potencial para la disfunción eréctil que muchos hombres no consideran.
    匿名2019-05-25 04:49 回复
1 2 3 5