• 懒鸟飞:精品网站源码、帝国cms模板专业分享平台

Robots.txt的用途是什么

      Robots.txt通常是放到网站根目录,它的用途是禁止访问网站的某些文件目录。
      举个例子,我网站根目录/templets/文件夹下是我们的重要文件,不想让用户访问,那么我们就可以在Robots.txt中添加一句Disallow: /templets  ,这样当用户通过在浏览器地址栏输入http://你的域名/templets/ 时也不能访问templets目录下的文件,所以我们可以看出Robots.txt文件就是禁止访问网站文件的功能。
      所以Robots.txt文件很重要,你也可以看看别人的Robots.txt 。例如懒鸟飞的robots.txt文件内容如下图:


 

1、如何屏蔽搜索引擎?使用robots.txt需要注意的几点地方

(1)指令区分大小写,忽略未知指令好像还是不支持中文等非英文字符,如需添加中文地址指令,请先转码(UTF-8和GBK会有不同的转码结果)。
(2)每一行代表一个指令,空白和隔行会被忽略;
(3)“#”号后的字符参数会被忽略;
(4)User-agent定义搜索引擎爬取程序的(指定搜索引擎的爬取程序),他不能单独使用,要配合其它2个语法中的一个使用。
Disallow:/ 禁止允许
Allow: / 
Allow要和Disallow一起使用。

(5)可以写入sitemap文件的链接,方便搜索引擎蜘蛛爬行整站内容。
(6)尽量少用Allow指令,因为不同的搜索引擎对不同位置的Allow指令会有不同看待。
想了解更多关于robots.txt的“标准化”说明,可以查看robots.txt官网和Google关于robots.txt的说明页。

 

2、WordPress网站如何写robots.txt?

最简单的这样写就行了。
User-agent:*
Disallow:/wp-admin
Disallow:/wp-content/plugins
Disallow:/wp-content/themes
Disallow:/wp-includes
Disallow:/?s=
Sitemap:http//www.yourdomain.com/sitemap.xml
Sitemap:http//www.yourdomain.com/sitemap_baidu.html

 

3、robots.txt的写法规则

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
  Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
  Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
  Disallow: /ABC/ 这里定义是禁止爬寻ABC整个目录 
  Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
  Disallow: /*?* 禁止访问网站中所有的动态页面
  Disallow: /jpg$ 禁止抓取网页所有的.jpg格式的图片
  Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html文件。
  User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
  Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
  Allow: /tmp 这里定义是允许爬寻tmp的整个目录
  Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
  Allow: .gif$ 允许抓取网页和gif格式图片robots.txt文件用法举例
 

 
 
QQ在线咨询
QQ客服
淘宝官网