robots.txt | 九天

robots.txt的名字，从字面上来看就是机器人文件，是给机器人看得，所谓机器人就是搜索引擎的蜘蛛。这个文件是一个纯文本的文本文档，采用的是Robots排除标准，这项标准是一个协议，有一小组命令组成。

robots.txt的用处：

告诉搜索引擎，网站的内容那些是可以索引的，哪些是不可以索引的。

注意：robots.txt仅仅只是一项指令，并不能强制阻止各种抓取工具对你的网站进行抓取。如果你的网站上有不希望被公开访问的内容，要采取其他方法来屏蔽（比如用密码，用加密等等）。

robots.txt存放的位置：

必须放在网站的根目录，文件名全部小写。

例子：

User-agent: * 
Disallow:

允许所有的机器人

User-agent: * 
Allow:/

这也是允许所有的机器人，另一种写法

User-agent: googlebot 
Disallow: /images/

禁止Google的搜索蜘蛛访问抓取 /images/ 目录

从上面的这些例子里可以看到有三个重要的关键词：
User-agent: 【蜘蛛的名称，下面的这些指令都应用到这些蜘蛛】
Disallow: 【要屏蔽的网址】
Allow: 【不需要屏蔽的网址，一般是上面 Disallow 中的一个子集】

在网址部分，可以使用通配符以简化指令。通配符包括星号和$符号。
* 星号表示任意长度字符；
$ 表示结束，以特定方式结尾，比如 pdf$ 就表示以 pdf 结尾的网址。

以上为标准协议的指令。下面还有几个被多个搜索引擎支持的非标准扩展协议。

自动发现 sitemap 文件：
Sitemap: 【http://www.example.com/sitemap.xml】

各大搜索引擎的蜘蛛名称(User-agent：

Google vi
Google Web Search: Googlebot
Google News Search: Googlebot-News
Google Images Search: Googlebot-Image
Google Video Search: Googlebot-Video
Google Mobile (feature phone): Googlebot-Mobile
Google Smartphone: Googlebot
Google Mobile AdSense: Mdeiapartners-Google or Mediapartners
Google AdSense: Mediapartners-Google or Mediapartners
Google AdsBot (Landing page quality check): AdsBot-Google

Yahoo vi
Yahoo Search: Slurp
Yahoo Ad Monitoring: Monitoring

Microsoft vi
Bing Search: Bingbot
Bing Search (Old): MSNBot
Bing images and video search: MSNBot-Media
Bing Ads: AdldxBot
Bing snapshots: BingPreviewe

Baidu百度 vi
无线搜索： Baiduspider
图片搜索：Baiduspider-image
视频搜索：Baiduspider-video
新闻搜索：Baiduspider-news
百度搜藏：Baiduspider-favo
百度联盟：Baiduspider-cpro
商务搜索：Baiduspider-ads
网页以及其他搜索：Baiduspider

腾讯搜狗
搜搜： Sosospider

360 好搜 vi
网页搜索： 360Spider
网页搜索： HaoSouSpider
图片搜索： 360Spider-Image
视频搜索： 360Spider-Video