robots.txt的名字,从字面上来看就是机器人文件,是给机器人看得,所谓机器人就是搜索引擎的蜘蛛。这个文件是一个纯文本的文本文档,采用的是Robots排除标准,这项标准是一个协议,有一小组命令组成。
robots.txt的用处:
告诉搜索引擎,网站的内容那些是可以索引的,哪些是不可以索引的。
注意:robots.txt仅仅只是一项指令,并不能强制阻止各种抓取工具对你的网站进行抓取。如果你的网站上有不希望被公开访问的内容,要采取其他方法来屏蔽(比如用密码,用加密等等)。
robots.txt存放的位置:
必须放在网站的根目录,文件名全部小写。
例子:
User-agent: * Disallow:
允许所有的机器人
User-agent: * Allow:/
这也是允许所有的机器人,另一种写法
User-agent: googlebot Disallow: /images/
禁止Google的搜索蜘蛛访问抓取 /images/ 目录
从上面的这些例子里可以看到有三个重要的关键词:
User-agent: 【蜘蛛的名称,下面的这些指令都应用到这些蜘蛛】
Disallow: 【要屏蔽的网址】
Allow: 【不需要屏蔽的网址,一般是上面 Disallow 中的一个子集】
在网址部分,可以使用通配符以简化指令。通配符包括星号和$符号。
* 星号表示任意长度字符;
$ 表示结束,以特定方式结尾,比如 pdf$ 就表示以 pdf 结尾的网址。
以上为标准协议的指令。下面还有几个被多个搜索引擎支持的非标准扩展协议。
自动发现 sitemap 文件:
Sitemap: 【http://www.example.com/sitemap.xml】
各大搜索引擎的蜘蛛名称(User-agent:
Google vi
Google Web Search: Googlebot
Google News Search: Googlebot-News
Google Images Search: Googlebot-Image
Google Video Search: Googlebot-Video
Google Mobile (feature phone): Googlebot-Mobile
Google Smartphone: Googlebot
Google Mobile AdSense: Mdeiapartners-Google or Mediapartners
Google AdSense: Mediapartners-Google or Mediapartners
Google AdsBot (Landing page quality check): AdsBot-Google
Yahoo vi
Yahoo Search: Slurp
Yahoo Ad Monitoring: Monitoring
Microsoft vi
Bing Search: Bingbot
Bing Search (Old): MSNBot
Bing images and video search: MSNBot-Media
Bing Ads: AdldxBot
Bing snapshots: BingPreviewe
Baidu百度 vi
无线搜索: Baiduspider
图片搜索:Baiduspider-image
视频搜索:Baiduspider-video
新闻搜索:Baiduspider-news
百度搜藏:Baiduspider-favo
百度联盟:Baiduspider-cpro
商务搜索:Baiduspider-ads
网页以及其他搜索:Baiduspider
腾讯 搜狗
搜搜: Sosospider
360 好搜 vi
网页搜索: 360Spider
网页搜索: HaoSouSpider
图片搜索: 360Spider-Image
视频搜索: 360Spider-Video