Robots文件中的特殊符号的作用和意思
Robots文件中的特殊符号的作用和意思
*表示所有搜索引擎,用于指定蜘蛛使用;
~表示以某字符串开头;
$表示以某字符串结尾;
/表示当前目录下的所有内容。
格式
User-agent: 蜘蛛名称;
Disallow: 内容名称;
Allow:内容名称;
参数说明
User-agent 指定搜索引擎蜘蛛名称;
Disallow要禁止抓取的内容;
Allow允许抓取的内容。
Robots文件写法参考
指定蜘蛛:User-agent:* 。这里的*代表的所有的搜索引擎种类,*是一个通配符。
禁止写法
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录;
Disallow: /admin 这里定义是禁止爬寻admin目录;
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下所有以“.htm”为后缀URL(包含子目录);
Disallow: /*?* 禁止访问网站中所有包含问号(?)的网址;
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片;
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
允许写法
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录;
Allow: /tmp 这里定义是允许爬寻tmp的整个目录;
Allow: .htm$ 仅允许访问以".htm"为后缀的URL;
Allow: .gif$ 允许抓取网页和gif格式图片。
各大搜索引擎蜘蛛的名称写法
1、百度蜘蛛:Baiduspider
百度蜘蛛名称为Baiduspider日志中还发现了Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)。以上百度蜘蛛目前常见的是Baiduspider和Baiduspider-image两种。
2、谷歌蜘蛛:Googlebot ,Googlebot-Mobile,看名字是抓取wap内容的
3、360蜘蛛:360Spider,这个家伙比较勤劳
4、SOSO蜘蛛:Sosospider,比360更加勤劳
5、雅虎蜘蛛:Yahoo! Slurp China
6、有道蜘蛛:YoudaoBot
7、搜狗蜘蛛:Sogou News Spider
搜狗蜘蛛还包括如下这些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider,等等、、、、、、
8、MSN蜘蛛:msnbot,msnbot-media
9、必应蜘蛛:bingbot
10、一搜蜘蛛:YisouSpider
11、Alexa蜘蛛:ia_archiver
12、宜搜蜘蛛:EasouSpider
13、即刻蜘蛛:JikeSpider
14、一淘网蜘蛛:EtaoSpider
卖贝商城更多商品介绍:精美的论坛网站源码 安卓APP刷量 甘肃江软文营销推广公司