http://www.tuituiwa.com

Robots文件_推推蛙SEO名词解释

Robots文件_推推蛙SEO名词解释
 
Robots文件(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),robots是放在网站根目录下的一个纯文本的文件robots.txt,用来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
 
SEO优化百科知识
 
搜索引擎蜘蛛访问一个网站时,首先要读取robots文件内容(当然不是每次访问时都重新读取robots文件,而是每隔几天读取一次,看看robots文件有没有变化),凡是robots文件指明禁止搜索引擎抓取的,搜索引擎就会忽略,不再抓取。但也有一部分恶意蜘蛛会抓取robots文件,因为它们的目的只是为了扫描网站地址或者抄袭采集网站文章,不会理睬robots文件。
 
Robots.txt文件优点:
 
1、搜索引擎蜘蛛访问网页第一个查看文件,根据robots文件内容来爬行网页,这样可以减轻搜索引擎蜘蛛的工作量。
2、robots限定了搜索引擎蜘蛛爬行的范围,有robots文件搜素引擎会按照robots的要求爬行网页,如果没有robots文件搜索引擎蜘蛛可能会爬行所有的页面,包含登陆页面,只有登陆才能查看的页面等。
3、搜索引擎对网站派出的蜘蛛是有数量的,根据网站规模来放出蜘蛛,配置robots可以增加蜘蛛的爬行效率,没有robots搜索引擎蜘蛛就会漫无目的爬行和抓取网页,可能不想被抓取收录的内容都会被爬行放出快照。
 
Robots.txt文件缺点:
 
如果网站管理者不会设置robots文件,有可能会设置错误,导致整站不被索引和收录,可能屏蔽整站,对于有的网站一直不收录可以查看是否是robots文件屏蔽错误。
 
如何查看Robots.txt文件?
 
通过“域名/robots.txt”能正常访问即可,如:http(s)://域名/robots.txt
 
推推蛙分享robots文件在线生成网站:http://tool.chinaz.com/robots/
 
全网优化建站推广找推推蛙

郑重声明:本文由推推蛙整理编写推送,未经允许请勿转载,如文章信息有误,请第一时间联系微信:tuituiwaseo修改或删除,多谢。