Robots.txt使用方法详解和SEO使用技巧
时间:2023年12月02日
/来源:网络
/编辑:佚名
Robots.txt是引导搜索引擎蜘蛛爬取网站的文件。Robots.txt合理放置自己网站内,可以用防止后台登录之类的秘密被索引的公布,还可以屏蔽搜索引擎对网站内容页面的抓取,只让搜索引擎抓取和收录能够带来排名流量的页面,在Robots.txt中使用有几个问题值得注意。
要不要使用Robots.txt
对于需要屏蔽屏蔽某些文件的Robots.txt是需要的,但是对于希望把内容全部开放给其搜索引擎蜘蛛的,Robots.txt就没有了意义,那还需要这个文件吗?
如果网站不设置Robots.txt,服务器会返回404状码态。也有些服务器会返回200,或者其他错误。针对404,状态满了,服务器就不需要特殊处理啦。因为搜索引擎抓取一两次没有发现这个文件,就不会在抓去了。
不同的搜索引擎对Robots.txt协议的支持并不相同。
虽然主流的搜索引擎都申明支持Robots.txt这个协议,但是对于Robots.txt这个文件中的限制语句可能会有不同的匹配解读。所以我们需要针对不同的搜索引擎官方的帮助来进行不同的单独设置。
Robots.txt可以声明网站地图。
Robots.txt除了有限的,限制,搜索引擎,抓取的功能外,还可以声明网站地图的位置,这其实是,谷歌支持的一个功能。
Sitemap:http://www.78moban.com/sitemap.xml
上面的语句你可以放在文件中的任何一个位置,谷歌都可以读取,但是可惜,百度并不,支持。因为在百度的站长平台中有专门的,sitemap提交入口。由于Robots.txt是每个搜索引擎,必然会去抓取的一个页面的特殊性,所以在里面设置一下,网站地图,对于我们网站来说是没有坏处的。
Robots meta标签使用
<meta name=”robots” content=”nofollow”>
<meta name”Baiduspider” content=”nofollow” >
<meta name=”robots” content=”noarchive”>
<meta name”Baiduspider” content=” noarchive” >
Robots.txt除了用在网站的根目录上,还可以使用mate标签。
Nofollow表示让搜索引擎抓去的时候不要将权重传递给下一级的超链接地址。noarchive是禁止显示快照的意思。也就是说当网友搜索到你的网站是只能进入到你网站浏览内容而不能通过搜索引擎的快照来浏览你网站的内容。
Robots.txt具体用途
Robots.txt被用来屏蔽不想被搜索引擎抓取的页面,但是这些不想被抓取页面,一般会有哪些呢?下面我们举个简单的例子。
多个版本的URL。当网站使用了,伪静态,以后,就不希望搜索引擎,抓取以前老版本的动态的页面时就会使用txt,屏蔽了网站内所有的动态链接。
如果和网站有大量的交叉组合查询所生成的页面,肯定有大量页面是没有内容的,对于没有页面的内容可以设置一个URL特征,然后使用txt屏蔽。
如果网站改版或者因为某种原因突然删除啦的页面,此时网站突然出现大量的链接,对于搜索引擎是非常不利的。虽然我们可以提交,磁链接,但是还不如直接在,血液里面,禁止百度对她的抓取。这样对于搜索引擎会非常的友好,当然站站长或者SEO人员最好能将此链接清理干净。
常规的不希望被搜索索引的内容,比如管理后台的,都可以使用txt进行屏蔽。
SEO人员要将思维扩展,多多思考,如何设置Robots.txt来提交给搜索引擎,提升网站的整体质量,而不让搜索引擎抓取没有价值的页面。
要不要使用Robots.txt
对于需要屏蔽屏蔽某些文件的Robots.txt是需要的,但是对于希望把内容全部开放给其搜索引擎蜘蛛的,Robots.txt就没有了意义,那还需要这个文件吗?
如果网站不设置Robots.txt,服务器会返回404状码态。也有些服务器会返回200,或者其他错误。针对404,状态满了,服务器就不需要特殊处理啦。因为搜索引擎抓取一两次没有发现这个文件,就不会在抓去了。
不同的搜索引擎对Robots.txt协议的支持并不相同。
虽然主流的搜索引擎都申明支持Robots.txt这个协议,但是对于Robots.txt这个文件中的限制语句可能会有不同的匹配解读。所以我们需要针对不同的搜索引擎官方的帮助来进行不同的单独设置。
Robots.txt可以声明网站地图。
Robots.txt除了有限的,限制,搜索引擎,抓取的功能外,还可以声明网站地图的位置,这其实是,谷歌支持的一个功能。
Sitemap:http://www.78moban.com/sitemap.xml
上面的语句你可以放在文件中的任何一个位置,谷歌都可以读取,但是可惜,百度并不,支持。因为在百度的站长平台中有专门的,sitemap提交入口。由于Robots.txt是每个搜索引擎,必然会去抓取的一个页面的特殊性,所以在里面设置一下,网站地图,对于我们网站来说是没有坏处的。
Robots meta标签使用
<meta name=”robots” content=”nofollow”>
<meta name”Baiduspider” content=”nofollow” >
<meta name=”robots” content=”noarchive”>
<meta name”Baiduspider” content=” noarchive” >
Robots.txt除了用在网站的根目录上,还可以使用mate标签。
Nofollow表示让搜索引擎抓去的时候不要将权重传递给下一级的超链接地址。noarchive是禁止显示快照的意思。也就是说当网友搜索到你的网站是只能进入到你网站浏览内容而不能通过搜索引擎的快照来浏览你网站的内容。
Robots.txt具体用途
Robots.txt被用来屏蔽不想被搜索引擎抓取的页面,但是这些不想被抓取页面,一般会有哪些呢?下面我们举个简单的例子。
多个版本的URL。当网站使用了,伪静态,以后,就不希望搜索引擎,抓取以前老版本的动态的页面时就会使用txt,屏蔽了网站内所有的动态链接。
如果和网站有大量的交叉组合查询所生成的页面,肯定有大量页面是没有内容的,对于没有页面的内容可以设置一个URL特征,然后使用txt屏蔽。
如果网站改版或者因为某种原因突然删除啦的页面,此时网站突然出现大量的链接,对于搜索引擎是非常不利的。虽然我们可以提交,磁链接,但是还不如直接在,血液里面,禁止百度对她的抓取。这样对于搜索引擎会非常的友好,当然站站长或者SEO人员最好能将此链接清理干净。
常规的不希望被搜索索引的内容,比如管理后台的,都可以使用txt进行屏蔽。
SEO人员要将思维扩展,多多思考,如何设置Robots.txt来提交给搜索引擎,提升网站的整体质量,而不让搜索引擎抓取没有价值的页面。
新闻资讯 更多