robots.txt书写错误导致的严重后果

robots介绍

就是一个网站根目录的txt文本，需要自己建立的，目的就是告诉搜索引擎哪些页面可以抓取，哪些页面不准抓取。

事情的起因就是我建立了这个东西，下面就是我写的东西。

User-agent: *
Disallow: /a*/这个是不准抓的链接
Disallow:/install/这个是不准抓的链接
sitemap:https://zezeshe.com/sitemap.xml

错就错在这个声明上了Disallow: /a*/，这个就是禁止http://zezeshe.com/a带有这样格式的链接，而我的文章格式是https://blog.zezeshe.com/archives/demo.html这样的，因为每篇文章链接都含有http://zezeshe.com/a，所以搜索引擎完全没有抓取我的文章。（容我哭一下）

创建robots.txt本身是优化收录的，结果我这么一写反而起了超级大的反效果，哭。

之前怀疑过https导致收录过慢，也怀疑过我自己修改文章链接格式导致的原因，现在我发现我错了，最大的原因居然是这个不起眼的txt文件。

robots文件写法

User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/　这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图

#seo #robots

版权属于：泽泽社长

本文链接：https://blog.zezeshe.com/archives/robots.html

本站未注明转载的文章均为原创，并采用 CC BY-NC-SA 4.0 授权协议，转载请注明来源，谢谢！

模式选择

电脑端布局

配色

华桑电子

我的改好了半个月了，还没恢复收录，好慌，咋办

2020年12月01日
1. 泽泽社长
  
  @华桑电子
  如果你也向我这样的话就没啥好方法，等就完事了
  
  2020年12月01日
learn

唉~我的站点要是有这样的收录就好喽

2020年05月12日
1. 泽泽社长
  
  @learn
  没事别在我这评论了，天天都是你的抱怨评论
  
  2020年05月12日
  1. learn
    
    @泽泽社长
    这么嫌弃的嘛
    
    2020年05月12日
    1. 泽泽社长
      
      @learn
      天天看负能量能不烦吗
      
      2020年05月12日
      1. learn
        
        @泽泽社长
        你天天守着站点吗？怎么回复这么快
        
        2020年05月12日
        
        泽泽社长
        
        @learn
        有邮件提醒啊，要是没有就不烦了，因为压根看不到
        
        2020年05月12日
Shana

之前试过Disallow: /*/ 233333333

2017年02月24日
1. 泽泽社长
  
  @Shana
  我的只是文章收录全无，收录的就是首页和分类页还有标签页，甚至谷歌丧心病狂的收录了页码页
  
  2017年02月25日
2. Shana
  
  @Shana
  收录全无，Google+Baidu 全没了233
  
  2017年02月25日
3. 泽泽社长
  
  @Shana
  那你比我还惨
  
  2017年02月25日
王忘杰

qqdie.com的站点信息
备案方：暂无数据
该网站共有 345 个网页被百度收录

2016年10月23日
1. 泽泽社长
  
  @王忘杰
  收录的都是标签页和分类页，没有文章页面，还有些死链
  
  2016年10月23日
⑨BIE

真是一个北上的故事23333然而我的博客貌似因为涉嫌有不和谐内容导致百度收入十分慢hhhhhh

2016年10月23日
1. 王忘杰
  
  @⑨BIE
  你的黄站呢
  
  2016年10月23日
2. ⑨BIE
  
  @⑨BIE
  好麻烦_(:з)∠)_。。。我倒是对收入不会太在意。反而还不希望太多人访问2333
  
  2016年10月23日
3. 泽泽社长
  
  @⑨BIE
  试试主动提交呢，我发现必应搜索主动提交收录特别快，虽然每天最多提交十个链接
  
  2016年10月23日
友人C

这篇文章可以结合这篇文章《高产的我为何收录如此之差》一起食用#[狗]

2016年10月23日
1. 泽泽社长
  
  @友人C
  这是一个伤心的故事
  
  2016年10月23日
临时工阿k

百度有自动推送的代码，你这个写在要主动推送的页面上就自动推了。。。何必折腾这个不安全的。。

2016年10月22日
1. 临时工阿k
  
  @临时工阿k
  和百度交易下，
  
  2016年10月23日
2. 泽泽社长
  
  @临时工阿k
  没事这个改好了也就没事了！也就可怜可我过去的那些篇文章了
  
  2016年10月23日
Asuhe

有robots会暴露一些隐私内容，比如我就看到了你的后台地址......

2016年10月22日
1. 泽泽社长
  
  @Asuhe
  是啊，所以我要现在要改下，刚才网站被打死了ಥ_ಥ
  
  2016年10月22日
CAISIDUO

默哀4秒(╯°口°)╯(┴—┴ 3+1s

2016年10月22日
1. 泽泽社长
  
  @CAISIDUO
  已经改好了，不知道能不能补录
  
  2016年10月22日
威客兼职

收录博客是个大事啊！

2016年10月22日
1. 泽泽社长
  
  @威客兼职
  格式改好了！这篇文章已经被百度收录了#[狗]
  
  2016年10月22日

robots.txt书写错误导致的严重后果

robots介绍

robots文件写法

标签

模式选择

电脑端布局

配色

登录 / 登出