robots介绍
就是一个网站根目录的txt文本,需要自己建立的,目的就是告诉搜索引擎哪些页面可以抓取,哪些页面不准抓取。
事情的起因就是我建立了这个东西,下面就是我写的东西。
User-agent: *
Disallow: /a*/这个是不准抓的链接
Disallow:/install/这个是不准抓的链接
sitemap:https://zezeshe.com/sitemap.xml
错就错在这个声明上了Disallow: /a*/
,这个就是禁止http://zezeshe.com/a
带有这样格式的链接,而我的文章格式是https://blog.zezeshe.com/archives/demo.html
这样的,因为每篇文章链接都含有http://zezeshe.com/a
,所以搜索引擎完全没有抓取我的文章。(容我哭一下)
创建robots.txt本身是优化收录的,结果我这么一写反而起了超级大的反效果,哭。
之前怀疑过https导致收录过慢,也怀疑过我自己修改文章链接格式导致的原因,现在我发现我错了,最大的原因居然是这个不起眼的txt文件。
robots文件写法
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
版权属于:泽泽社长
本文链接:https://blog.zezeshe.com/archives/robots.html
本站未注明转载的文章均为原创,并采用
CC BY-NC-SA 4.0 授权协议,转载请注明来源,谢谢!
我的改好了半个月了,还没恢复收录,好慌,咋办
如果你也向我这样的话就没啥好方法,等就完事了
唉~我的站点要是有这样的收录就好喽
没事别在我这评论了,天天都是你的抱怨评论
天天看负能量能不烦吗
你天天守着站点吗?怎么回复这么快
有邮件提醒啊,要是没有就不烦了,因为压根看不到
之前试过Disallow: /*/ 233333333
我的只是文章收录全无,收录的就是首页和分类页还有标签页,甚至谷歌丧心病狂的收录了页码页
收录全无,Google+Baidu 全没了233
那你比我还惨
qqdie.com的站点信息
备案方:暂无数据
该网站共有 345 个网页被百度收录
收录的都是标签页和分类页,没有文章页面,还有些死链
真是一个北上的故事23333然而我的博客貌似因为涉嫌有不和谐内容导致百度收入十分慢hhhhhh
你的黄站呢
好麻烦_(:з)∠)_。。。我倒是对收入不会太在意。反而还不希望太多人访问2333
试试主动提交呢,我发现必应搜索主动提交收录特别快,虽然每天最多提交十个链接
这篇文章可以结合这篇文章《高产的我为何收录如此之差》一起食用#[狗]
这是一个伤心的故事
百度有自动推送的代码,你这个写在要主动推送的页面上就自动推了。。。何必折腾这个不安全的。。
和百度交易下,
没事这个改好了也就没事了!也就可怜可我过去的那些篇文章了
有robots会暴露一些隐私内容,比如我就看到了你的后台地址......
是啊,所以我要现在要改下,刚才网站被打死了ಥ_ಥ
默哀4秒(╯°口°)╯(┴—┴ 3+1s
已经改好了,不知道能不能补录
收录博客是个大事啊!
格式改好了!这篇文章已经被百度收录了#[狗]