暖石网
nuanshi

首页 > 转行运营系统课 >了解禁止收录机制

了解禁止收录机制

不想让搜索引擎收录某些内容怎么办?本节课告诉你两种方法让搜索引擎禁止收录你的内容

了解禁止收录机制11分38秒
不想让搜索引擎收录某些内容怎么办?本节课告诉你两种方法让搜索引擎禁止收录你的内容
课程问答
老师,提两个问题。1.抓取和收录有什么区别?2.我看到百度先是禁止了波分引擎对部分页面的抓取,但是最后又设置了一个禁止所有引擎抓取所有页面,这是为什么呢?
牛小kk 2016-08-04 11:03

1 抓取和收录的区别就是,我们两人见了面,这叫抓取,我把你的手机号存了下来叫收录。可以抓取,但不一定收录;如果收录那么前面一定有抓取。


2 其实只要设置了最后的禁止,前面就可以不用设置了。这个具体要看百度的搜索部分为什么要这么加了,目前我只能猜想是,最早没有最后一条所有禁止,只是禁止了主流搜索引擎的抓取,后来从自己的日志看到,百度很多内容被非主流小众搜索引擎抓取,但是你不可能一个一个小众搜索引擎去加禁止,最后只能加上禁止所有了

3人觉得有帮助 有帮助
KB老师,我搜某个网站的收录情况,被百度收录的条数是28条,然后搜此网站的robots.txt文件(http://www.bmtrip.com/robots.txt),结果是“404 Not Found”,这是怎么回事?
馒头老师 2017-01-25 21:13

百度收录和有没有禁止收录的TXT文件是两件事,百度收录这个量是受多方面原因影响的,不是我们可以完全控制的

网站没有禁止收录的TXT文件是因为网站没有禁止任何搜索引擎抓取内容

南卿爵 2017-01-26 19:23
KB老师,视频课程里好像有讲到说,我们可能访问不到robots.txt,是不是有可能网站有txt文件,我们搜不到而已?
牛小kk 2017-01-27 12:47

有txt的文件,只不过从后台设置,普通用户是没有访问权限的,所以就导致看不到或者搜索不到

0人觉得有帮助 有帮助

老师,我看到2个问题回答有些不一致;不知道是不是我理解错误了1.jpg

这里说出现收录了,一定是在用户搜索结果中

2.jpg

而这里却说,内容没有索引但收录;却不能出现在用户搜索结果里。

牛小kk 2018-11-24 16:18

非常感谢你纠正一个错误。请以第一个为准,2017年回答是正确的。回答第二个的时候,我当时把收录误理解为“抓取”过程来解释了。

重新解释一遍抓取、索引、收录之间的关系,首先三者的先后顺序为:抓取——索引——收录。抓取是把网页内容爬行后,网页内容存储在搜索引擎数据库上。接着对网页内容一系列处理之后,建立数据库索引,便于以后搜索的时候可以找到。最后这个网页内容到底是否展示在用户的搜索结果中呢?比如内容违禁、作弊网站被惩罚、内容违法等,那么这条索引不会被设置为显示在搜索结果中,因此算作没有收录。如果允许显示,那么算作收录。

0人觉得有帮助 有帮助
Flume,18届毕业生 2018-11-21 23:14

老师请问索引和收录的区别是什么呢

牛小kk 2018-11-22 12:46

首先,给同学说一声抱歉,上次回答的时候,误把“收录”当做“抓取”来解释的。所以重新回答下问题:

可以简单理解,索引量多于收录量。爬虫抓取页面内容,把这些内容存在搜索引擎的服务器上并建立索引,不等于已经收录,比如有些页面网站作弊被惩罚,那么这些索引仅仅表示页面被爬取过,内容存储了,但是不会出现在搜索结果中。出现在搜索结果中的,才是被收录的。

0人觉得有帮助 有帮助

老师,我的公司目前有在知乎上有一条负面的问题回答,领导想要靠单纯的文章数量在百度搜索结果里面把排名压下去,我认为这不是个好方法,在SEO的层面上看的话,有没有什么好的办法?

牛小kk 2018-04-12 23:14

负面回答,提高数量是一方面,另外提高质量的回答或者文章才有可能让负面回答靠后。但如果负面回答和用户常搜索的关键词比较吻合,那么短期来看还是容易排在前面。可以尝试联系回答者看是否能够解决问题,修改答案,这样这个内容修改了,之后收录更新之后,就好了。

0人觉得有帮助 有帮助
希大人,就是干! 2018-01-10 10:00

老师,请问有哪些方法可以查看网站有没有加robots或者meta标签呢?

牛小kk 2018-01-12 22:31

直接访问网站的根目录robots.txt,如www.abc.com/robots.txt。

如果看meta标签,那么可以通过查看首页等想查看的页面,审查元素,看html代码中含有的meta信息

0人觉得有帮助 有帮助
Jacksir 2017-12-30 16:05

老师好。1. robots.txt是不是每个网站必须的,因为它是蜘蛛最先爬行的文件? 2. 我用wordpress做的网站,是自带robots.txt这个文件的,不需要我自己做是吧? 3. 请老师看下,我网站的robots.txt 文件是否有问题: http://www.kensabo.com.cn/robots.txt

牛小kk 2017-12-31 14:26

1 不是必须的。

2 不需要自己做。如果需要修改调整,可以安装robots的插件

3 一般指明禁止哪些,disallow即可,最后一句allow一个ajax.php这个有问题,对于爬虫这个请求没意义且仅允许爬取这个链接么?最偷懒的办法,暂时可以先把这一句去掉

Jacksir 2018-01-01 14:27
请问老师最后一句allow一个ajax.php,怎么去掉。是下载robots插件,然后删掉这个吗?
牛小kk 2018-01-02 15:11

1 可以在插件市场搜索robots的插件,可以修改里面的内容。

2 暴力一点的办法,本地通过文件夹或者服务器通过ftp访问目录找到这个robots文件,然后修改保存

Jacksir 2018-01-02 15:15
老师请看下,下面是我用robots 插件给我WP网站生成的robots文件,请问应该删掉哪行? 是整行删除吗? User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Disallow: /wp-includes/ Allow: /wp-includes/js/ Allow: /wp-includes/images/ Disallow: /trackback/ Disallow: /wp-login.php Disallow: /wp-register.php
牛小kk 2018-01-02 15:21

Allow: /wp-admin/admin-ajax.php

Allow: /wp-includes/js/

删除掉这两个就行,或者偷懒点不删除也行,只不过这两个allow没什么意义

Jacksir 2018-01-02 15:29
不删除这两行也没有影响吧?
牛小kk 2018-01-02 15:31

其实没什么影响,就是无意义的,删不删都可以

Jacksir 2018-01-02 15:32
谢谢
0人觉得有帮助 有帮助

老师,我觉得不要索引本页面的结果就是不显示快照啊,有什么区别呢?

牛小kk 2017-12-27 10:52

不索引页面,那么根本不会被收录也不会出现在搜索引擎的搜索结果中,都不会显示出来就更别提什么百度快照了。

不显示快照,仅仅表示不显示快照,页面被收录出现在搜索结果中的时候只不过没有百度快照的入口。

从范围上来讲,不索引包含了不显示快照。不索引一定不显示快照,不显示快照不一定不索引

0人觉得有帮助 有帮助
阳小丫 2017-12-08 09:45
老师,如果想要专注就职seo这份工作,在要求会基本的操作原理以及优化技术上,如何才能让自己有相关工作经验,有什么办法可以让自己真正练习吗?
牛小kk 2017-12-08 10:35

基础知识掌握了就多准备面试问题和面试技巧,要具备实战经验可以通过自己的项目来练习提高,但是往往很多人没有自己的项目或者去新弄一个项目去实践seo,基本很难看出成效,所以最好的就是能通过面试拿到seo相关工作,退一步能拿到一个实习offer也可以,就可以开始积累这方面的经验了

0人觉得有帮助 有帮助
沙渐冰峰,没有签名 2017-12-02 08:59
https://www.qiyudc.com/这个网站是没有放robots.txt文件吗?
牛小kk 2017-12-02 09:20

可能没放,也可能放了但是禁止人为访问

0人觉得有帮助 有帮助
沙渐冰峰,没有签名 2017-12-02 08:36
放一个robots.txt存放在网站根目录是不是也会利于搜索引擎抓取页面
牛小kk 2017-12-02 09:21

不会

0人觉得有帮助 有帮助
阳小丫 2017-11-27 15:45
meta name="Keywords" content="营销、广告、互联网营销、营销实操、实操、文案、数据分析"
牛小kk 2017-11-27 22:46

http://www.nuanshi100.com/course/474/play   这节课会告诉你答案,指明页面关键词

0人觉得有帮助 有帮助
阳小丫 2017-11-27 15:44
这是我在暖石页面看到的,能解释一下吗?看完课程还有点不深刻
牛小kk 2017-11-27 22:44

请说出哪里不明白,哪里需要解释。否则我不知道怎么解释,从何说起

0人觉得有帮助 有帮助

可以这样查http://www.baidu.com/robots.txt 

那怎么查meta呢?

牛小kk 2017-10-10 11:34

在你要看的页面,点击鼠标右键,选择“检查”或者“审查元素”,就会看到页面的html代码,然后使用ctrl+f 查找meta标签即可

0人觉得有帮助 有帮助
SOSSOSGOD 2017-10-03 17:53
老师,我的理解是robots.txt是针对机器人抓取的动作,menta标签是针对机器人收录的动作。用逛超市举例,robots.txt宣布本店打烊,概不接客,menta标签依然对外开放,但是你只能看,不能买。可以这样理解吗
牛小kk 2017-10-04 07:47

可以这么理解,但是注意robots针对整个超市,而meta针对某个商品

0人觉得有帮助 有帮助
小民 2017-07-02 22:44
老师,主域名下的一些链接目录应该都可以从主页中一步一步往下点击查看,那么比如我的网站有个链接目录禁止爬虫抓取,即使不可能被呈现在搜索结果中,只要别人进入我这个网站主页了,不是也能从网站上一步步点击进去看到我这个链接目录下的内容么?
牛小kk 2017-07-03 16:20

对的,禁止爬虫抓取仅仅针对爬虫,不影响人的使用,所以别人进入你的主页,依然可以看到那个链接目录

0人觉得有帮助 有帮助
老师好,我查了下知乎的【https://www.zhihu.com/robots.txt】,发现是【User-agent: *】和【Crawl-delay: 10】,然后下面全是Disallow: /。是不是知乎禁止了所有的爬虫?还有这个【Crawl-delay: 10】是什么意思呢?
牛小kk 2017-06-26 12:13

知乎下面disallow只是指出了罗列出的路径禁止爬取,没有列出的就可以爬取,所以知乎禁止所有的爬虫的理解是错误的。如果禁止所有爬取,那么你在百度怎么能搜索到知乎的内容呢?

由于知乎内容量多,爬虫对知乎的爬取量大且频次高,一方面频度没必要非常高,另一方面大量高频次爬取也是服务器的负担,那么Crawl-delay: 10表示设定爬虫两次爬取的至少要相隔10秒。

0人觉得有帮助 有帮助
KB老师,那允许被抓取页面却不被允许索引的目的是什么呢
牛小kk 2017-05-06 21:56

如果是不希望访问的,那么一般禁止抓取就行。如果仅仅不希望呈现在搜索结果中,那么可以使用不允许被索引。

比如网站部分页面内容没有完善,但是爬虫从首页来到了这个页面,那么爬虫你可以爬,但是别索引,我还没完善好,不希望出现在用户的搜索结果中,那么我就加noindex,等到之后完善了,我可以去掉noindex

0人觉得有帮助 有帮助
http://www.baidu.com/robots.txt
0人觉得有帮助 有帮助
为什么seo课程总是不怎么流畅呢,其他课不这样的。(用的是谷歌浏览器,网络环境不变)
牛小kk 2017-05-06 21:51

这个不应该,视频走的资源都是一样的,我向服务商反馈下。稍安勿躁

0人觉得有帮助 有帮助
收录和索引有什么区别呢?
牛小kk 2017-04-06 17:23

可以简单理解,索引量多于收录量。爬虫抓取页面内容,把这些内容存在搜索引擎的服务器上并建立索引,不等于已经收录,比如有些页面网站作弊被惩罚,那么这些索引仅仅表示页面被爬取过,内容存储了,但是不会出现在搜索结果中。出现在搜索结果中的,才是被收录的。

梅花烙饼 2017-04-06 20:07
我一直以为是先收录再索引,原来是先索引再收录啊
牛小kk 2017-04-07 11:22

对,先索引再收录。说到底,索引是搜索引擎里处理数据的行为。对于人来说,更关心手否收录,收录是一个结果。

0人觉得有帮助 有帮助
老师,我们的官网之前可以在百度搜索框SITE到,也可以通过搜索网站展现快照,但是最近做了https协议后,直接搜索不到了,而且权重也变成O,是不是被K了?meikemeiche.com
馒头老师 2017-02-04 21:13

 关闭http访问,再观察看情况,一般情况有https优先收录, 另外可以在百度站长工具里再次提交下链接, 带https的

0人觉得有帮助 有帮助
老师,刚看了一下淘宝的robots文件,有点不懂这个是什么意思?User-agent: Baiduspider Allow: /article Allow: /oshtml Allow: /wenzhang Disallow: /product/ Disallow: /
馒头老师 2017-01-06 17:10

允许百度爬取article;oshtml;wenzhang ,不允许爬取product

0人觉得有帮助 有帮助
renrunkeji 2016-11-17 22:32
老师,你好,我看有些网站robots文件最后加一句这个 User-agent: * Sitemap: http://www.renrunkeji.com/sitemap.xml 主要是什么用处呢?
馒头老师 2016-11-18 22:05

这个是网站地图,为了方便搜索引擎更清楚的了解你的网站结构。

0人觉得有帮助 有帮助
箫雨晗 2016-11-04 16:38
我想更改自己公司网站的robots文件需要怎么操作 还是需要技术操作
馒头老师 2016-11-04 21:42

交给程序员搞定

0人觉得有帮助 有帮助

了解禁止收录机制

不想让搜索引擎收录某些内容怎么办?本节课告诉你两种方法让搜索引擎禁止收录你的内容

< 返回课程表
展开全部
课程问答
老师,提两个问题。1.抓取和收录有什么区别?2.我看到百度先是禁止了波分引擎对部分页面的抓取,但是最后又设置了一个禁止所有引擎抓取所有页面,这是为什么呢?
牛小kk 2016-08-04 11:03

1 抓取和收录的区别就是,我们两人见了面,这叫抓取,我把你的手机号存了下来叫收录。可以抓取,但不一定收录;如果收录那么前面一定有抓取。


2 其实只要设置了最后的禁止,前面就可以不用设置了。这个具体要看百度的搜索部分为什么要这么加了,目前我只能猜想是,最早没有最后一条所有禁止,只是禁止了主流搜索引擎的抓取,后来从自己的日志看到,百度很多内容被非主流小众搜索引擎抓取,但是你不可能一个一个小众搜索引擎去加禁止,最后只能加上禁止所有了

3人觉得有帮助 有帮助
KB老师,我搜某个网站的收录情况,被百度收录的条数是28条,然后搜此网站的robots.txt文件(http://www.bmtrip.com/robots.txt),结果是“404 Not Found”,这是怎么回事?
馒头老师 2017-01-25 21:13

百度收录和有没有禁止收录的TXT文件是两件事,百度收录这个量是受多方面原因影响的,不是我们可以完全控制的

网站没有禁止收录的TXT文件是因为网站没有禁止任何搜索引擎抓取内容

南卿爵 2017-01-26 19:23
KB老师,视频课程里好像有讲到说,我们可能访问不到robots.txt,是不是有可能网站有txt文件,我们搜不到而已?
牛小kk 2017-01-27 12:47

有txt的文件,只不过从后台设置,普通用户是没有访问权限的,所以就导致看不到或者搜索不到

0人觉得有帮助 有帮助

老师,我看到2个问题回答有些不一致;不知道是不是我理解错误了1.jpg

这里说出现收录了,一定是在用户搜索结果中

2.jpg

而这里却说,内容没有索引但收录;却不能出现在用户搜索结果里。

牛小kk 2018-11-24 16:18

非常感谢你纠正一个错误。请以第一个为准,2017年回答是正确的。回答第二个的时候,我当时把收录误理解为“抓取”过程来解释了。

重新解释一遍抓取、索引、收录之间的关系,首先三者的先后顺序为:抓取——索引——收录。抓取是把网页内容爬行后,网页内容存储在搜索引擎数据库上。接着对网页内容一系列处理之后,建立数据库索引,便于以后搜索的时候可以找到。最后这个网页内容到底是否展示在用户的搜索结果中呢?比如内容违禁、作弊网站被惩罚、内容违法等,那么这条索引不会被设置为显示在搜索结果中,因此算作没有收录。如果允许显示,那么算作收录。

0人觉得有帮助 有帮助
2018-11-21 23:14

老师请问索引和收录的区别是什么呢

牛小kk 2018-11-22 12:46

首先,给同学说一声抱歉,上次回答的时候,误把“收录”当做“抓取”来解释的。所以重新回答下问题:

可以简单理解,索引量多于收录量。爬虫抓取页面内容,把这些内容存在搜索引擎的服务器上并建立索引,不等于已经收录,比如有些页面网站作弊被惩罚,那么这些索引仅仅表示页面被爬取过,内容存储了,但是不会出现在搜索结果中。出现在搜索结果中的,才是被收录的。

0人觉得有帮助 有帮助

老师,我的公司目前有在知乎上有一条负面的问题回答,领导想要靠单纯的文章数量在百度搜索结果里面把排名压下去,我认为这不是个好方法,在SEO的层面上看的话,有没有什么好的办法?

牛小kk 2018-04-12 23:14

负面回答,提高数量是一方面,另外提高质量的回答或者文章才有可能让负面回答靠后。但如果负面回答和用户常搜索的关键词比较吻合,那么短期来看还是容易排在前面。可以尝试联系回答者看是否能够解决问题,修改答案,这样这个内容修改了,之后收录更新之后,就好了。

0人觉得有帮助 有帮助
2018-01-10 10:00

老师,请问有哪些方法可以查看网站有没有加robots或者meta标签呢?

牛小kk 2018-01-12 22:31

直接访问网站的根目录robots.txt,如www.abc.com/robots.txt。

如果看meta标签,那么可以通过查看首页等想查看的页面,审查元素,看html代码中含有的meta信息

0人觉得有帮助 有帮助
2017-12-30 16:05

老师好。1. robots.txt是不是每个网站必须的,因为它是蜘蛛最先爬行的文件? 2. 我用wordpress做的网站,是自带robots.txt这个文件的,不需要我自己做是吧? 3. 请老师看下,我网站的robots.txt 文件是否有问题: http://www.kensabo.com.cn/robots.txt

牛小kk 2017-12-31 14:26

1 不是必须的。

2 不需要自己做。如果需要修改调整,可以安装robots的插件

3 一般指明禁止哪些,disallow即可,最后一句allow一个ajax.php这个有问题,对于爬虫这个请求没意义且仅允许爬取这个链接么?最偷懒的办法,暂时可以先把这一句去掉

Jacksir 2018-01-01 14:27
请问老师最后一句allow一个ajax.php,怎么去掉。是下载robots插件,然后删掉这个吗?
牛小kk 2018-01-02 15:11

1 可以在插件市场搜索robots的插件,可以修改里面的内容。

2 暴力一点的办法,本地通过文件夹或者服务器通过ftp访问目录找到这个robots文件,然后修改保存

Jacksir 2018-01-02 15:15
老师请看下,下面是我用robots 插件给我WP网站生成的robots文件,请问应该删掉哪行? 是整行删除吗? User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Disallow: /wp-includes/ Allow: /wp-includes/js/ Allow: /wp-includes/images/ Disallow: /trackback/ Disallow: /wp-login.php Disallow: /wp-register.php
牛小kk 2018-01-02 15:21

Allow: /wp-admin/admin-ajax.php

Allow: /wp-includes/js/

删除掉这两个就行,或者偷懒点不删除也行,只不过这两个allow没什么意义

Jacksir 2018-01-02 15:29
不删除这两行也没有影响吧?
牛小kk 2018-01-02 15:31

其实没什么影响,就是无意义的,删不删都可以

Jacksir 2018-01-02 15:32
谢谢
0人觉得有帮助 有帮助

老师,我觉得不要索引本页面的结果就是不显示快照啊,有什么区别呢?

牛小kk 2017-12-27 10:52

不索引页面,那么根本不会被收录也不会出现在搜索引擎的搜索结果中,都不会显示出来就更别提什么百度快照了。

不显示快照,仅仅表示不显示快照,页面被收录出现在搜索结果中的时候只不过没有百度快照的入口。

从范围上来讲,不索引包含了不显示快照。不索引一定不显示快照,不显示快照不一定不索引

0人觉得有帮助 有帮助
2017-12-08 09:45
老师,如果想要专注就职seo这份工作,在要求会基本的操作原理以及优化技术上,如何才能让自己有相关工作经验,有什么办法可以让自己真正练习吗?
牛小kk 2017-12-08 10:35

基础知识掌握了就多准备面试问题和面试技巧,要具备实战经验可以通过自己的项目来练习提高,但是往往很多人没有自己的项目或者去新弄一个项目去实践seo,基本很难看出成效,所以最好的就是能通过面试拿到seo相关工作,退一步能拿到一个实习offer也可以,就可以开始积累这方面的经验了

0人觉得有帮助 有帮助
2017-12-02 08:59
https://www.qiyudc.com/这个网站是没有放robots.txt文件吗?
牛小kk 2017-12-02 09:20

可能没放,也可能放了但是禁止人为访问

0人觉得有帮助 有帮助
2017-12-02 08:36
放一个robots.txt存放在网站根目录是不是也会利于搜索引擎抓取页面
牛小kk 2017-12-02 09:21

不会

0人觉得有帮助 有帮助
2017-11-27 15:45
meta name="Keywords" content="营销、广告、互联网营销、营销实操、实操、文案、数据分析"
牛小kk 2017-11-27 22:46

http://www.nuanshi100.com/course/474/play   这节课会告诉你答案,指明页面关键词

0人觉得有帮助 有帮助
2017-11-27 15:44
这是我在暖石页面看到的,能解释一下吗?看完课程还有点不深刻
牛小kk 2017-11-27 22:44

请说出哪里不明白,哪里需要解释。否则我不知道怎么解释,从何说起

0人觉得有帮助 有帮助

可以这样查http://www.baidu.com/robots.txt 

那怎么查meta呢?

牛小kk 2017-10-10 11:34

在你要看的页面,点击鼠标右键,选择“检查”或者“审查元素”,就会看到页面的html代码,然后使用ctrl+f 查找meta标签即可

0人觉得有帮助 有帮助
2017-10-03 17:53
老师,我的理解是robots.txt是针对机器人抓取的动作,menta标签是针对机器人收录的动作。用逛超市举例,robots.txt宣布本店打烊,概不接客,menta标签依然对外开放,但是你只能看,不能买。可以这样理解吗
牛小kk 2017-10-04 07:47

可以这么理解,但是注意robots针对整个超市,而meta针对某个商品

0人觉得有帮助 有帮助
2017-07-02 22:44
老师,主域名下的一些链接目录应该都可以从主页中一步一步往下点击查看,那么比如我的网站有个链接目录禁止爬虫抓取,即使不可能被呈现在搜索结果中,只要别人进入我这个网站主页了,不是也能从网站上一步步点击进去看到我这个链接目录下的内容么?
牛小kk 2017-07-03 16:20

对的,禁止爬虫抓取仅仅针对爬虫,不影响人的使用,所以别人进入你的主页,依然可以看到那个链接目录

0人觉得有帮助 有帮助
老师好,我查了下知乎的【https://www.zhihu.com/robots.txt】,发现是【User-agent: *】和【Crawl-delay: 10】,然后下面全是Disallow: /。是不是知乎禁止了所有的爬虫?还有这个【Crawl-delay: 10】是什么意思呢?
牛小kk 2017-06-26 12:13

知乎下面disallow只是指出了罗列出的路径禁止爬取,没有列出的就可以爬取,所以知乎禁止所有的爬虫的理解是错误的。如果禁止所有爬取,那么你在百度怎么能搜索到知乎的内容呢?

由于知乎内容量多,爬虫对知乎的爬取量大且频次高,一方面频度没必要非常高,另一方面大量高频次爬取也是服务器的负担,那么Crawl-delay: 10表示设定爬虫两次爬取的至少要相隔10秒。

0人觉得有帮助 有帮助
KB老师,那允许被抓取页面却不被允许索引的目的是什么呢
牛小kk 2017-05-06 21:56

如果是不希望访问的,那么一般禁止抓取就行。如果仅仅不希望呈现在搜索结果中,那么可以使用不允许被索引。

比如网站部分页面内容没有完善,但是爬虫从首页来到了这个页面,那么爬虫你可以爬,但是别索引,我还没完善好,不希望出现在用户的搜索结果中,那么我就加noindex,等到之后完善了,我可以去掉noindex

0人觉得有帮助 有帮助
http://www.baidu.com/robots.txt
0人觉得有帮助 有帮助
为什么seo课程总是不怎么流畅呢,其他课不这样的。(用的是谷歌浏览器,网络环境不变)
牛小kk 2017-05-06 21:51

这个不应该,视频走的资源都是一样的,我向服务商反馈下。稍安勿躁

0人觉得有帮助 有帮助
收录和索引有什么区别呢?
牛小kk 2017-04-06 17:23

可以简单理解,索引量多于收录量。爬虫抓取页面内容,把这些内容存在搜索引擎的服务器上并建立索引,不等于已经收录,比如有些页面网站作弊被惩罚,那么这些索引仅仅表示页面被爬取过,内容存储了,但是不会出现在搜索结果中。出现在搜索结果中的,才是被收录的。

梅花烙饼 2017-04-06 20:07
我一直以为是先收录再索引,原来是先索引再收录啊
牛小kk 2017-04-07 11:22

对,先索引再收录。说到底,索引是搜索引擎里处理数据的行为。对于人来说,更关心手否收录,收录是一个结果。

0人觉得有帮助 有帮助
老师,我们的官网之前可以在百度搜索框SITE到,也可以通过搜索网站展现快照,但是最近做了https协议后,直接搜索不到了,而且权重也变成O,是不是被K了?meikemeiche.com
馒头老师 2017-02-04 21:13

 关闭http访问,再观察看情况,一般情况有https优先收录, 另外可以在百度站长工具里再次提交下链接, 带https的

0人觉得有帮助 有帮助
老师,刚看了一下淘宝的robots文件,有点不懂这个是什么意思?User-agent: Baiduspider Allow: /article Allow: /oshtml Allow: /wenzhang Disallow: /product/ Disallow: /
馒头老师 2017-01-06 17:10

允许百度爬取article;oshtml;wenzhang ,不允许爬取product

0人觉得有帮助 有帮助
2016-11-17 22:32
老师,你好,我看有些网站robots文件最后加一句这个 User-agent: * Sitemap: http://www.renrunkeji.com/sitemap.xml 主要是什么用处呢?
馒头老师 2016-11-18 22:05

这个是网站地图,为了方便搜索引擎更清楚的了解你的网站结构。

0人觉得有帮助 有帮助
2016-11-04 16:38
我想更改自己公司网站的robots文件需要怎么操作 还是需要技术操作
馒头老师 2016-11-04 21:42

交给程序员搞定

0人觉得有帮助 有帮助
零基础转行系统课