1 抓取和收录的区别就是,我们两人见了面,这叫抓取,我把你的手机号存了下来叫收录。可以抓取,但不一定收录;如果收录那么前面一定有抓取。
2 其实只要设置了最后的禁止,前面就可以不用设置了。这个具体要看百度的搜索部分为什么要这么加了,目前我只能猜想是,最早没有最后一条所有禁止,只是禁止了主流搜索引擎的抓取,后来从自己的日志看到,百度很多内容被非主流小众搜索引擎抓取,但是你不可能一个一个小众搜索引擎去加禁止,最后只能加上禁止所有了
百度收录和有没有禁止收录的TXT文件是两件事,百度收录这个量是受多方面原因影响的,不是我们可以完全控制的
网站没有禁止收录的TXT文件是因为网站没有禁止任何搜索引擎抓取内容
有txt的文件,只不过从后台设置,普通用户是没有访问权限的,所以就导致看不到或者搜索不到
老师,我看到2个问题回答有些不一致;不知道是不是我理解错误了
这里说出现收录了,一定是在用户搜索结果中
而这里却说,内容没有索引但收录;却不能出现在用户搜索结果里。
非常感谢你纠正一个错误。请以第一个为准,2017年回答是正确的。回答第二个的时候,我当时把收录误理解为“抓取”过程来解释了。
重新解释一遍抓取、索引、收录之间的关系,首先三者的先后顺序为:抓取——索引——收录。抓取是把网页内容爬行后,网页内容存储在搜索引擎数据库上。接着对网页内容一系列处理之后,建立数据库索引,便于以后搜索的时候可以找到。最后这个网页内容到底是否展示在用户的搜索结果中呢?比如内容违禁、作弊网站被惩罚、内容违法等,那么这条索引不会被设置为显示在搜索结果中,因此算作没有收录。如果允许显示,那么算作收录。
老师请问索引和收录的区别是什么呢
首先,给同学说一声抱歉,上次回答的时候,误把“收录”当做“抓取”来解释的。所以重新回答下问题:
可以简单理解,索引量多于收录量。爬虫抓取页面内容,把这些内容存在搜索引擎的服务器上并建立索引,不等于已经收录,比如有些页面网站作弊被惩罚,那么这些索引仅仅表示页面被爬取过,内容存储了,但是不会出现在搜索结果中。出现在搜索结果中的,才是被收录的。
老师,我的公司目前有在知乎上有一条负面的问题回答,领导想要靠单纯的文章数量在百度搜索结果里面把排名压下去,我认为这不是个好方法,在SEO的层面上看的话,有没有什么好的办法?
负面回答,提高数量是一方面,另外提高质量的回答或者文章才有可能让负面回答靠后。但如果负面回答和用户常搜索的关键词比较吻合,那么短期来看还是容易排在前面。可以尝试联系回答者看是否能够解决问题,修改答案,这样这个内容修改了,之后收录更新之后,就好了。
老师,请问有哪些方法可以查看网站有没有加robots或者meta标签呢?
直接访问网站的根目录robots.txt,如www.abc.com/robots.txt。
如果看meta标签,那么可以通过查看首页等想查看的页面,审查元素,看html代码中含有的meta信息
老师好。1. robots.txt是不是每个网站必须的,因为它是蜘蛛最先爬行的文件? 2. 我用wordpress做的网站,是自带robots.txt这个文件的,不需要我自己做是吧? 3. 请老师看下,我网站的robots.txt 文件是否有问题: http://www.kensabo.com.cn/robots.txt
1 不是必须的。
2 不需要自己做。如果需要修改调整,可以安装robots的插件
3 一般指明禁止哪些,disallow即可,最后一句allow一个ajax.php这个有问题,对于爬虫这个请求没意义且仅允许爬取这个链接么?最偷懒的办法,暂时可以先把这一句去掉
1 可以在插件市场搜索robots的插件,可以修改里面的内容。
2 暴力一点的办法,本地通过文件夹或者服务器通过ftp访问目录找到这个robots文件,然后修改保存
Allow: /wp-admin/admin-ajax.php
Allow: /wp-includes/js/
删除掉这两个就行,或者偷懒点不删除也行,只不过这两个allow没什么意义
其实没什么影响,就是无意义的,删不删都可以
老师,我觉得不要索引本页面的结果就是不显示快照啊,有什么区别呢?
不索引页面,那么根本不会被收录也不会出现在搜索引擎的搜索结果中,都不会显示出来就更别提什么百度快照了。
不显示快照,仅仅表示不显示快照,页面被收录出现在搜索结果中的时候只不过没有百度快照的入口。
从范围上来讲,不索引包含了不显示快照。不索引一定不显示快照,不显示快照不一定不索引
基础知识掌握了就多准备面试问题和面试技巧,要具备实战经验可以通过自己的项目来练习提高,但是往往很多人没有自己的项目或者去新弄一个项目去实践seo,基本很难看出成效,所以最好的就是能通过面试拿到seo相关工作,退一步能拿到一个实习offer也可以,就可以开始积累这方面的经验了
可能没放,也可能放了但是禁止人为访问
不会
http://www.nuanshi100.com/course/474/play 这节课会告诉你答案,指明页面关键词
请说出哪里不明白,哪里需要解释。否则我不知道怎么解释,从何说起
可以这样查http://www.baidu.com/robots.txt
那怎么查meta呢?
在你要看的页面,点击鼠标右键,选择“检查”或者“审查元素”,就会看到页面的html代码,然后使用ctrl+f 查找meta标签即可
可以这么理解,但是注意robots针对整个超市,而meta针对某个商品
对的,禁止爬虫抓取仅仅针对爬虫,不影响人的使用,所以别人进入你的主页,依然可以看到那个链接目录
知乎下面disallow只是指出了罗列出的路径禁止爬取,没有列出的就可以爬取,所以知乎禁止所有的爬虫的理解是错误的。如果禁止所有爬取,那么你在百度怎么能搜索到知乎的内容呢?
由于知乎内容量多,爬虫对知乎的爬取量大且频次高,一方面频度没必要非常高,另一方面大量高频次爬取也是服务器的负担,那么Crawl-delay: 10表示设定爬虫两次爬取的至少要相隔10秒。
如果是不希望访问的,那么一般禁止抓取就行。如果仅仅不希望呈现在搜索结果中,那么可以使用不允许被索引。
比如网站部分页面内容没有完善,但是爬虫从首页来到了这个页面,那么爬虫你可以爬,但是别索引,我还没完善好,不希望出现在用户的搜索结果中,那么我就加noindex,等到之后完善了,我可以去掉noindex
这个不应该,视频走的资源都是一样的,我向服务商反馈下。稍安勿躁
可以简单理解,索引量多于收录量。爬虫抓取页面内容,把这些内容存在搜索引擎的服务器上并建立索引,不等于已经收录,比如有些页面网站作弊被惩罚,那么这些索引仅仅表示页面被爬取过,内容存储了,但是不会出现在搜索结果中。出现在搜索结果中的,才是被收录的。
对,先索引再收录。说到底,索引是搜索引擎里处理数据的行为。对于人来说,更关心手否收录,收录是一个结果。
关闭http访问,再观察看情况,一般情况有https优先收录, 另外可以在百度站长工具里再次提交下链接, 带https的
允许百度爬取article;oshtml;wenzhang ,不允许爬取product
这个是网站地图,为了方便搜索引擎更清楚的了解你的网站结构。
不想让搜索引擎收录某些内容怎么办?本节课告诉你两种方法让搜索引擎禁止收录你的内容
1 抓取和收录的区别就是,我们两人见了面,这叫抓取,我把你的手机号存了下来叫收录。可以抓取,但不一定收录;如果收录那么前面一定有抓取。
2 其实只要设置了最后的禁止,前面就可以不用设置了。这个具体要看百度的搜索部分为什么要这么加了,目前我只能猜想是,最早没有最后一条所有禁止,只是禁止了主流搜索引擎的抓取,后来从自己的日志看到,百度很多内容被非主流小众搜索引擎抓取,但是你不可能一个一个小众搜索引擎去加禁止,最后只能加上禁止所有了
百度收录和有没有禁止收录的TXT文件是两件事,百度收录这个量是受多方面原因影响的,不是我们可以完全控制的
网站没有禁止收录的TXT文件是因为网站没有禁止任何搜索引擎抓取内容
有txt的文件,只不过从后台设置,普通用户是没有访问权限的,所以就导致看不到或者搜索不到
老师,我看到2个问题回答有些不一致;不知道是不是我理解错误了
这里说出现收录了,一定是在用户搜索结果中
而这里却说,内容没有索引但收录;却不能出现在用户搜索结果里。
非常感谢你纠正一个错误。请以第一个为准,2017年回答是正确的。回答第二个的时候,我当时把收录误理解为“抓取”过程来解释了。
重新解释一遍抓取、索引、收录之间的关系,首先三者的先后顺序为:抓取——索引——收录。抓取是把网页内容爬行后,网页内容存储在搜索引擎数据库上。接着对网页内容一系列处理之后,建立数据库索引,便于以后搜索的时候可以找到。最后这个网页内容到底是否展示在用户的搜索结果中呢?比如内容违禁、作弊网站被惩罚、内容违法等,那么这条索引不会被设置为显示在搜索结果中,因此算作没有收录。如果允许显示,那么算作收录。
老师请问索引和收录的区别是什么呢
首先,给同学说一声抱歉,上次回答的时候,误把“收录”当做“抓取”来解释的。所以重新回答下问题:
可以简单理解,索引量多于收录量。爬虫抓取页面内容,把这些内容存在搜索引擎的服务器上并建立索引,不等于已经收录,比如有些页面网站作弊被惩罚,那么这些索引仅仅表示页面被爬取过,内容存储了,但是不会出现在搜索结果中。出现在搜索结果中的,才是被收录的。
老师,我的公司目前有在知乎上有一条负面的问题回答,领导想要靠单纯的文章数量在百度搜索结果里面把排名压下去,我认为这不是个好方法,在SEO的层面上看的话,有没有什么好的办法?
负面回答,提高数量是一方面,另外提高质量的回答或者文章才有可能让负面回答靠后。但如果负面回答和用户常搜索的关键词比较吻合,那么短期来看还是容易排在前面。可以尝试联系回答者看是否能够解决问题,修改答案,这样这个内容修改了,之后收录更新之后,就好了。
老师,请问有哪些方法可以查看网站有没有加robots或者meta标签呢?
直接访问网站的根目录robots.txt,如www.abc.com/robots.txt。
如果看meta标签,那么可以通过查看首页等想查看的页面,审查元素,看html代码中含有的meta信息
老师好。1. robots.txt是不是每个网站必须的,因为它是蜘蛛最先爬行的文件? 2. 我用wordpress做的网站,是自带robots.txt这个文件的,不需要我自己做是吧? 3. 请老师看下,我网站的robots.txt 文件是否有问题: http://www.kensabo.com.cn/robots.txt
1 不是必须的。
2 不需要自己做。如果需要修改调整,可以安装robots的插件
3 一般指明禁止哪些,disallow即可,最后一句allow一个ajax.php这个有问题,对于爬虫这个请求没意义且仅允许爬取这个链接么?最偷懒的办法,暂时可以先把这一句去掉
1 可以在插件市场搜索robots的插件,可以修改里面的内容。
2 暴力一点的办法,本地通过文件夹或者服务器通过ftp访问目录找到这个robots文件,然后修改保存
Allow: /wp-admin/admin-ajax.php
Allow: /wp-includes/js/
删除掉这两个就行,或者偷懒点不删除也行,只不过这两个allow没什么意义
其实没什么影响,就是无意义的,删不删都可以
老师,我觉得不要索引本页面的结果就是不显示快照啊,有什么区别呢?
不索引页面,那么根本不会被收录也不会出现在搜索引擎的搜索结果中,都不会显示出来就更别提什么百度快照了。
不显示快照,仅仅表示不显示快照,页面被收录出现在搜索结果中的时候只不过没有百度快照的入口。
从范围上来讲,不索引包含了不显示快照。不索引一定不显示快照,不显示快照不一定不索引
基础知识掌握了就多准备面试问题和面试技巧,要具备实战经验可以通过自己的项目来练习提高,但是往往很多人没有自己的项目或者去新弄一个项目去实践seo,基本很难看出成效,所以最好的就是能通过面试拿到seo相关工作,退一步能拿到一个实习offer也可以,就可以开始积累这方面的经验了
可能没放,也可能放了但是禁止人为访问
http://www.nuanshi100.com/course/474/play 这节课会告诉你答案,指明页面关键词
请说出哪里不明白,哪里需要解释。否则我不知道怎么解释,从何说起
可以这样查http://www.baidu.com/robots.txt
那怎么查meta呢?
在你要看的页面,点击鼠标右键,选择“检查”或者“审查元素”,就会看到页面的html代码,然后使用ctrl+f 查找meta标签即可
可以这么理解,但是注意robots针对整个超市,而meta针对某个商品
对的,禁止爬虫抓取仅仅针对爬虫,不影响人的使用,所以别人进入你的主页,依然可以看到那个链接目录
知乎下面disallow只是指出了罗列出的路径禁止爬取,没有列出的就可以爬取,所以知乎禁止所有的爬虫的理解是错误的。如果禁止所有爬取,那么你在百度怎么能搜索到知乎的内容呢?
由于知乎内容量多,爬虫对知乎的爬取量大且频次高,一方面频度没必要非常高,另一方面大量高频次爬取也是服务器的负担,那么Crawl-delay: 10表示设定爬虫两次爬取的至少要相隔10秒。
如果是不希望访问的,那么一般禁止抓取就行。如果仅仅不希望呈现在搜索结果中,那么可以使用不允许被索引。
比如网站部分页面内容没有完善,但是爬虫从首页来到了这个页面,那么爬虫你可以爬,但是别索引,我还没完善好,不希望出现在用户的搜索结果中,那么我就加noindex,等到之后完善了,我可以去掉noindex
这个不应该,视频走的资源都是一样的,我向服务商反馈下。稍安勿躁
可以简单理解,索引量多于收录量。爬虫抓取页面内容,把这些内容存在搜索引擎的服务器上并建立索引,不等于已经收录,比如有些页面网站作弊被惩罚,那么这些索引仅仅表示页面被爬取过,内容存储了,但是不会出现在搜索结果中。出现在搜索结果中的,才是被收录的。
对,先索引再收录。说到底,索引是搜索引擎里处理数据的行为。对于人来说,更关心手否收录,收录是一个结果。
关闭http访问,再观察看情况,一般情况有https优先收录, 另外可以在百度站长工具里再次提交下链接, 带https的
允许百度爬取article;oshtml;wenzhang ,不允许爬取product
这个是网站地图,为了方便搜索引擎更清楚的了解你的网站结构。