解读百度站长学院中的《搜索引擎工作原理》之抓取篇

[复制链接]
作者: 三木 | 时间: 2021-4-2 18:28:32 |
0 358

发表于 2021-4-2 18:28:32

百度很久以前就看到了官方公布的搜索引擎工作原理。最近修改了百度站长平台,将原来的信息改为站长学院,其中更新了搜索引擎的工作原理。

今天再看一遍,发现还有很多值得思考的地方。我将摘录一些我更感兴趣的段落,大致阅读一下。(大卫亚设,北上广深)。

一,抓取篇

Spider捕获系统包括链接存储系统、链接选择系统、DNS分析服务系统、捕获调度系统、Web分析系统、链接提取系统、链接分析系统、Web存储系统等。

蜘蛛从链接库中选择链接,捕获与链接相对应的页面,将网页存储在web库中,提取捕获页面上的链接,将这些链接与链接库进行比较,合并重复的链接,并创建新的链接存储库。其中,抓取页面时,对页面进行简单分析,过滤掉垃圾页面。这是一个不断循环的过程。

Baiduspider根据上面提到的站点设置的协议捕获站点页面,但不能平等处理所有站点。综合考虑站点的实际情况,确定捕获配额,每天定量捕获站点内容。也就是我们常说的捕捉频率。那么百度搜索引擎根据什么指标来确定一个网站的捕获频率呢?主要指标有四个。

1、网站更新频率:直接影响更新速度快、更新速度慢、访问Baiduspider的频率

2.网站更新质量:更新频率提高。只是引起了Baiduspier的注意。百度百科对质量有严格的要求。如果每天更新的大量内容被Baiduspider判定为低质量页面,则仍然没有意义。

3、连接图:网站要安全稳定,对Baiduspider要顺畅,经常给Baiduspider文前博带不是好事

4.网站评价:百度搜索引擎对每个网站都有评价,该评价根据网站情况不断变化。百度搜索引擎对网站的基础分数(不是外部说的百度权重),是百度内部非常机密的数据。网站等级不独立使用,与其他因素和阈值一起影响网站的收集和排序。

在您的网站上,如果新更新的句子Baidu缓慢或不包含在内,则可以从上述四个方面找到原因。影响最大的是更新频率。也就是说,我们经常要学会养蜘蛛。更新频率不仅意味着更新量,还要注意每日更新班次的差异不要太大。另外,还要注意网站访问是稳定的。开放速度太慢或不打开会影响包含问题。

Baiduspider抓住了多少页并不重要。重要的是,索引了多少页,也就是我们常说的“构建数据库”。(阿尔伯特爱因斯坦,Northern  Exposure(美国电视连续剧),)众所周知,搜索引擎的索引库是分层的,优质的网页被分配给重要的索引库,普通网页保留在普通库中,更糟糕的网页被分配给较低级的库。目前,60%的搜索要求只需调用重要的索引库即可满足。这解释了为什么一些网站的量非常高的流量总是不理想。(威廉莎士比亚,Northern  Exposure(美国电视剧),搜索)。

在我看来,这三个等级的索引库也是相互转换的。例如,普通库的页面将升级为优质库,很多新站或可信度较低的站点将很难将新发布的页面直接进入优质库。但是,如果以后通过用户检查搜索大量外部链导入,则可以转换为优质库。

哪些网页可以进入优质索引库呢。其实总的原则就是一个:对用户的价值。

这包括但不限于:

1、具有时效性和价值的页面:其中时效性和价值是并行关系不可缺少的。一些网站为了制作时效性内容页面做了大量的采集工作,制作了一堆无用的页面,百度不愿意看到。

2.内容好的主题页面:主题页面的内容并不完全具有独创性。也就是说,可以很好地整合各方面的内容,或者添加观点和评论等新鲜内容,为用户提供更丰富、更全面的内容。

3、高价值原创内容页面:百度以一定的成本、大量的经验积累提取后形成的文章。不要再问我们伪原创是不是原创

4、重要个人主页:请在这里举一个例子。科比在新浪微博开设了账户。虽然不需要经常更新,但对百度来说仍然是非常重要的一页。(大卫亚设,北方执行部队。)

这里面的时效性、价值、统合、费用、独立性,特别是里面的费用,没有复制粘贴的费用,没有标题党的费用,所以即使你不是原创的,你也要让人们觉得你的文章费用是用很多时间费用或者金钱费用制作的。(大卫亚设,Northern  Exposure(美国电视剧),)上面百度说的四点中,不包括权威,但权威也是一个非常重要的因素。同样的句子,复制大炮毛,复制小站长,其水平不同。

哪些网页无法建入索引库

上述优质网站进入索引仓库,事实上,网上大部分网站没有被百度收录。不是百度没有发现他们,而是建图书馆前的审查环节被过滤掉了。那么,在早期阶段过滤了哪些网页呢?

1.重复内容的主页:网络上已有的内容,百度不一定要重新收录。

2、正文内容空白,短主页

1)部分内容使用百度spider无法解释的技术(如JS、AJAX等),用户访问时可以看到丰富的内容,但会被搜索引擎抛弃。

2)加载速度太慢的网页也可能被视为空白的短页面。广告加载时间是在网页的总加载时间内计算的。

3)很多主体不显眼的网站即使被抓住,也会被抛弃在这一部分。

3、部分作弊网页

了解搜索引擎的工作原理对从事SEO至关重要。有时不必刻意研究如何获得好的排名。只要站在搜索引擎的角度理解基本工作原理,让整个捕获和排序系统开发,你会怎么办?改变主意后,不要再考虑站长的利益,要多想想搜索用户喜欢什么,他们想要什么。约翰肯尼迪。
回复 论坛版权

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回列表 返回顶部