搜索引擎的工作原理(互补篇)

搜索引擎的工作原理简介

一、爬行和抓取:

蜘蛛访问任何一个网站时,都会最先访问网站根目录下的robots.txt文件。搜索引擎其实就和用户浏览网页一样,发出页面访问请求后,服务器返回HTML代码,然后后存入数据库。

二、跟踪链接

最简单的爬行遍历策略分为“深度优先”和“广度优先”。简单的来说,深度优先就是先顺着第一个链接抓取页面,知道找不到有效链接才返回上次一层继续抓取下一个链接;广度优先指首先遍历整个页面的链接,然后在依次遍历下一层链接。假如还是不理解,希望下面的图能让你有新的认知。

深度优先遍历(深度优先遍历)

广度优先遍历(广度优先遍历)

三、吸引蜘蛛

理论蜘蛛是可以抓取所有页面,但实际上是不可能抓取,也不会抓取,因为每天都有亿量级别的网页生成,也不可能抓取得了那么多。所以它只会抓取重要的网页。那么它会抓取哪些重要的网页呢?

①网站和页面权重高的:这种抓取页面也会比较深,内页也很容易被收录。

②页面更新度:更新频繁的页面蜘蛛会很快跟踪,也会经常来这个页面抓取。

③导入链接:要被蜘蛛抓取,必须有导入链接进入页面,否则蜘蛛不会知道页面存在。

④首页点击距离:离首页点击距离越近,页面权重越高,被抓取的机会也会更大。

四、地址库

一般情况下,搜索引擎会把抓取来的链接放在一个地址库里面,然后等待抓取。当有搜索蜘蛛爬取了以后,就会把网址从地址库里面删除掉;这也就是为什么我们看到有蜘蛛来过我们的页面但是没有迟迟没有被检索收录,或许还在地址库里面。其次,我们向百度平台或者搜狗平台提交的网址也是放到了地址库里面。

五、文件储存

蜘蛛爬取后的内容,存储到数据库里面

六、爬行时的复制内容检测

因为后台检索、分词、索引工作量都会特别多,为了保证一些重复性的东西影响工作质量,搜索引擎会在爬行的时候就会检测是否有完全相同的内容,这期间它会舍弃掉一些“的”、“地”、“得”一点无关的词,然后进行内容检索。

之前我也写过搜索引擎的工作原理,但是感觉有些东西还是有遗漏,所以今天看书的时候做了笔记,以防忘记时还能拿出来看一看。同时,也希望看到这些东西的小伙伴,不要忘记学习。现在互联网上很多分享SEO教程的大多是浅显的东西,或许有些站长自己还未理解就写出来了,这样导致了我们看了以后只知道要这么做,而不知道为什么要这样做。这里我建议大家还是去找一本书,从头到尾的看一遍,或许我们对SEO又会有了一层新的认识。

陈健的个人博客,记录生活所见所感、学习笔记。专注于Web前端_SEO教程_读书心得。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

返回主页看更多
狠狠的抽打博主 支付宝 扫一扫