浅谈搜索引擎工作原理

时间:2021-04-10 09:00:18

做为网页开发者,仅仅会编写代码完成业务功能是远远不够的,你做的网站最后需要搜索引擎这个公共入口来呈现给用户。所以搜索引擎优化是及其重要的,而要了解如何优化自己的网站从而适应搜索引擎,我们需要先了解搜索引擎的基本工作原理。

搜索引擎的工作原理都是类似的,大致分为四个步骤:
1. 页面收录
2. 页面分析
3. 页面排序
4. 响应关键字查询


页面收录

一个网站想要被收录到百度引擎中,就需要加入到搜索引擎的域名列表。有两种方式加入其中:
1. 利用搜索引擎提供的网站登录入口
2. 通过与外部建立连接关系

浅谈搜索引擎工作原理
百度通过百度蜘蛛来抓取它数据库中没有的url。这里说的百度蜘蛛,其实就是搜索引擎的一个自动应用程序。百度蜘蛛通过一定的规律比如深度优先、宽度优先、权重优先等,来对各个网站进行抓取。
可以通过site:来查看
浅谈搜索引擎工作原理


页面分析

页面被收录之后,搜索引擎就要分析页面中的关键字放入关键词列表,通过一个特定的关键词就可以找到一个或者多个页面。
蜘蛛抓取到的页面与我们在浏览器中查看的源码是一样的,通常代码杂乱无章,而且其中还有很多与页面主要内容无关的。这时搜索引擎需要做三件事情来进一步分析:
1. 代码去噪
去除掉网页中所有的代码,仅剩下文本文字。
2. 去除非正文关键词
去除页面上的导航栏以及其他不同页面共享的公共区域的关键词。
3. 去除停用词
停用词是指没有具体意义的词汇,例如“的”“在”等。

最后搜索引擎通过网页的关键词后,利用自身的分词系统,将此文分成一个分词列表,然后存储在数据库中,并与此文的url进行一一对应。
浅谈搜索引擎工作原理


页面排序

页面排序取决于页面的权重,权重取决于三个方面:
1. 相关性
2. 链接权重
3. 用户行为

相关性

相关性等于匹配度密度位置标签的作用之和。

匹配度最重要的就是title标签中需要含有搜索的内容。
比如搜索饶雪漫:
浅谈搜索引擎工作原理
就需要让饶雪漫这个词出现在title中。

密度就是搜索的关键词在页面中出现的次数。密度建议值在2%到8%之间。可以用相关工具检测:
密度检测
浅谈搜索引擎工作原理
位置就是搜索的词出现的位置,越靠前,权重越大。

标签就是搜索的词加粗,变红。

链接权重

链接权重分为内链外链
内链就是未跨域的页面,本域名的页面。
外链就是跨域的页面,跳到外部页面。
内链和外链都是越多越好。

用户行为

用户行为分为点击数量停留时间
都是越多越好。


响应关键词查询

用户输入需要查询的字符串,百度搜索进行切词后进行分析。对于查询量较多的20%的关键词,百度会建立缓冲并定期更新,所以我们通过百度搜索某些关键词时会很快。
浅谈搜索引擎工作原理