搜索引擎的工作原理
文章出自：西安同成网络更新日期： 2022-04-12

搜索引擎工作过程大致可以分为三个阶段：

1.爬行和抓取：
搜索引擎蜘蛛通过跟踪链接发现和访问网页，读取页面HTML代码，存入数据库。
2.预处理：
索引程序对蜘蛛抓取来的页面数据进行文字提取，中文分词、索引、倒排、索引处理等。以备排名调用
3.排名：
当有用户输入查询词后。排名程序调用索引数据，计算相关性，然后按一定的格式生成搜索结果页面。

接下来我们详细的介绍一下

一、爬行和抓取
1.搜索引擎用来获取页面和访问页面的程序被称之为蜘蛛。蜘蛛向程序发出页面访问请求，服务器返回HTML代码。蜘蛛程序把收到的代码存入原始页面数据库。
2.跟踪链接，为了尽可能多的抓取网上的页面，搜索引擎蜘蛛会跟踪页面上的链接，从一个页面爬行到另一个页面。
蜘蛛爬行策略大致分为两种：深度优先、广度优先。
所谓的深度优先指蜘蛛沿着一个页面不停向前爬行，直到前面没有链接后停止。
广度优先是指在一个页面发现很多链接时，不是直接去爬行发现的链接页面。而是先把当前页面下所有链接收录完成，跟着再去爬行发现的链接页面。
3.吸引蜘蛛：
蜘蛛理论上是会爬行完所有页面，但是实际上不是。搜索引擎也不会这么做，seo优化人员要做的事情是让蜘蛛来抓取自己的页面。那么怎样的网站搜索引擎蜘蛛会看重呢？
（1）网站和页面权重高：质量高的网站搜索引擎蜘蛛会去更多的收录它。
（2）页面更新度：蜘蛛每次爬行都会把页面数据存起来，如果第二次爬行发现和第一次没有变化，说明页面没有更新，蜘蛛也就没有必要经常来抓取了。
（4）与首页距离：一般来说网站上权重高的是首页，大部分外部链接也都是指向首页，蜘蛛访问最频繁的也是首页。离首页距离越近，页面权重越高。
（5）导入链接：无论是外部链接还是内部链接，页面要被搜索引擎蜘蛛抓取就必须要有导入链接进入页面。否则蜘蛛根本没有直到页面存在的机会。
（6）URL结构：页面权重是在收录后进行迭代计算后才知道的，那么前面说也页面权重高有利于收录，但是搜索引擎蜘蛛还没有爬行这个页面怎么直到它的权重呢？蜘蛛主要会预判，根据链接的长短、与首页的距离和历史数据等来判断的。
4.地址库
为了避免重复爬行，搜索引擎会建立一个地址库，记录被发现的所有链接、但还没有抓取的链接以及已经被抓取的页面。
地址库URL来源：
（1）人工录入
（2）蜘蛛抓取
（3）自动提交机制

二、预处理
1.抓取页面进行剥离代码工作，HTML代码对于搜索引擎来说是不需要要的，所以他们要先进行剥离。
2.中文分词
将剥离好的语句按词的形式进行划分，分词主要有两种方法：一是基于词典匹配，二是基于数据统计。
3.去停止词
比如用户搜索会有：的、得、地、啊、哈、呀、什么等字眼，这些对搜索引擎是无谓得。
4.消除噪音
绝大多数页面上还有一部分对页面主题没有贡献，比如版权文字、导航条、广告等。
5.去重
搜索引擎不喜欢伪原创文章，如果页面都收录，那用户搜索时会出现不同的网站同一篇文章展示，那样用户会很反感。
6.正向索引
通过以上步骤会得到以词会索引的字符串，也就是关键词集合页面。搜索引擎将页面得所有关键词进行排列统计，统一排列在页面之后。
7倒向排列
搜索引擎根据关键词，进行表格布置。将所有出现这个关键词得页面进行排布。
8.链接关系
收录一个页面搜索引擎必须直到有哪些链接指向了这个页面，这个页面又出去哪些链接。并且每一个链接得锚文本要进行统计。
9.质量判断
在预处理阶段，搜索引擎会对页面内容质量、链接质量等做出判断。

三、排名
1.搜索词处理
搜索引擎会对用户得搜索语句进行分词、去停止词、指令处理、拼词错误矫正、整合搜索触发、搜索框提示等。
2.文件匹配
搜索词进行处理后开始对搜索词进行页面匹配工作，当匹配出几十万甚至几百万词后。但是搜索引擎只显示几十个结果，这里最主要时页面权重。页面权重越高，排名越好。
3.搜索缓存
2/8定律，20%得搜索词占80%搜索量，搜索引擎不会每一次都进行处理，他会有排名缓存机制。

转载请注明：http://www.xatcwl.com
西安网站建设 , 西安网站制作 , 西安网站设计 , 西安做网站 , 西安网站建设公司 , 西安网站优化 , 西安网站推广，西安网络公司 , 西安微信公众平台开发 , 微信公众平台搭建，微信公众平台营销

上一篇：百度搜索引擎里面的高级指令有哪些？PREV CASE
下一篇：软文营销的优势NEXT CASE

所属栏目：资讯知识 > 网络营销 >

搜索引擎的工作原理 文章出自：西安同成网络 更新日期： 2022-04-12

搜索引擎的工作原理
文章出自：西安同成网络更新日期： 2022-04-12