搜索引擎的工作原理
文章出自:西安同成网络
更新日期: 2022-04-12
搜索引擎工作过程大致可以分为三个阶段:
1.爬行和抓取:
搜索引擎蜘蛛通过跟踪链接发现和访问网页,读取页面HTML代码,存入数据库。
2.预处理:
索引程序对蜘蛛抓取来的页面数据进行文字提取,中文分词、索引、倒排、索引处理等。以备排名调用
3.排名:
当有用户输入查询词后。排名程序调用索引数据,计算相关性,然后按一定的格式生成搜索结果页面。
接下来我们详细的介绍一下
一、爬行和抓取
1.搜索引擎用来获取页面和访问页面的程序被称之为蜘蛛。蜘蛛向程序发出页面访问请求,服务器返回HTML代码。蜘蛛程序把收到的代码存入原始页面数据库。
2.跟踪链接,为了尽可能多的抓取网上的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬行到另一个页面。
蜘蛛爬行策略大致分为两种:深度优先、广度优先。
所谓的深度优先指蜘蛛沿着一个页面不停向前爬行,直到前面没有链接后停止。
广度优先是指在一个页面发现很多链接时,不是直接去爬行发现的链接页面。而是先把当前页面下所有链接收录完成,跟着再去爬行发现的链接页面。
3.吸引蜘蛛:
蜘蛛理论上是会爬行完所有页面,但是实际上不是。搜索引擎也不会这么做,seo优化人员要做的事情是让蜘蛛来抓取自己的页面。那么怎样的网站搜索引擎蜘蛛会看重呢?
(1)网站和页面权重高: 质量高的网站搜索引擎蜘蛛会去更多的收录它。
(2)页面更新度:蜘蛛每次爬行都会把页面数据存起来,如果第二次爬行发现和第一次没有变化,说明页面没有更新,蜘蛛也就没有必要经常来抓取了。
(4)与首页距离:一般来说网站上权重高的是首页,大部分外部链接也都是指向首页,蜘蛛访问最频繁的也是首页。离首页距离越近,页面权重越高。
(5)导入链接:无论是外部链接还是内部链接,页面要被搜索引擎蜘蛛抓取就必须要有导入链接进入页面。否则蜘蛛根本没有直到页面存在的机会。
(6)URL结构:页面权重是在收录后进行迭代计算后才知道的,那么前面说也页面权重高有利于收录,但是搜索引擎蜘蛛还没有爬行这个页面怎么直到它的权重呢?蜘蛛主要会预判,根据链接的长短、与首页的距离和历史数据等来判断的。
4.地址库
为了避免重复爬行,搜索引擎会建立一个地址库,记录被发现的所有链接、但还没有抓取的链接以及已经被抓取的页面。
地址库URL来源:
(1)人工录入
(2)蜘蛛抓取
(3)自动提交机制
二、预处理
1.抓取页面进行剥离代码工作,HTML代码对于搜索引擎来说是不需要要的,所以他们要先进行剥离。
2.中文分词
将剥离好的语句按词的形式进行划分,分词主要有两种方法:一是基于词典匹配,二是基于数据统计。
3.去停止词
比如用户搜索会有:的、得、地、啊、哈、呀、什么等字眼,这些对搜索引擎是无谓得。
4.消除噪音
绝大多数页面上还有一部分对页面主题没有贡献,比如版权文字、导航条、广告等。
5.去重
搜索引擎不喜欢伪原创文章,如果页面都收录,那用户搜索时会出现不同的网站同一篇文章展示,那样用户会很反感。
6.正向索引
通过以上步骤会得到以词会索引的字符串,也就是关键词集合页面。搜索引擎将页面得所有关键词进行排列统计,统一排列在页面之后。
7倒向排列
搜索引擎根据关键词,进行表格布置。将所有出现这个关键词得页面进行排布。
8.链接关系
收录一个页面搜索引擎必须直到有哪些链接指向了这个页面,这个页面又出去哪些链接。并且每一个链接得锚文本要进行统计。
9.质量判断
在预处理阶段,搜索引擎会对页面内容质量、链接质量等做出判断。
三、排名
1.搜索词处理
搜索引擎会对用户得搜索语句进行分词、去停止词、指令处理、拼词错误矫正、整合搜索触发、搜索框提示等。
2.文件匹配
搜索词进行处理后开始对搜索词进行页面匹配工作,当匹配出几十万甚至几百万词后。但是搜索引擎只显示几十个结果,这里最主要时页面权重。页面权重越高,排名越好。
3.搜索缓存
2/8定律,20%得搜索词占80%搜索量,搜索引擎不会每一次都进行处理,他会有排名缓存机制。
- 上一篇: 百度搜索引擎里面的高级指令有哪些?PREV CASE
- 下一篇: 软文营销的优势NEXT CASE