上海SEO推广公司

搜索引擎是怎么工作的?用生活讲解搜索引擎工作原理

浏览:/ 2019-07-02

 要理解搜索引擎的工作原理,本文从三个方面来进行阐述。

 
一、搜索引擎发展t<a href=http://www.shanghaiwangzhanyouhua.cn/ target=_blank class=infotextkey>网站</a>SEO<a href=http://www.shanghaiwangzhanyouhua.cn/ target=_blank class=infotextkey>优化</a>详细操作步骤).gif
 
在万维网(Word Wide Web)还没有出现的时候,大家使用ftp来共享交流资源。1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出一款软件叫做Archie。这个软件能定期搜集并分析ftp服务器上面的文件信息,并提供查找各个主机的文件功能。用户输入想要下载的文件名进行搜索,Archie告诉告诉用户哪个ftp能下载这个文件。虽然Archie搜集的并不是网页,但是工作方式和现在搜索引擎一样:搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。
 
在互联网发展的早期,主要以人来维护互联网信息,精选互联网的优秀网站,并做简要描述,分类放到不同的目录下。用户查询时候,通过对感兴趣的目录一层层地点击来找到想要的网站。这种方式以雅虎为代表,叫做网站目录(Web Directory),严格来说不是搜索引擎。
 
最早具有现代意义订单搜索引擎为Lycos,出现在1994年,将蜘蛛程序接入到了索引程序中。
 
1996年1月,加州斯坦福大学理学博士生的拉里·佩奇和谢尔盖·布林两人开发了一个对网站之间的关系做精确分析的搜寻引擎。这个名为PageRank的引擎通过检查网页中的反向链接以评估站点的重要性,此引擎的精确度胜于当时的基本搜索技术。这个搜索引擎就是后面的google。PageRank(佩奇排名)技术,google用它来体现网页的相关性和重要性,是搜索引擎优化中非常重要的因素。这个技术也是投票这个概念的出处,google把从A页面到B页面的链接解释为A页面给B页面投票。根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。
 
 
1999年的google
 
不论搜索引擎的形式是怎么样的,最根本的概念为满足用户的搜索需求,将用户想要的网页放到用户眼前。
 
 
现代互联网的搜索引擎需要处理十分巨大的数据量,截至2015年12月,中国网页数量为2123亿个。截止2017年全国网站数量526万个,网站主办者402万个,域名数量710万个。那么这些信息搜索引擎是如何处理的?
 
二、搜索引擎是怎么对网站信息进行处理的
 
1、抓取
 
 
想象一下你在某个城市旅游,总站到A站点有车,A站点到B站点有车,那么我们可以过从总站先坐车到A站点,然后转车到B站点这种方式到达B站点(快)。
 
C站点是一个单独的站点,没有任何车辆经过这里,显然只能走着去(慢)。
 
那么要想快速达到C站点,有两种方式,
(1) 在总站和C站之间加车
(2)在B站和C站加车,或者A站和C站直接加车。
这两种方式都能让人快速从总站到C站。
 
 
搜索引擎对网页的抓取类似。首先得从原有的数据中找到链接,然后分析这些链接对应的网页内容,找出里面全部的链接,并通过这些链接发现新的网站和网页。
 
如果新站创建,那么可以将新站直接报告搜索引擎(总站和C站加车),或者通过外链让搜索引擎自然的找到新站(B站和C站加车)。
 
搜索引擎对网站和网页抓取的程序,一般叫做蜘蛛程序。蜘蛛也是在网上爬。
 
 
2、过滤
 
假如你是纪晓岚,让你去编撰一部《四库全书》,那么你会把上下5000年所有内容全部遍进去吗?显然不会,第一、时间有限 第二、脑容量有限、人力有限 第三、并不是所有内容都有价值 第四、你得上报里面都编了哪些内容,有些东西你也确实不想让人看到…
 
搜索引擎也一样,上面已经说了,网页数量是用“亿”来做单位的,还要对这些网页进行数据分析和处理,数据量更是n多倍。任何一个引擎,所能存储的容量都是有限的,就决定了必须是搜索引擎认为对用户有价值的内容才会进行存储,在用户搜索的时候才会出现在用户眼前。
 
 
3、收录、索引
 
我们在看过一本书(实体书)之后,怎样才能快速的回去找感兴趣的内容呢?有些同学可能会在书里面夹个书签,像这样:
 
 
 
在书签上写上字,一目了然。
 
当然有些勤快的同学还记录一些小纸条,把感兴趣的词、句式收集起来,并写上书上哪些地方出现了这个词,这个句式,出现了几次,在之前看过的书里面是不是也出现过。
 
搜索引擎对网页的收录和索引显然要复杂的多,大致原理和看书差不多,都是对感兴趣的东西做收录和索引。
 
 
4、排序
 
搜索引擎收录了这么多的网页,那么怎么根据关键词决定哪个是第一个出现、哪个是第二个出现呢?timg - 2019-06-21T144840.834.jpg
 
(1)相关性或者对用户有用
(2)对受欢迎的内容进行权重分类。
 
那么显然搜索引擎优化的目的,第一、提高相关性,满足搜索引擎 第二、提高内容质量,满足用户需求。
 
 
 
三、我在搜索引擎搜索一个关键字,搜索引擎做了哪些事
 
 
1、联想
 
 
当我在百度的输入框输入seo这三个字母的时候,
 
 
百度会进行联想补全搜索。基于用户搜索词汇的前缀,百度会去猜用户最有可能搜索的关键词。这种搜索方式能极大的提高用户的搜索体验,这种方式目前是搜索引擎和工具的标配。
 
2、分词
 
中文分词一直是一个难题,精准分词去除歧义是实现精准搜索的基础。
 
 
分词面临的挑战有:
 
 
歧义:
比如:长春市长春药店,可以这么分:长春市/长春药店 ,也可以这么分: 长春/市长/春药/店
 
短语识别:
比如:各种成语,谚语等
 
新词发现:
比如神马、有木有、城会玩等新造的流行词。研究表明,这种词汇的分词问题是歧义词的10倍左右,网民会源源不断的制造这种新词,是分词面临的挑战之一。
 
等等。
 
3、同义词、相近词、错误词替换
 
比如我搜索googlg,显示的是google的搜索结果。
 
4、整合数据
 
搜索引擎搜索的结果是从n个节点来的,比如同一个关键词在北京搜索的结果,未必和在南京搜索的结果一样。从各个节点拿回数据之后,根据权重、跳出率等等n个因素进行排序、筛选、过滤、整合,这样用户就拿到了最终结果。
timg - 2019-06-20T144759.938.jpg

阅读"搜索引擎是怎么工作的?用生活讲解搜索引擎工作原理"的人还阅读

上一篇:你知道优化中的轮回规则吗?小编给讲讲SEO轮回规则

下一篇:返回列表