理解 Google 搜索引擎的运作办法非常主要,由于 Google 在检索、索引到搜索引擎排名的过程当中,有非常多的 SEO 知识在里面。例如 Google 检索时是检索哪些东西?Google 索引时是索引哪些东西?当你的文章开始加入 Google 搜索引擎排名,文章的初始排名是怎么决定的?这中间隐含大量的 SEO 知识跟排名要素(Ranking factors)在里面。
如果你还不知道SEO中的爬取、索引跟排名的全体过程以及运作办法,本篇文章会做一个完全的先容,让你理解 Google 搜索引擎的基本运作事理。
当一个新的网址涌现的时候,它一定会经历「被找到」的过程,以是虽然我们可以将 Google 搜索引擎的运作办法分成:检索(爬取)、索引跟排名,但实在前面还有一个「找到」网址的过程。

这里将网址被找到、爬取(检索)、索引跟排名,大略解释如下。
Google 找到网址
当一个新页面涌现时,Google 的爬虫一定会先找到该网址,并且将该网址加入网址库,然后比对一下网址库里面是不是有这条网址,如果确认是新的网址,就会按排韶光去检索(爬取)。
在 Google Search Console 里面的「涵盖范围」功能当中,你也可以清楚看到一条网址它的「创造办法」,可能是从你提交的 Sitemap 当中创造的,也有可能是从别的网址找到你这条链接的。
seo
Google 爬存(检索)
当有新的网址涌如今 Google 数据库中的网址库之后,就会安排韶光去检索,实在「检索」是官方的名称,熊猫师长西席也比较喜好用「检索」这个词,不过在 SEO 界里,检索很常被称作「爬取」,你只要知道它们指的都是 Crawl 就可以了。无论是爬取还是检索,都是指 Crawl 。
在 Google search Console 里面的「涵盖范围」功能,你也可以很清楚的看到关于「检索」的讯息。下面有两个主要的不雅观念:
是否许可检索:如果显示否,那么该网址可能是涌如今robots.txt,也便是网站主在robots.txt这个档案当中不许可检索这条网址。是否许可编入索引:如果显示否,代表该网址很可能有noindex中继标记,以是才会涌现不许可给页面被索引的讯息。这里特殊解释:robots.txt 是用来见告搜索引擎不要爬取特定页面,而 noindex 则是用来见告搜索引擎不要索引特定页面。seo
当爬虫程序爬取了你的页面之后,会将全体网页的信息压缩并存入数据库里面,在「检索」阶段,Google 存入数据库的信息就像是用户打开浏览器时得到的 HTML 网页,一贯要到「索引」阶段,才会将检索的资料去芜存菁,只索引主要的信息。
Google 索引
Google 在索引阶段要处理的东西很多,由于 Google 不可能将你网页上全部的 HTML 源代码,或是各种笔墨都存入数据库,这样数据库会变得过于弘大而没有效益,以是 Google 「索引」阶段肯定只会索引主要的东西,而这些东西会影响你这个网址之后在某个「关键字」的排名。
那么,Google 到底索引了哪些东西?常见的会被索引的信息包含如下:
1.主要的关键词
Google 是如何提取页面中的关键词,这个只有 Google 内部职员才知道,常日提取的关键词可能也有 10 个以上,而且每个被提取出来的关键词,其权重加总之后常日不一样。
唯一可以肯定的是,页面中的Meta title、H1、H2肯定是重点。这也是为什么很多SEO人都强调关键词要涌如今标题或是H2里面的主要性。
2.链接与锚笔墨
页面中的链接与锚点笔墨也是会被索引的东西。
3.图片 Alt text
图片当中的 alt text ,也是会被提取的笔墨。
4.关键字的笔墨大小(font-size)
根据 Google 的 Pagerank 原始文件,有特殊提到,Google 会提取关键字大约的笔墨大小,笔墨越大常日主要性也越高。
5.文章中的粗体字
粗体字常日是<strong>或是<b>这样的标签,粗体字也会是被记录的信息。
6.关键字在页面中的位置
关键词涌如今页面中的位置,也是会被记录在索引数据库里面。
除了上面提到的这几点资讯以外,Google 肯定还索引了其它东西,但很多东西是我们不知道的,这些被用来索引的东西,常日也可以视为 SEO 排名要素(Ranking factors)。
Google 排名
当你的某个页面网址被索引之后,基本上就已经可以涌如今 Google 搜索引擎里面并加入排名了。Google 号称有两百多条 SEO 排名要素,这200 多条排名要素都会在全体 SEO 关键词排名中起到一定程度的浸染,有些影响浸染很大(例如反向链接),有些影响浸染比较小(例如关键字涌如今 URL 网址里)。
Google 搜索引擎的运作事理从上面你该当已经理解到,Google 搜索引擎的运作事理,基本上便是四个阶段:网址被找到、网址被爬取、网址被索引跟网址被排名。大略的讲,谷歌搜索引擎的运作事理有这四个阶段。
网址被找到爬取(又称检索)索引(又称收录)排名从事 SEO 事情的人必须非常理解这四个阶段的各种 SEO 细节,你才能从中找到一些问题,例如以下几个重点:
一个网址如果迟迟没有被检索,那会是什么缘故原由?一个网址如果迟迟没有被索引,那会是什么缘故原由?关于 Google 搜索引擎的运作事理,实在 Matt Cutts 在 Youtube 网站上有一段视频,讲解的非常清楚,这段视频建议一定要看。Matt Cutts 的这段视频清楚的阐明了:Google 爬取、索引跟排名的过程。
在 Google 搜索引擎的关键词排名的过程中,除了参考 Google 索引中的资料,其余还有 Pagerank 跟 200 多条 SEO 排名要素(把稳:Google 索引中的资料,有些本身便是排名要素)。
除了上面这只影片之外,Matt Cutts 在其余一只影片,也提到了 Google 搜索引擎的运作办法,下面这只视频也建议一定要看,你会对 Google 搜索引擎的运作事理与搜索引擎排名有更深的理解。
Google 正向索引与倒序索引在 Google 的「索引」过程当中,有件事特殊主要,那便是「正向索引」跟「倒序索引」,如果不是具有理工背景的人,可能很难明得这两个观点。
下面分别阐明 Google 索引中的正向索引与倒序索引。
正向索引
每个网址都被指派一个独一无二的 DocID,这个数据表中储存着该网页的主要关键词。
倒序索引
Google 透过正向索引的数据,改变其索引办法,换成以关键字为键值的数据表,每个数据列都有一个 KeywordID,每个 KeywordID 里面包含着重要的网址(DocID)。
当用户在 Google 搜索关键词的时候,Google 会去调用倒序索引里面的资料,这样查询速率才会快,由于如果利用正向索引资料表,这样查询会变得超级慢,由于网路上有上百亿个网页,这打算韶光实在太过弘大,这也是为什么原来的正向索引必须改成倒序索引的缘故原由。
seeo