首页 » 百度SEO » seo正排索引_SEO算法深度分析之倒排索引来解释SEO排名的问题

seo正排索引_SEO算法深度分析之倒排索引来解释SEO排名的问题

访客 2024-11-11 0

扫一扫用手机浏览

文章目录 [+]

本日给大家分享一下倒排索引的一些事情,为什么要说倒排索引呢?由于当用户搜索一个词的时候,返回的搜索结果页面便是经由倒排索引和一系列算法过滤后的结果排序,seo苦苦追求的不便是排名的多少吗?

说的普通一点,实在搜索引擎的索引好比是我们平时看书时的目录,为了让大家更快找到适宜自己的东西,比如导航站实在便是互联网上小型索引的构造案例。

seo正排索引_SEO算法深度分析之倒排索引来解释SEO排名的问题 seo正排索引_SEO算法深度分析之倒排索引来解释SEO排名的问题 百度SEO

上面会有一些分类比如***、电影、小说、图片等等板块,让用户快速的找到自己所需。

seo正排索引_SEO算法深度分析之倒排索引来解释SEO排名的问题 seo正排索引_SEO算法深度分析之倒排索引来解释SEO排名的问题 百度SEO
(图片来自网络侵删)

索引是搜索引擎中最为核心的技能之一,由于在大量的网页中,若何才能更快、更精准的找到用户查询这个词的搜索意图。

先给大家说几个观点,为了下面的讲述中,大家都能看得懂。

1、文档:我们因此网页的形式看到互联网页面的,而网页中包含很多的东西,比如:***、EXCEL、PDF等等很多各式各样的文件都被成为文档。

2、文档凑集:由很多的文档组成一个凑集,称为文档凑集。

3、文档编号:互联网上每一个文档都有各自且独一无二的编号。

4、单词编号:每个单词都有各自的唯一编号,用编号来代表这个单词或、短语者句子。

5、倒排索引:是在搜索引起的索引库中,以单词对应网页的一种存储的形式,可以根据单词快速的获取干系的文档。

实在倒排索引非常的大略,下面就结合一些特色案例来逐渐深入的剖析这个算法,大家先理解一些基本的思路即可。

上图是每个文档编号对应的不同文档,如编号“1”对应“小明吃早饭”,编号“2”对应“小明早上吃了什么”,以此类推。

其余由于中文和英文的文化属性不相同,中文的汉字之间没有明显像英文单词那样的分隔符,索引首先对中文要进行一下分词(下面举例中暂时不去掉停滞词),这样就把一句话变成了一个个的词组,如下图。

上图单词的ID记录了每个单词的编号,第二列是编号所对应的单词,第三列是哪几个文档中包含了这个单词。

比如单词“小明”,其其单词编号为“1”,倒排列表“1,2,4,5”,表示这几个文档凑集中都包含了这个单词。
实际上搜索引擎更为繁芜,不仅仅记录了单词的文档编号,还记录了单词的频率(TF,什么意思呢?很多seo从业者都在说关键词的密度,

市情上打算页面中关键词密度的打算公式有三个:

公式一: 关键词次数/页面总字数 x100%

公式二: 关键词次数/页面总字数/关键词字数 x 100%

公式三: 关键词次数/页面分词数量 x 100%

先不谈论哪个公式的打算办法更加精准,我们创造公式中都涌现了关键词的次数,那这个TF便是该单词在页面中涌现的次数)

这个TF在搜索引擎打算搜索结果排序时,剖析查询词和文档库中哪个文档更为干系的一个参考成分。

上图是比较繁芜的,我们来看看文档频率为多个文档包含这个单词,如:“小明”在“4个文档”中涌现了。
“吃”在“4个文档”中涌现了,后面的以此类推。
倒排列表小明 (1;1<1>),1为文档1,中间的1为这个词在这个文档中涌现的频率,<1>是这个词在文档中涌现的位置1,即在文档中第一个词。

实战运用,在纸上谈的再多,不如通过实战去验证这个论点,是否对排名有帮助。
下面就来看看。

以首页自然排名的10个网站的网页类型和标题为例:

首页,排名第一,“早点培训_早餐培训班_早点培训学校【免费吃住】”

首页,排名第二,“早餐培训_早餐培训班_早餐培训学校【免费加盟】”

首页,排名第三,“上海顶正小吃培训学校_早点培训_生煎包培训_烧烤培训全国最专…..”

首页,排名第四,“上海早点培训|重庆小面培训|山东杂粮饼培训|卤菜培训|小吃培训…….”

首页,排名第五,“小吃培训_特色小吃_小吃项目加盟-老灶台特色小吃培训学校”

内页,排名第六,“早点培训 正规早点培训班-培训通”

首页,排名第七,“艺尚食代-早餐早点培训”

首页,排名第八,“小吃培训,早点培训,上海面点培训,上海德志厨艺美食培训中央021-…”

首页,排名第九,“早餐店加盟_营养早餐加盟_特色早点加盟店_早餐店连锁加盟培训_开…”

内页,排名第十,“早点培训班 正宗早点培训中央-培训通”

剖析得出:早点培训在这个10个网站中基本上都涌现了2词,大家有没有创造早点和早餐是近义词,(比如:我早点吃了什么,我早餐吃了什么。
这两句话表达的是同一个意思。
)即是是增加了一遍词频,也便是3次了,在这里提醒大家关键词千万不要堆砌,要保持一个自然性。

其余通过之前的实验数据得出标题最左边的词权重最高,仅仅结合这两点,排名第一的网站标题做的比其他的网站标题都到位。
其余标题结尾处“【免费吃住】”这是一个吸引用户点击的营销点,以是标题是技能与艺术的结合。

下图是网站从上线到目前的收录和权重的部分截图:

从上面的两张图片我们可以看出,这个网站的权重从2017年12月11日的站长权重是0,4天后权重到达1,还是比较轻松的。
而且后来站内文章到投稿为止已经5个月没有更新了,为什么有些seoer每天更新文章,网站排名却做不起来?有小伙伴说如果不写文章,那么每天都不知道做些什么。

在我看来这个不是影响排名的主要成分,由于前期网站信赖度做好可以节省后期的很多事情(PS:这便是佛系SEO,让网站自己让排名)。

通过上图创造早点培训这个词一贯在首页第一,非常的稳定。
以是通过算法来优化网站还是非常靠谱的。

搜索引擎是这个天下上最繁芜的程序之一,公开的算法不胜其数,有兴趣的小伙伴们可以看看搜索引擎公司他们申请专利的一个文档,文档中也会涉及到高档数学等等知识,如果你能坚持的去看并且结合实践的话,那么你优化网站不用再靠猜排名了。

作者:秦羽

文末福利

标签:

相关文章

贾汪区大数据赋能,构建智慧城市新篇章

随着信息技术的飞速发展,大数据已经成为推动经济社会发展的重要力量。近年来,江苏省徐州市贾汪区积极探索大数据在城市建设中的应用,通过...

百度SEO 2025-01-07 阅读0 评论0

资金云大数据,引领金融科技创新的新引擎

随着互联网技术的飞速发展,大数据已成为推动各行各业创新的重要力量。在金融领域,资金云大数据作为一种新兴的技术手段,正引领着金融科技...

百度SEO 2025-01-07 阅读0 评论0

赢创达大数据,驱动创新,引领未来

随着科技的飞速发展,大数据已成为推动产业升级、创新发展的关键力量。在我国,赢创达大数据作为大数据领域的领军企业,凭借其先进的技术、...

百度SEO 2025-01-07 阅读0 评论0

赤峰大数据码,智慧城市建设的创新引擎

近年来,随着互联网、大数据、人工智能等新一代信息技术的快速发展,我国智慧城市建设步伐加快。作为内蒙古自治区的重要城市,赤峰市紧跟时...

百度SEO 2025-01-07 阅读0 评论0