然后搜索引擎程序将上边提取到的关键词通过分词程序来划分好,把每一个网站页面都转化为一个关键词组成的凑集!
同时记录下每一个关键词在该页面上涌现的频率、次数、格式(比如:标题标签、黑体、H标签、锚文本等)位置(第几段),这些都已权重的形式记录不才来!
然后放到一个地方,这个地方便是专门放置这些组合词的词表构造——索引库!
也交做“词表索引形式”。
什么是正向索引:
每一个文件夹都对应一个ID,文件内容被表示为一串关键词的凑集!
在搜索引擎的索引库中,这时候关键词已经别转化成了关键词ID,这样的数据构造叫正向索引!
给大家画一张图就明白了:

文件ID内容
文件夹1关键词1,关键词2,关键词7,关键词10……关键词L
文件夹2关键词2,关键词7,关键词30……关键词M
文件夹3关键词2,关键词70,关键词35……关键词N
…………………………
文件夹7关键词2,关键词7,……关键词X
……………………
文件夹X关键词7,关键词50.,关键词Y
什么是倒排索引呢?
由于正向索引不能直接用于排名!
比如:用户搜索某一关键词2,如果只从在正向索引,只能找到包含该关键词的文件夹,不能实际的返回排名;这时候就会用到倒排索引了
在倒排索引中关键词变成了主键,每个关键词对应一系列文件,每一个文件都涌现了要搜索的关键词,这样用户在搜索某一个关键词的的时候,排序程序就能在倒排列表中找到这个关键词对应的文件!
详细请看图:
关键词文件
关键词1文件1文件2,文件17,文件110……文件L
关键词2文件2,文件7,文件30……文件B
关键词3文件2,文件7,文件30……文件U
…………………………
关键词6文件21,文件70,文件300……文件K
……………………
关键词7文件12,文件27,文件3……文件L
分外文件的处理:
搜索引擎除了抓取HTNL文件还可以抓取以下文件类型:PDF,Word,WPS,PPT,***等这些文件,不过把稳的是:搜索引擎还不能抓取图片、***、Flash这类笔墨内容,也不能实行脚本和程序!
以是在SEO的时候,你网站上面只管即便少用这些!
链接关系的打算:
当搜索引擎抓取了页面后,还必须事先打算出页面上有哪些链接指向哪些页面。每个页面又有哪些导入链接,链策应用的什么锚笔墨,正是这些繁芜的链接指向关系形式形成了网站和页面的链接权重!
例如:google的PR值便是这些关系的主要表示。
以上分享笔墨是个人不雅观点,如果你以为小编的文章还不错,可以点击关注,关注我的头条号,有问题可评论谈论学习。
时候钟