专业的编程技术博客社区

网站首页 > 博客文章 正文

SEO搜索引擎中的正向索引与倒排索引让你明白关键词排列原理!

baijin 2024-10-27 08:05:46 博客文章 9 ℃ 0 评论

经过上篇文章《网络推广中关于搜索引擎是如何处理关键词的几点,你还不知道吗?》,搜索引擎就能得到独特的,能反映页面主要内容的,以词为单位的内容。

然后搜索引擎程序将上边提取到的关键词通过分词程序来划分好,把每一个网站页面都转化为一个关键词组成的集合!同时记录下每一个关键词在该页面上出现的频率、次数、格式(比如:标题标签、黑体、H标签、锚文本等)位置(第几段),这些都已权重的形式记录在下来!然后放到一个地方,这个地方就是专门放置这些组合词的词表结构——索引库!也交做“词表索引形式”。

什么是正向索引:

每一个文件夹都对应一个ID,文件内容被表示为一串关键词的集合!在搜索引擎的索引库中,这时候关键词已经别转化成了关键词ID,这样的数据结构叫正向索引

给大家画一张图就明白了:

文件ID内容

文件夹1关键词1,关键词2,关键词7,关键词10……关键词L

文件夹2关键词2,关键词7,关键词30……关键词M

文件夹3关键词2,关键词70,关键词35……关键词N

…………………………

文件夹7关键词2,关键词7,……关键词X

……………………

文件夹X关键词7,关键词50.,关键词Y

什么是倒排索引呢?

因为正向索引不能直接用于排名!比如:用户搜索某一关键词2,如果只从在正向索引,只能找到包含该关键词的文件夹,不能实际的返回排名;这时候就会用到倒排索引了

在倒排索引中关键词变成了主键,每个关键词对应一系列文件,每一个文件都出现了要搜索的关键词,这样用户在搜索某一个关键词的的时候,排序程序就能在倒排列表中找到这个关键词对应的文件!

详细请看图:

关键词文件

关键词1文件1文件2,文件17,文件110……文件L

关键词2文件2,文件7,文件30……文件B

关键词3文件2,文件7,文件30……文件U

…………………………

关键词6文件21,文件70,文件300……文件K

……………………

关键词7文件12,文件27,文件3……文件L

特殊文件的处理:

搜索引擎除了抓取HTNL文件还可以抓取以下文件类型:PDF,Word,WPS,PPT,TXT等这些文件,不过注意的是:搜索引擎还不能抓取图片、视频、Flash这类文字内容,也不能执行脚本和程序!所以在SEO的时候,你网站上面尽量少用这些!

链接关系的计算:

当搜索引擎抓取了页面后,还必须事先计算出页面上有哪些链接指向哪些页面。每个页面又有哪些导入链接,链接使用的什么锚文字,正是这些复杂的链接指向关系形式形成了网站和页面的链接权重!例如:google的PR值就是这些关系的重要体现。

以上分享文字是个人观点,如果你觉得小编的文章还不错,可以点击关注,关注我的头条号,有问题可评论讨论学习。

时刻钟


本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表