网站首页 > 博客文章 正文
经过上篇文章《网络推广中关于搜索引擎是如何处理关键词的几点,你还不知道吗?》,搜索引擎就能得到独特的,能反映页面主要内容的,以词为单位的内容。
然后搜索引擎程序将上边提取到的关键词通过分词程序来划分好,把每一个网站页面都转化为一个关键词组成的集合!同时记录下每一个关键词在该页面上出现的频率、次数、格式(比如:标题标签、黑体、H标签、锚文本等)位置(第几段),这些都已权重的形式记录在下来!然后放到一个地方,这个地方就是专门放置这些组合词的词表结构——索引库!也交做“词表索引形式”。
什么是正向索引:
每一个文件夹都对应一个ID,文件内容被表示为一串关键词的集合!在搜索引擎的索引库中,这时候关键词已经别转化成了关键词ID,这样的数据结构叫正向索引!
给大家画一张图就明白了:
文件ID内容
文件夹1关键词1,关键词2,关键词7,关键词10……关键词L
文件夹2关键词2,关键词7,关键词30……关键词M
文件夹3关键词2,关键词70,关键词35……关键词N
…………………………
文件夹7关键词2,关键词7,……关键词X
……………………
文件夹X关键词7,关键词50.,关键词Y
什么是倒排索引呢?
因为正向索引不能直接用于排名!比如:用户搜索某一关键词2,如果只从在正向索引,只能找到包含该关键词的文件夹,不能实际的返回排名;这时候就会用到倒排索引了
在倒排索引中关键词变成了主键,每个关键词对应一系列文件,每一个文件都出现了要搜索的关键词,这样用户在搜索某一个关键词的的时候,排序程序就能在倒排列表中找到这个关键词对应的文件!
详细请看图:
关键词文件
关键词1文件1文件2,文件17,文件110……文件L
关键词2文件2,文件7,文件30……文件B
关键词3文件2,文件7,文件30……文件U
…………………………
关键词6文件21,文件70,文件300……文件K
……………………
关键词7文件12,文件27,文件3……文件L
特殊文件的处理:
搜索引擎除了抓取HTNL文件还可以抓取以下文件类型:PDF,Word,WPS,PPT,TXT等这些文件,不过注意的是:搜索引擎还不能抓取图片、视频、Flash这类文字内容,也不能执行脚本和程序!所以在SEO的时候,你网站上面尽量少用这些!
链接关系的计算:
当搜索引擎抓取了页面后,还必须事先计算出页面上有哪些链接指向哪些页面。每个页面又有哪些导入链接,链接使用的什么锚文字,正是这些复杂的链接指向关系形式形成了网站和页面的链接权重!例如:google的PR值就是这些关系的重要体现。
以上分享文字是个人观点,如果你觉得小编的文章还不错,可以点击关注,关注我的头条号,有问题可评论讨论学习。
时刻钟
- 上一篇: Elasticsearch倒排索引以及数据结构
- 下一篇: 倒排索引:提升搜索引擎性能的核心技术
猜你喜欢
- 2024-10-27 MySQL 为什么使用数据索引能提高效率
- 2024-10-27 Elasticsearch 在地理信息空间索引的探索和演进
- 2024-10-27 终于有人把Elasticsearch原理讲透了(二)
- 2024-10-27 PostgreSQL技术内幕6:PostgreSQL索引技术
- 2024-10-27 ElasticSearch的分布式架构原理(吐血整理!)
- 2024-10-27 「漫画」elasticsearch原理就是这么简单(上)
- 2024-10-27 Elasticsearch读书笔记(二)(elasticsearch 书推荐)
- 2024-10-27 搜索引擎原理系列教程:收录、索引、排名
- 2024-10-27 什么是预处理: 预处理简称为“索引”
- 2024-10-27 陈年SEO:解密百度SEO排序影响因素
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- powershellfor (55)
- messagesource (56)
- aspose.pdf破解版 (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- vue数组concat (56)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)