网站首页 > 博客文章 正文
Elasticsearch 是一个基于Lucene 的全文搜索和分析引擎。
由于elasticsearch是基于lucene开发的,那么我们要了解倒排索引的结果首先我们要了解lucene的索引结构。
Lucene 的索引结构主要分以下几个层次
- 索引(Index)在 Lucene 中一个索引是放在一个文件夹中的。同一文件夹中的所有的文件构成一个 Lucene 索引.
- 段(Segment)一个索引可以包含多个段,段与段之间是独立的,添加新文档可以生成新的段,不 同的段可以合并。具有相同前缀文件的属同一个段,图中共两个段 "_0" 和 "_1"。segments.gen 和 segments_5 是段的元数据文件,也即它们保存了段的属性信息。
- 文档(Document)文档是我们建索引的基本单位,不同的文档是保存在不同的段中的,一个段可以包含多篇文档。新添加的文档是单独保存在一个新生成的段中,随着段的合并,不同的文档合并到同一个段中.
- 域(Field)一篇文档包不同类型的信息,可以分开索引,比如标题,时间,正文,作者等, 都可以保存在不同的域里。不同域的索引方式可以不同,在真正解析域的存储的时候,我们会详细解读。
- 词(Term)词是索引的最小单位,是经过词法分析和语言处理后的字符串。
从上图我们可以看到这么几个文件,
_0.tis、_0.tti 这两个文件是词典信息文档,其中前面的数字是对应索引中的段。
_0.frq 这个文件是词典id和文档id一个映射,我们把它称作为倒排列表。
_0.prx 这个文件保存的是倒排列表中每个词在文档中的位置信息,主要用来支持短语搜索等其他搜索。
这里可以看出倒排索引的结构就是词典加倒排列表
- 上一篇: Elasticsearch的核心真的是倒排索引吗?
- 下一篇: 产品经理学技术:搜索引擎工作原理
猜你喜欢
- 2024-10-27 MySQL 为什么使用数据索引能提高效率
- 2024-10-27 Elasticsearch 在地理信息空间索引的探索和演进
- 2024-10-27 终于有人把Elasticsearch原理讲透了(二)
- 2024-10-27 PostgreSQL技术内幕6:PostgreSQL索引技术
- 2024-10-27 ElasticSearch的分布式架构原理(吐血整理!)
- 2024-10-27 「漫画」elasticsearch原理就是这么简单(上)
- 2024-10-27 Elasticsearch读书笔记(二)(elasticsearch 书推荐)
- 2024-10-27 搜索引擎原理系列教程:收录、索引、排名
- 2024-10-27 什么是预处理: 预处理简称为“索引”
- 2024-10-27 陈年SEO:解密百度SEO排序影响因素
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- powershellfor (55)
- messagesource (56)
- aspose.pdf破解版 (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- vue数组concat (56)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)