网站首页 > 博客文章正文

clickhouse 索引（clickhouse索引失效）

baijin 2024-10-17 07:48:11 博客文章 9 ℃ 0 评论

mergetree 引擎中索引分为一级索引与二级索引，一级索引采用稀疏索引实现，二级索引采用的是跳数索引实现——由数据的聚合信息构建而成。

一级索引

主键索引由 PRIMARY KEY来定义， mergetree 会依据`index_granularity`索引粒度(默认为8192)为数据表生成一级索引并保存至primary.idx文件中。通常情况下主键的定义可以由ORDER BY来指代主键。

稀疏索引与稠密索引

稠密索引

稠密索引中每一行索引标记都会对应一行具体的数据记录

稀疏索引

每行索引会对应一段数据，而不是一行。比如一本书，稀疏索引相当于一级章节目录。

稀疏索引的优化显而易见，仅需要少量的标记就能够记录大量数据的区间位置。merge引擎默认的索引粒度8192， 1亿行的数据只需要12208行索引标记

索引粒度

mergetree 引擎的索引粒度由`index_granularity`参数来指定, 默认为8192。

即把数据按照粒度进行划分区间，其中每个区间最多8192(默认)行数据。`index_granularity`不单做用于一级索引(.idx)，同时也会影响数据标记(.mrk)和数据文件(.bin)。因为仅有一级索引自身是无法完成查询工作的，需要借助数据标记才能定位数据，所以一级索引和数据标识的间隔粒度必须得一致。另外clickhouse 的数据文件也会按照`index_granularity`的间隔粒度进行压缩

二级索引

即跳数索引，由数据的聚合信息构建而成。根据索引类型的不同，其聚合信息的内容也不相同。默认是关闭的，可以修改`allow_experimental_data_skipping_indices = 1` 打开。数据表支持同时声明多个跳数索引

跳数索引类型

minmax - 记录一段数据内的最小和最大值，其索引的作用类似分区目录的minmax索引，能够快速跳过无用的数据区间

set - 记录声明字段或表达式的取值（唯一值）

ngrambf_v1 - 数据短语布隆表过滤器

tokenbf_v1 - ngrambf_v1 的变种

上一篇： clickhouse填坑之时间问题解决（clickhouse时间戳）
下一篇： Clickhouse系列-第二节-基本原理（clickhouse ui）

网站首页 > 博客文章正文

clickhouse 索引（clickhouse索引失效）

一级索引

稀疏索引与稠密索引

索引粒度

二级索引

跳数索引类型

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 博客文章 正文

clickhouse 索引（clickhouse索引失效）

一级索引

稀疏索引与稠密索引

索引粒度

二级索引

跳数索引类型

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 博客文章正文

取消回复欢迎你发表评论: