涛思数据库集群部署手册
开源、高效的物联网大数据平台
TDengine是涛思数据专为物联网、车联网、工业互联网、IT运维等设计和优化的大数据平台。除核心的快10倍以上的时序数据库功能外,还提供缓存、数据订阅、流式计算等功能,最大程度减少研发和运维的复杂度,且核心代码,包括集群功能全部开源
1.基础环境部署
1.1 关闭防火墙
systemctl stop firewalld
systemctl disable firewalld
systemctl status firewalld
1.2 修改主机hostname
修改/etc/hostname
主机IP | hostname |
192.168.21.104 | master1 |
192.168.21.105 | master2 |
192.168.21.106 | slave1 |
192.168.21.107 | slave2 |
192.168.21.108 | slave3 |
1.3 添加主机hosts
编辑文件/etc/hosts 添加如下内容
192.168.21.104 master1
192.168.21.105 master2
192.168.21.106 slave1
192.168.21.107 slave2
192.168.21.108 slave3
1.4可以忽略
1.4节点之间免密登录
1.4.1 配置互免密码登录
修改配置文件 /etc/ssh/sshd_config 文件.修改如下配置:
RSAAuthentication yes
PubkeyAuthentication yes
# 允许root通过 SSH 登录看,如果禁止root远程登录,那就设置为 no
PermitRootLogin yes
1.4.2 生成秘钥
原理:
首先在 serverA上生成一对秘钥(ssh-keygen),将公钥拷贝到 serverB,重命名 authorized_keys,serverA 向 serverB 发送一个连接请求,信息包括用户名、ip,serverB 接到请求,会从 authorized_keys 中查找,是否有相同的用户名、ip,如果有serverB 会随机生成一个字符串,然后使用使用公钥进行加密,再发送个serverA,serverA 接到 serverB 发来的信息后,会使用私钥进行解密,然后将解密后的字符串发送给 serverB,serverB 接到 serverA 发来的信息后,会给先前生成的字符串进行比对,如果一直,则允许免密登录
分别在master1、master2、slave1、slave2、slave3执行创建秘钥命令
ssh-keygen -t rsa
直接回车
就会在/root/.ssh目录下生成rsa文件.
在master1上面执行如下命令,执行完毕后.所有主RSA公钥都存在/root/.ssh/authorized_keys文件中:
下面的命令一行一行的执行每执行一行需要输入yes回车然后在输入服务器的密码
cat ~/.ssh/id_rsa.pub>> ~/.ssh/authorized_keys
ssh root@master2 cat ~/.ssh/id_rsa.pub>> ~/.ssh/authorized_keys
ssh root@slave1 cat ~/.ssh/id_rsa.pub>> ~/.ssh/authorized_keys
ssh root@slave2 cat ~/.ssh/id_rsa.pub>> ~/.ssh/authorized_keys
ssh root@slave3 cat ~/.ssh/id_rsa.pub>> ~/.ssh/authorized_keys
1.4.3 其他节点上面执行
分别在master2、slave1、slave2、slave3中执行
ssh root@master1 cat ~/.ssh/authorized_keys>> ~/.ssh/authorized_keys
将master1上的authorized_keys文件复制过来.
执行完效果如下
这样各个主机之间就可以相互免密码登录了.
2.服务器时钟同步
集群时间同步很重要,集群时间不同步会导致集群添加节点的时候不能添加成功.出现健康问题.
centos8中我使用的集群同步时间是系统自带的服务chronyd服务,在每台服务中执行下面三条命令.
systemctl start chronyd
systemctl enable chronyd
systemctl status chronyd
找一台主的服务器作为时间同步的主服务器,修改配置文件/etc/chrony.conf, 添加
pool 192.168.21.106
allow 192.168.21.0/24
在其余的机器机器上面修改/etc/chrony.conf配置,为主服务器的地址
pool 192.168.21.106 iburst
配置好以上的内容后,分别重启chronyd服务
查看当前的同步源
chronyc sources -v
查看当前的同步状态
chronyc sourcestats -v
手动同步时间
chronyc -a makestep
3.集群安装
3.1.1 解压安装包
# 解压服务端
tar -zxvf TDengine-server-2.0.19.1-Linux-x64.tar.gz -C /home/TDengine/
# 解压客户端
tar -zxvf TDengine-client-2.0.19.1-Linux-x64.tar.gz -C /home/TDengine/
3.1.2 安装服务端
sudo ./install.sh
3.1.3 分发软件到其他服务器
mkdir -p /home/TDengine/TDengine-client-2.0.19.1
scp -r /home/TDengine/TDengine-client-2.0.19.1/ root@master2:/home/TDengine/TDengine-client-2.0.19.1/
scp -r /home/TDengine/TDengine-client-2.0.19.1/ root@slave1:/home/TDengine/TDengine-client-2.0.19.1/
scp -r /home/TDengine/TDengine-client-2.0.19.1/ root@slave2:/home/TDengine/TDengine-client-2.0.19.1/
scp -r /home/TDengine/TDengine-client-2.0.19.1/ root@slave3:/home/TDengine/TDengine-client-2.0.19.1/
mkdir -r /home/TDengine/TDengine-server-2.0.19.1
scp -r /home/TDengine/TDengine-server-2.0.19.1 root@master2:/home/TDengine/TDengine-server-2.0.19.1
scp -r /home/TDengine/TDengine-server-2.0.19.1 root@slave1:/home/TDengine/TDengine-server-2.0.19.1
scp -r /home/TDengine/TDengine-server-2.0.19.1 root@slave2:/home/TDengine/TDengine-server-2.0.19.1
scp -r /home/TDengine/TDengine-server-2.0.19.1 root@slave3:/home/TDengine/TDengine-server-2.0.19.1
cd /home/TDengine/TDengine-server-2.0.19.1
sudo ./install.sh
3.1.5 卸载服务的命令
rmtaos
3.1.6 修改配置文件
修改配置文件
配置文件的路径 /etc/taos/taos.cfg, 一定要修改的参数是firstEp 和fqdn.
firstEp:是每个数据节点首次启动后连接的第一个数据节点,此参数每个数据节点的配置是一样的
fqdn: 必须是每个数据节点本地的FQDN
其他参数可以不做任何修改,如果要修改需要你自己清楚是如何修改.可参考官方文档
示例:
# 第一个节点
firstEq master1:6030
fqdn master1
# 第二个节点
firstEq master1:6030
fqdn master2
# 第三个节点
firstEq master1:6030
fqdn slave1
# ...
3.1.7 安装客户端
客户端安装与否就看服务端是否安装,如果安装了服务端,就可以不安装客户端.
sudo ./install_client.sh
3.1.8 启动第一个节点
在第一个节点上面执行如下命令启动第一个节点.
systemctl start taosd
systemctl status taosd
看到此图就能确定第一个节点是正常启动了.
3.1.9 动态加入后续节点
第一个节点启动成功后,我们就可以加入其它的节点到集群中去了,加入的命令如下
systemctl start taosd
systemctl status taosd
create dnode "master2:6030";
show dnodes;
客户端查看
taos
show dnodes;
看到如下信息,表示节点已经加入集群
并且加入集群后的节点状态都为 ready 状态.
3.1.10 常见问题
加入现有集群的后续节点,一直处于offline:
- 物理节点上的taosd没有启动
- 网络不通,需要检查端口、防火墙状态、FQDN配置
- 两个独立的集群无法合并为一个新的集群,如果后续节点加入集群前,/var/lib/taos/目录下有数据 (通常为安装过1.0的版本,或者有2.0版本的测试残留数据), 请通过sudo rm -rf /var/lib/taos 命令清理一下.
3.1.11 vnode高可用
创建数据库的时候,可以通过REPLICA设置副本数:
# create database testdb replica n;
create database ftc replica 3;
- n可以设置为1-3,但不能超过节点数;
- 当一个vnode group里一半或超过一半的vnode不工作时,vnode group是不能对外提供服务的,因为无法从中选出master的;
- 建库时默认REPLICA为1,此时集群不具备vnode高可用;如果需要高可用,REPLICA应该设为大于等于2的值.
动态删除节点
drop dnode 4;
3.1.12 Mnode高可用
在TDengine的console里,执行如下命令.来看mnode列表:
show mnodes;
1.mnode的副本数,有系统配置参数numOfMnode决定,有效范围为1-3.且<= 集群节点数;
2.当一半或超过一半的mnode不工作时,集群是不能对外提供服务的,因为无法选出mnode的master的;
3.为保证mnode服务的高可用性,numOfMnodes必须设置为2或3,默认值为3.
3.1.13 负载均衡
在这三种情况下,将触发负载均衡:
- 当一个新数据节点添加进集群时
- 当一个数据节点从集群中移除时
- 一个数据节点过热(数据量过大)时
3.1.14 Arbitrator
- 如果副本数为偶数.当一个vnode group 里一半的vnode不工作时,是无法从中选出master的.同理,一个mnode组里一半的mnode不工作时,也是无法选出mnode的master的,因为存在split brain问题.
- TDengine引入了Arbitrator:Arbitrator是一个可执行程序,模拟一个vnode或mnode在工作,但只简单的负责网络连接,不处理任何数据插入或访问.比如:对于副本数为2的情行,如果一个节点A离线,但另外一个节点B正常,而且能连接到Arbitrator,那么节点B就能正常工作.
本文暂时没有评论,来添加一个吧(●'◡'●)