====== 第三章:集群管理器 ======
原文链接:https://pve.proxmox.com/pve-docs/chapter-pvecm.html
最后更新:2026-02-25
===== 概述 =====
Proxmox集群管理器(pvecm)是一个用于管理Proxmox VE集群的工具。它允许您创建、配置和管理多节点集群,实现高可用和资源统一管理。
===== 集群概念 =====
=== 什么是集群 ===
Proxmox VE集群是由多个节点组成的逻辑组,这些节点共享:
* 配置
* 存储
* 虚拟机/容器
=== 集群优势 ===
* 集中管理
* 高可用
* 实时迁移
* 负载均衡
===== 创建集群 =====
=== 在第一个节点上创建 ===
pvecm create cluster-name
例如:
pvecm create mycluster
=== 集群信息 ===
创建后显示:
* 集群名称
* 集群IP
* 节点数量
* Quorum
===== 添加节点 =====
=== 获取加入信息 ===
在第一个节点上执行:
pvecm add IP-address
或使用加入令牌:
pvecm add 192.168.1.101 -link0 192.168.1.1
=== 节点要求 ===
* 相同的Proxmox VE版本
* 稳定的网络连接
* 唯一的主机名
* 时间同步
===== 集群管理 =====
=== 查看集群状态 ===
pvecm status
显示:
* 节点列表
* Quorum状态
* 投票数
=== 查看节点 ===
pvecm nodes
显示:
* 节点名称
* 节点ID
* 状态
=== 移除节点 ===
pvecm delnode node-name
===== 集群网络 =====
=== 链接 ===
集群支持多个网络链接:
* link0 - 主要链接
* link1 - 备用链接
=== 配置 ===
pvecm expected 1
设置预期投票数。
===== Quorum =====
=== 什么是Quorum ===
Quorum是集群中多数节点同意的概念,用于:
* 防止脑裂
* 确保一致性
* 决策机制
=== Quorum计算 ===
* 2节点 = 1票 quorum
* 3节点 = 2票 quorum
* 5节点 = 3票 quorum
=== Quorum丢失 ===
如果Quorum丢失:
* 集群无法正常工作
* 资源将停止
* 需要手动干预恢复
===== Corosync配置 =====
=== 配置文件 ===
/etc/corosync/corosync.conf
=== 主要参数 ===
* totem - 集群通信协议
* quorum - Quorum设置
* nodelist - 节点列表
=== 日志 ===
/var/log/corosync/
===== 集群迁移 =====
=== 实时迁移 ===
迁移运行中的虚拟机:
qm migrate --online
=== 离线迁移 ===
迁移已停止的虚拟机:
qm migrate
===== 集群存储 =====
=== 共享存储 ===
集群通常使用共享存储:
* NFS
* iSCSI
* Ceph RBD
* CephFS
=== 本地存储 ===
本地存储也可以用于:
* 模板
* ISO镜像
* 容器
===== 高可用 =====
=== HA配置 ===
集群支持高可用:
* 自动故障转移
* 资源重新分配
* 节点监控
=== HA组 ===
创建HA组:
pvesh create /cluster/ha/groups -group groupname
===== 备份集群 =====
=== 配置备份 ===
集群配置存储在:
/etc/pve/
自动复制到所有节点。
=== 手动备份 ===
vzdump --all --mailto admin@example.com
===== 故障排除 =====
=== 常见问题 ===
* 节点无法加入
* Quorum问题
* 网络延迟
* 服务故障
=== 诊断命令 ===
# 检查集群状态
pvecm status
# 检查Quorum
pvecm expected
# 检查网络
corosync-cmapctl
# 查看日志
tail -f /var/log/corosync/corosync.log
=== 恢复 ===
* 从Quorum丢失恢复
* 重新加入节点
* 重建集群
===== 最佳实践 =====
1. 使用奇数个节点
2. 使用冗余网络
3. 定期检查集群状态
4. 保持节点时间同步
5. 使用共享存储
===== 升级集群 =====
=== 升级步骤 ===
1. 备份集群配置
2. 升级第一个节点
3. 验证功能
4. 逐个升级其他节点
=== 注意事项 ===
* 保持所有节点版本一致
* 避免在升级期间进行重要操作
* 测试后再升级生产环境
===== 集群安全 =====
=== 网络安全 ===
* 使用专用网络
* 启用防火墙
* 加密集群通信
=== 访问控制 ===
* 限制API访问
* 使用强认证
* 定期审计权限