====== 第十二章:高可用 ======
原文链接:https://pve.proxmox.com/pve-docs/chapter-ha.html
最后更新:2026-02-25
===== 概述 =====
Proxmox VE高可用(HA)功能允许虚拟机和容器在硬件故障时自动故障转移到其他节点,确保关键业务的连续性。
===== HA概念 =====
=== 什么是高可用 ===
* 自动故障检测
* 自动恢复
* 减少停机时间
* 提高可靠性
=== HA组件 ===
* Proxmox HA Manager
* Proxmox HA Local Resource Manager
* Corosync
===== HA要求 ====
=== 硬件要求 ===
* 至少3个节点(推荐)
* 共享存储
* 稳定的网络
=== 软件要求 ===
* Proxmox VE集群
* HA插件
* 资源代理
===== 创建HA组 ====
=== 通过Web界面 ===
1. 数据中心 → HA → 组
2. 点击"创建"
3. 命名并配置
4. 添加节点
=== 通过命令行 ===
pvesh create /cluster/ha/groups -group myha -nodes node1,node2,node3
=== HA组参数 ===
* 组名
* 节点列表
* 优先级
* 限制
===== 添加资源到HA ====
=== 通过Web界面 ===
1. 选择VM/CT
2. 点击"HA"
3. 选择HA组
4. 启用HA
=== 通过命令行 ===
pvesh create /cluster/ha/resources -vmid 100 -group myha
=== 资源参数 ===
* VM/CT ID
* HA组
* 状态
===== HA状态 ====
=== 查看状态 ===
pvesh get /cluster/ha/status
=== 状态类型 ===
* started - 已启动
* stopped - 已停止
* requested - 请求中
* waiting - 等待中
===== 故障转移策略 ====
=== 故障转移类型 ===
* 限制到组 - 只能在组内节点
* no restriction - 任何节点
=== 优先级 ===
* 优先级数值
* 优先节点选择
===== 资源管理 ====
=== 启动资源 ===
ha-manager start vm:100
=== 停止资源 ===
ha-manager stop vm:100
=== 迁移资源 ===
ha-manager migrate vm:100 node2
=== 重新locate ===
ha-manager relocate vm:100 node2
===== 故障处理 ====
=== 故障检测 ===
* 节点故障
* 服务故障
* 资源故障
=== 自动恢复 ===
* 节点恢复
* 服务重启
* 资源迁移
=== 手动干预 ===
在紧急情况下:
ha-manager crm-command
===== 监控 =====
=== 查看状态 ===
ha-manager status
=== 日志 ===
/var/log/pve-ha-lrm.log
/var/log/pve-ha-crm.log
=== 通知 ===
HA事件会触发通知:
* 故障转移
* 资源状态变化
===== 故障排除 =====
=== 常见问题 ===
* 资源卡住
* 无法故障转移
* Quorum丢失
=== 诊断命令 ===
# 查看HA状态
ha-manager status
# 查看详细状态
pvesh get /cluster/ha/status
# 查看日志
tail -f /var/log/pve-ha-crm.log
=== 恢复 ===
* 清理故障状态
* 重置HA资源
* 手动迁移
===== 配置示例 =====
=== 基本配置 ===
# 创建HA组
pvesh create /cluster/ha/groups -group production -nodes node1,node2,node3
# 添加VM到HA
pvesh create /cluster/ha/resources -vmid 100 -group production
=== 优先级配置 ===
# 高优先级组
pvesh create /cluster/ha/groups -group critical -nodes node1,node2 -priority 100
# 添加关键VM
pvesh create /cluster/ha/resources -vmid 100 -group critical
===== 最佳实践 =====
1. 使用3+节点集群
2. 使用共享存储
3. 正确配置HA组
4. 定期测试故障转移
===== 限制 ====
=== 不支持 ===
* 本地存储的VM
* 某些设备直通
* 特定配置
=== 存储要求 ===
推荐存储:
* NFS
* iSCSI
* Ceph RBD
* ZFS over iSCSI