====== 第十二章:高可用 ====== 原文链接:https://pve.proxmox.com/pve-docs/chapter-ha.html 最后更新:2026-02-25 ===== 概述 ===== Proxmox VE高可用(HA)功能允许虚拟机和容器在硬件故障时自动故障转移到其他节点,确保关键业务的连续性。 ===== HA概念 ===== === 什么是高可用 === * 自动故障检测 * 自动恢复 * 减少停机时间 * 提高可靠性 === HA组件 === * Proxmox HA Manager * Proxmox HA Local Resource Manager * Corosync ===== HA要求 ==== === 硬件要求 === * 至少3个节点(推荐) * 共享存储 * 稳定的网络 === 软件要求 === * Proxmox VE集群 * HA插件 * 资源代理 ===== 创建HA组 ==== === 通过Web界面 === 1. 数据中心 → HA → 组 2. 点击"创建" 3. 命名并配置 4. 添加节点 === 通过命令行 === pvesh create /cluster/ha/groups -group myha -nodes node1,node2,node3 === HA组参数 === * 组名 * 节点列表 * 优先级 * 限制 ===== 添加资源到HA ==== === 通过Web界面 === 1. 选择VM/CT 2. 点击"HA" 3. 选择HA组 4. 启用HA === 通过命令行 === pvesh create /cluster/ha/resources -vmid 100 -group myha === 资源参数 === * VM/CT ID * HA组 * 状态 ===== HA状态 ==== === 查看状态 === pvesh get /cluster/ha/status === 状态类型 === * started - 已启动 * stopped - 已停止 * requested - 请求中 * waiting - 等待中 ===== 故障转移策略 ==== === 故障转移类型 === * 限制到组 - 只能在组内节点 * no restriction - 任何节点 === 优先级 === * 优先级数值 * 优先节点选择 ===== 资源管理 ==== === 启动资源 === ha-manager start vm:100 === 停止资源 === ha-manager stop vm:100 === 迁移资源 === ha-manager migrate vm:100 node2 === 重新locate === ha-manager relocate vm:100 node2 ===== 故障处理 ==== === 故障检测 === * 节点故障 * 服务故障 * 资源故障 === 自动恢复 === * 节点恢复 * 服务重启 * 资源迁移 === 手动干预 === 在紧急情况下: ha-manager crm-command ===== 监控 ===== === 查看状态 === ha-manager status === 日志 === /var/log/pve-ha-lrm.log /var/log/pve-ha-crm.log === 通知 === HA事件会触发通知: * 故障转移 * 资源状态变化 ===== 故障排除 ===== === 常见问题 === * 资源卡住 * 无法故障转移 * Quorum丢失 === 诊断命令 === # 查看HA状态 ha-manager status # 查看详细状态 pvesh get /cluster/ha/status # 查看日志 tail -f /var/log/pve-ha-crm.log === 恢复 === * 清理故障状态 * 重置HA资源 * 手动迁移 ===== 配置示例 ===== === 基本配置 === # 创建HA组 pvesh create /cluster/ha/groups -group production -nodes node1,node2,node3 # 添加VM到HA pvesh create /cluster/ha/resources -vmid 100 -group production === 优先级配置 === # 高优先级组 pvesh create /cluster/ha/groups -group critical -nodes node1,node2 -priority 100 # 添加关键VM pvesh create /cluster/ha/resources -vmid 100 -group critical ===== 最佳实践 ===== 1. 使用3+节点集群 2. 使用共享存储 3. 正确配置HA组 4. 定期测试故障转移 ===== 限制 ==== === 不支持 === * 本地存储的VM * 某些设备直通 * 特定配置 === 存储要求 === 推荐存储: * NFS * iSCSI * Ceph RBD * ZFS over iSCSI