哪两个接入控制策略可以避免资源记忆碎片资源

当前位置: >>
可用性指南
vSphere 可用性指南Update 1 ESX 4.0 ESXi 4.0 vCenter Server 4.0在本文档被更新的版本替代之前,本文档支持列出的每个产 品的版本和所有后续版本。要查看本文档的更新版本,请访问 http://www.vmware.com/cn/support/pubs。ZH_CN- vSphere 可用性指南最新的技术文档可以从 VMware 网站下载: http://www.vmware.com/cn/support/pubs/ VMware 网站还提供最近的产品更新信息。 您如果对本文档有任何意见或建议,请把反馈信息提交至: 版权所有 ? 2009 VMware, Inc. 保留所有权利。本产品受美国和国际版权及知识产权法的保护。VMware 产品受一项或多项 专利保护,有关专利详情,请访问 http://www.vmware.com/go/patents-cn。 VMware 是 VMware, Inc. 在美国和/或其他法律辖区的注册商标或商标。此处提到的所有其他商标和名称分别是其各自公 司的商标。VMware, Inc. 3401 Hillview Ave. Palo Alto, CA 94304 www.vmware.com北京办公室 北京市海淀区科学院南路 2 号 融科资讯中心 C 座南 8 层 www.vmware.com/cn上海办公室 上海市浦东新区浦东南路 999 号 新梅联合广场 23 楼 www.vmware.com/cn广州办公室 广州市天河北路 233 号 中信广场 7401 室 www.vmware.com/cn2VMware, Inc. 目录关于本文档51 业务连续性和最小化停机时间 7减少计划的停机时间 防止非计划停机时间 7 8 8 9 VMware HA 提供快速中断恢复 VMware 容错提供连续可用性2 创建和使用 VMware HA 群集 11VMware HA 的工作方式 VMware HA 接入控制 创建 VMware HA 群集 自定义 VMware HA 行为 12 18 22 24 11VMware HA 群集的最佳做法3 为虚拟机提供容错 27容错的工作方式 容错用例 28 28 29 30 33 32 容错配置要求 容错互操作性 27为容错准备群集和主机 为虚拟机打开容错 容错最佳做法 容错故障排除 34查看有关容错虚拟机的信息 VMware 容错配置建议 36 36附录: 容错错误消息 索引 4339VMware, Inc.3 vSphere 可用性指南4VMware, Inc. 关于本文档?《vSphere 可用性指南》包含有关使用解决方案提供业务连续性的信息,包括如何建立 VMware High Availability (HA) 和 VMware 容错。目标读者本文档专供需要通过 VMware High Availability 和容错解决方案提供业务连续性的用户使用。本书的目标读者 为熟悉虚拟机技术和数据中心操作且具有丰富经验的 Windows 或 Linux 系统管理员。文档反馈VMware 欢迎您提出宝贵建议,以便改进我们的文档。如有意见,请将反馈发送到 。vSphere 文档vSphere 文档 包括 VMware vCenter Server 和 ESX/ESXi 文档集。《vSphere 可用性指南》涵盖了 ESX 、ESXi ? 和 vCenter Server。? ?技术支持和教育资源您可以获取以下技术支持资源。有关本文档和其他文档的最新版本,请访问: http://www.vmware.com/cn/support/pubs。 在线支持和电话支持 要通过在线支持提交技术支持请求、查看产品和合同信息以及注册您的产品, 请访问 http://www.vmware.com/cn/support。 客户只要拥有相应的支持合同,就可以通过电话支持,尽快获得对优先级高的 问题的答复。请访问 http://www.vmware.com/cn/support/phone_support.html。 支持服务项目 VMware 专业服务 要了解 VMware 支持服务项目如何帮助您满足业务需求,请访问 http://www.vmware.com/cn/support/services。 VMware 教育服务课程提供了大量实践操作环境、案例研究示例,以及用作作 业参考工具的课程材料。这些课程可以通过现场指导、教室授课的方式学习, 也可以通过在线直播的方式学习。关于现场试点项目及实施的最佳实践, VMware 咨询服务可提供多种服务,协助您评估、计划、构建和管理虚拟环境。 要了解有关教育课程、认证计划和咨询服务的信息,请访问 http://www.vmware.com/cn/services。VMware, Inc.5 vSphere 可用性指南6VMware, Inc. 业务连续性和最小化停机时间1无论是计划停机时间还是非计划停机时间,都会带来相当大的成本。但是,用于确保更高级别可用性的传统解 决方案都需要较大开销,并且难以实施和管理。 VMware 软件可为重要应用程序提供更高级别的可用性,并且操作更简单,成本更低。使用 vSphere,组织可 以轻松提高为所有应用程序提供的基准级别,并且以更低成本和更简单的操作来实现更高级别的可用性。使用 vSphere,您可以:n n n独立于硬件、操作系统和应用程序提供更高可用性。 消除常见维护操作的计划停机时间。 在发生故障时提供自动重新启动。vSphere 可以减少计划的停机时间,防止出现非计划停机,并迅速从断电中恢复。 本章讨论了以下主题:n n n n第 7 页,“减少计划的停机时间” 第 8 页,“防止非计划停机时间” 第 8 页,“VMware HA 提供快速中断恢复” 第 9 页,“VMware 容错提供连续可用性”减少计划的停机时间计划的停机时间通常占数据中心停机时间的 80% 以上。硬件维护、服务器迁移和固件更新均需要将物理服务器 停机。为最小化此停机时间的影响,会强制组织延迟维护,直到出现不便且难以调度的停机时间段。 通过 vSphere,组织可以显著减少计划的停机时间。由于 vSphere 环境中的工作负载无需停机或服务中断就可 以动态移动到其他物理服务器,所以服务器维护无需应用程序和服务停机就可以执行。通过 vSphere 组织可以 执行以下任务:n n n消除常见维护操作的停机时间。 消除计划的维护时间段。 随时执行维护,无需中断用户和服务。?因为 VMotion 环境中的工作负载无需服务中断即可动态移动到其他物理服务器或其他基础存储器,所以,通过 vSphere 中的 VMotion 和 Storage VMotion 功能,组织可以显著减少计划的停机时间。管理员可以快速而完整 地执行透明的维护操作,无需强制调度不方便的维护时间段。VMware, Inc.7 vSphere 可用性指南防止非计划停机时间在 ESX/ESXi 主机为应用程序的运行提供稳定平台时,组织还必须保护自身,避免出现硬件或应用程序故障所 导致的非计划停机时间。vSphere 将重要功能构建到数据中心基础结构中,这有助于避免出现非计划停机时间。 这些 vSphere 功能是虚拟基础结构的一部分,因此,对操作系统以及虚拟机中运行的应用程序而言是透明的。 这些功能可以进行配置,而且可供物理系统上的所有虚拟机使用,从而降低成本并降低实现高可用性的复杂程度。 vSphere 中内置的关键容错功能:n共享存储器。通过在共享存储器(如光纤通道、iSCSI SAN 或 NAS)上存储虚拟机文件来消除单一故障点。 可以使用 SAN 镜像和复制功能将虚拟磁盘的更新副本保留在灾难恢复站点。 网络接口绑定。允许单个网卡发生故障。 存储多路径。允许存储路径发生故障。n n除了这些功能外,VMware HA 和容错功能分别通过提供中断快速恢复和连续可用性来最小化或消除非计划停 机时间。VMware HA 提供快速中断恢复VMware HA 利用配置为群集的多台 ESX/ESXi 主机,为虚拟机中运行的应用程序提供快速中断恢复和具有成 本效益的高可用性。 VMware HA 通过以下两种方式保护应用程序可用性:n n通过在群集内的其他主机上自动重新启动虚拟机,防止服务器故障。 通过持续监控虚拟机并在检测到故障时对其进行重新设置,防止应用程序故障。与其他群集解决方案不同,VMware HA 提供基础架构并使用该基础架构保护所有工作负载:n不需要在应用程序或虚拟机内安装任何特殊软件。所有工作负载均受 VMware HA 保护。配置 VMware HA 之后,不需要执行操作即可保护新虚拟机。它们会自动受到保护。 VMware HA 与 VMware Distributed Resource Scheduler (DRS) 结合使用,不仅可以防止故障发生,而 且可以在群集内的主机之间提供负载平衡。n与传统的故障切换解决方案相比,VMware HA 具有多个优势: 最小化设置 减少了硬件成本和设置 设置 VMware HA 群集之后,群集内的所有虚拟机无需额外配置即可获得故障 切换支持。 虚拟机可充当应用程序的移动容器,可在主机之间移动。管理员会避免在多台 计算机上进行重复配置。使用 VMware HA 时,必须拥有足够的资源来对要通过 VMware HA 保护的主机数进行故障切换。但是,vCenter Server 系统会自动 管理资源并配置群集。 虚拟机内运行的任何应用程序的可用性变得更高。虚拟机可以从硬件故障中恢 复,提高了在引导周期内启动的所有应用程序的可用性,而且没有额外的计算 需求,即使该应用程序本身不是群集应用程序也一样。通过监控和响应 VMware Tools 检测信号并重置未响应的虚拟机,还可防止客户机操作系统崩溃。 如果主机发生了故障,并且在其他主机上重新启动了虚拟机,则 DRS 会提出迁 移建议或迁移虚拟机以平衡资源分配。如果迁移的源主机和目标主机中的一台 或者两台发生故障,则 VMware HA 会帮助从该故障中恢复。提高了应用程序的可用性DRS 和 VMotion 集成8VMware, Inc. 章 1 业务连续性和最小化停机时间VMware 容错提供连续可用性VMware HA 通过在主机出现故障时重新启动虚拟机来为虚拟机提供基本级别的保护。VMware 容错可提供更 高级别的可用性,允许用户对任何虚拟机进行保护以防止主机发生数据、事务或连接丢失等故障。 容错使用 ESX/ESXi 主机平台上的 VMware vLockstep 技术以提供连续可用性。通过确保主虚拟机和辅助虚拟 机的状态在虚拟机的指令执行的任何时间点均相同来完成此过程。vLockstep 通过使主虚拟机和辅助虚拟机执 行相同顺序的 x86 指令来完成此过程。主虚拟机捕获所有输入和事件 -- 从处理器到虚拟 I/O 设备 -- 并在辅助虚 拟机上进行重放。辅助虚拟机执行与主虚拟机同一系列的指令,而仅可看到单个虚拟机映像(主虚拟机)在执 行工作负载。 如果运行主虚拟机的主机或运行辅助虚拟机的主机发生故障,则会发生透明故障切换,仍在无缝工作的主机将 借此变为主虚拟机的主机。使用透明故障切换,不会有数据损失,并且可以维护网络连接。 在发生透明故障切 换之后,将自动重新生成新的辅助虚拟机,并将重新建立冗余。整个过程是透明且全自动的,并且即使 vCenter Server 不可用,也会发生。 图 1-1 容错对中的主虚拟机和辅助虚拟机主要 应用程序 客户机 操作系统 VMware 客户端 记录 非确定事件 ? 输入(网络、用户)、 异步 I/O(磁盘、设备) CPU 定时器事件 重放 非确定事件 ? 结果 = 可重复虚拟机执行 辅助 应用程序 客户机 操作系统 VMware日志记录流量VMware, Inc.9 vSphere 可用性指南10VMware, Inc. 创建和使用 VMware HA 群集2VMware HA 群集允许 ESX/ESXi 主机集合作为一个组协同工作,这些主机为虚拟机提供的可用性级别比 ESX/ESXi 主机单独提供的级别要高。当规划新 VMware HA 群集的创建和使用时,您选择的选项会影响群集对主机或虚 拟机故障的响应方式。 在创建 VMware HA 群集之前,应清楚 VMware HA 标识主机故障和隔离以及响应这些情况的方式。还应了解 接入控制的工作方式以便可以选择最适合故障切换需要的策略。在建立群集之后,通过执行下列建议的最佳做法, 可以使用高级属性自定义其行为并优化其性能。 本章讨论了以下主题:n n n n n第 11 页,“VMware HA 的工作方式” 第 12 页,“VMware HA 接入控制” 第 18 页,“创建 VMware HA 群集” 第 22 页,“自定义 VMware HA 行为” 第 24 页,“VMware HA 群集的最佳做法”VMware HA 的工作方式VMware HA 可以将虚拟机及其所驻留的主机集中在群集内,从而为虚拟机提供高可用性。群集中的主机均会 受到监控,如果发生故障,故障主机上的虚拟机将在备用主机上重新启动。VMware HA 群集中的首选主机和辅助主机在将主机添加到 VMware HA 群集时,代理将上载到主机,并配置为与群集内的其他代理通信。添加到群集的 前五台主机将指定为首选主机,随后的所有主机将指定为辅助主机。首选主机维护和复制所有群集状况,并用 于启动故障切换操作。如果从群集内移除某台首选主机,则 VMware HA 会将另一台主机提升为首选状态。 加入群集的任何主机必须与现有首选主机通信以完成其配置(当您正在将第一台主机添加到群集时除外)。必 须至少有一台首选主机运行正常,以便 VMware HA 正确进行操作。如果所有首选主机均不可用(不响应), 则无法为 VMware HA 成功配置任何主机。 其中一台首选主机还将指定为活动首选主机,其职责包括:n n n决定在何处重新启动虚拟机。 跟踪失败的重新启动尝试。 确定尝试重新启动虚拟机的适当时间。如果活动首选主机发生故障,则另一台首选主机会将其替换。VMware, Inc.11 vSphere 可用性指南故障检测和主机网络隔离代理会相互通信,并监控群集内各台主机的活跃度。默认情况下,此操作通过每秒交换一次检测信号来完成。如果 15 秒过去后仍未收到检测信号,而且 ping 不到该主机,则系统会声明该主机发生故障。如果主机发生故障, 则将对该主机上运行的虚拟机进行故障切换,即在具有最多可用未预留的容量(CPU 和内存)的备用主机上重 新启动。 注意 如果主机发生故障,VMware HA 不会将任何虚拟机故障切换到处于维护模式的主机,因为 VMware HA 计算当前故障切换级别时不会考虑此类主机。主机退出维护模式后,会重新启用该主机上的 VMware HA 服务, 因此该主机可再次用于故障切换。 主机网络隔离在主机仍在运行但已经无法再与群集内的其他主机通信时发生。在默认设置中,如果主机停止接 收群集内所有其他主机的检测信号的时间超过 12 秒钟,则将尝试 ping 其隔离地址。如果仍然失败,主机将声 明自己已与网络隔离。 如果在 15 秒或更长时间内隔离主机的网络连接仍未恢复,则群集内的其他主机将认为该主机发生了故障,并会 尝试故障切换其虚拟机。但是,如果隔离主机保留对共享存储器的访问权限,则它也会保留虚拟机文件上的磁 盘锁。为避免潜在数据损坏,VMFS 磁盘锁定会阻止对虚拟机磁盘文件同时进行写操作,并尝试故障切换隔离 主机的虚拟机故障。默认情况下,隔离主机会保持其虚拟机为启动状态,但您可以更改主机对“虚拟机关机” 或“关闭虚拟机”的隔离响应。请参见第 20 页,“虚拟机选项”。 注意 如果您确保网络基础结构具有足够的冗余度且至少有一个网络路径始终可用,则主机网络隔离应该在极 少数情况下才出现。结合使用 VMware HA 和 DRS结合使用 VMware HA 和 Distributed Resource Scheduler (DRS) 可将自动故障切换与负载平衡结合起来。这 种结合可在 VMware HA 将虚拟机移至其他主机后更快再平衡虚拟机。 VMware HA 执行故障切换并在其他主机上重新启动虚拟机时,首要任务就是使所有的虚拟机立即可用。重新 启动虚拟机后,启动这些虚拟机的主机可能会负载过重,而其他主机则相对负载较轻。VMware HA 将使用 CPU 和内存预留来确定故障切换,而实际使用情况可能会更高。 在结合使用 DRS 和 VMware HA 并且启用了接入控制的群集内,可能不会从正在进入维护模式的主机上撤出 虚拟机。这是由于预留用于维护故障切换级别的资源造成的。必须使用 VMotion 将虚拟机手动迁出主机。 当禁用了 VMware HA 接入控制时,故障切换资源限制将不会传递到 DRS 和 VMware 分布式电源管理 (DPM)。 也不会强制执行限制条件。nDRS 会从主机撤出虚拟机,并将主机置于维护模式或待机模式,而不考虑这样做可能对故障切换要求造成 影响。 VMware DPM 会关闭主机(将其置于待机模式),即使这样做会违反故障切换要求。n有关 DRS 的详细信息,请参见《资源管理指南》。VMware HA 接入控制vCenter Server 使用接入控制来确保群集内具有足够的资源,以便提供故障切换保护并确保考虑虚拟机资源预留。 包括 VMware HA 在内,有三种接入控制类型。 主机 资源池 VMware HA 确保主机有足够资源来满足其上运行的所有虚拟机的预留。 确保资源池有足够资源来满足与其关联的所有虚拟机的预留、份额和限制。 确保预留了足够的群集资源,以便在主机发生故障时恢复虚拟机。12VMware, Inc. 章 2 创建和使用 VMware HA 群集接入控制对资源使用施加一些限制,违反这些限制的任何操作将不被允许。可能被禁止的操作的示例包括:n n n启动虚拟机。 将虚拟机迁移到主机、群集或资源池中。 增加虚拟机的 CPU 或内存预留。对于这三种接入控制类型,只有 VMware HA 接入控制可以被禁用。但是,如果禁用 VMware HA 接入控制, 将无法保证群集内的所有虚拟机能够在主机故障之后重新启动。VMware 建议您不要禁用接入控制,但可能由 于以下原因,需要临时将其禁用:n当没有足够资源来支持故障切换操作时,您需要违反故障切换限制(例如,如果您打算将主机置于待机模 式以测试它们能否与 DPM 一起使用)。 如果自动过程需要执行一些操作,而这些操作可能会暂时违反故障切换限制(例如,在 VMware Update Manager 执行的升级过程中)。 如果需要执行测试或维护操作。nn群集允许的主机故障数目可以将 VMware HA 配置为允许指定的主机故障数目。使用“群集允许的主机故障数目”接入控制策略, VMware HA 允许指定数目的主机发生故障,同时可以确保群集内留有足够的资源来对这些主机上的虚拟机进 行故障切换。 使用“群集允许的主机故障数目”策略,VMware HA 以下列方式执行接入控制: 1 计算插槽大小。 插槽是满足群集内任一已启动虚拟机要求的内存和 CPU 资源的逻辑表示。 2 3 确定群集内每台主机可以拥有的插槽数目。 确定群集的当前故障切换容量。 这是可以发生故障并仍然有足够插槽满足所有已启动虚拟机的主机的数目。 4 确定“当前故障切换容量”是否小于“配置的故障切换容量”(由用户提供)。 如果是,则接入控制不允许执行此操作。 注意 “配置的故障切换容量”的最大值可以设置为 4。每个群集内最多可以存在五台首选主机,如果所有主机 同时发生故障,则所有主机的故障切换可能不会成功。插槽大小计算插槽大小由两个组件(CPU 和内存)组成。VMware HA 将计算这些值。nCPU 组件的值,方法是先获取每台已启动虚拟机上的 CPU 预留,然后再选择最大值。如果尚未指定虚拟机的 CPU 预留,则会为其分配默认值 256 MHz(此值可以使用 das.vmCpuMinMHz 高级属性进行更改)。 内存组件的值,方法是先获取每台已启动虚拟机的内存预留(以及内存开销),然后再选择最大值。n如果群集内虚拟机的预留值大小不一致,则会影响插槽大小的计算。为了避免此情况,可以使用 das.slotCpuInMHz 或 das.slotMemInMB 高级属性分别指定插槽大小的 CPU 或内存组件的上限。 使用这些高级属性时存在出现资源碎片的风险,在这种情况下,大于此插槽大小的虚拟机会分配有多个插槽。 在接近容量的群集内,可能有足够的插槽数目用于进行虚拟机故障切换。但是,这些插槽可能位于多台主机上, 并且,由于虚拟机一次只可以在一台 ESX/ESXi 主机上运行,因此无法由分配有多个插槽的虚拟机使用。VMware, Inc.13 vSphere 可用性指南使用插槽数目计算当前故障切换容量计算出插槽大小后,VMware HA 会确定每台主机中可用于虚拟机的 CPU 和内存资源。这些值包含在主机的 根资源池中,而不是主机的总物理资源中。不包括用于虚拟化目的的资源。只有处于连接状态、未进入维护模 式而且没有 VMware HA 错误的主机才列入计算范畴。 然后,即可确定每台主机可以支持的最大插槽数目。为确定此数目,请用主机的 CPU 资源数除以插槽大小的 CPU 组件,然后将结果化整。对主机的内存资源数进行同样的计算。然后,比较这两个数字,较小的那个数字即是 主机可以支持的插槽数。 通过确定可以发生故障并仍然有足够插槽满足所有已启动虚拟机要求的主机的数目(从最大值开始)来计算当 前故障切换容量。高级运行时信息如果选择“群集允许的主机故障数目”接入控制策略,高级运行时信息链接则会在 vSphere Client 中群集摘要 选项卡上的 VMware HA 区域中显示。单击此链接以显示有关群集的下列信息:n n n插槽大小。 群集内的插槽总数。群集内正常主机所支持的插槽总数。 已使用的插槽数。分配给已启动的虚拟机的插槽数目。如果已使用高级选项定义插槽大小的上限,则此数 目可以大于已启动的虚拟机的数目。 可用插槽数。可用于启动群集内其他虚拟机的插槽数目。VMware HA 自动保留故障切换所需的插槽数量。 剩余的插槽可用于启动新虚拟机。 群集内已启动 VMS 的总数。 群集内的主机总数。 群集内正常主机的总数。处于连接状态、未进入维护模式而且没有 VMware HA 错误的主机数目。nn n n14VMware, Inc. 章 2 创建和使用 VMware HA 群集示例 2-1 使用“群集允许的主机故障数目”策略的接入控制 可以通过示例显示使用此接入控制策略计算和利用插槽大小的方式。对群集进行如下假设:n群集包括三台主机,每台主机上可用的 CPU 和内存资源数各不相同。第一台主机 (H1) 的可用 CPU 资源 和可用内存分别为 9 GHz 和 9 GB,第二台主机 (H2) 为 9 GHz 和 6 GB,而第三台主机 (H3) 则为 6 GHz 和 6 GB。 群集内存在五个已启动的虚拟机,其 CPU 和内存要求各不相同。VM1 所需的 CPU 资源和内存分别为 2 GHz 和 1 GB,VM2 为 2 GHz 和 1 GB,VM3 为 1 GHz 和 2 GB,VM4 为 1 GHz 和 1 GB,VM5 则为 1 GHz 和 1 GB。 “群集允许的主机故障数目”设置为 1。nn图 2-1 使用“群集允许的主机故障数目”策略的接入控制示例VM1 2GHz 1GBVM2 2GHz 1GBVM3 1GHz 2GB 插槽大小 2GHz,2GBVM4 1GHz 1GBVM5 1GHz 1GBH1 9GHz 9GB 4 个插槽H2 9GHz 6GB 3 个插槽H3 6GHz 6GB 3 个插槽如果 H1 故障则剩余 6 个插槽1 比较虚拟机的 CPU 和内存要求,然后选择最大值,从而计算出插槽大小。 最大 CPU 要求(由 VM1 和 VM2 共享)为 2 GHz,而最大内存要求(针对 VM3)为 2 GB。根据上述情况, 插槽大小为 2 GHz CPU 和 2 GB 内存。 2 由此可确定每台主机可以支持的最大插槽数目。 H1 可以支持四个插槽。H2 可以支持三个插槽(取 9 GHz/2 GHz CPU 和 6 GB/2 GB 内存中较小的一个),H3 也可以支持三个插槽。 3 计算出当前故障切换容量。 最大的主机是 H1,如果它发生故障,群集内还有六个插槽,足够供所有五个已启动的虚拟机使用。如果 H1 和 H2 都发生故障,群集内将仅剩下三个插槽,这是不够用的。因此,当前故障切换容量为 1。 群集内可用插槽的数目为 1(H2 和 H3 上的六个插槽减去五个已使用的插槽)。通过 VMware HA 接入控制, 可以再启动一台未超过插槽大小的虚拟机。预留的群集资源的百分比可以将 VMware HA 配置为通过预留特定百分比的群集资源执行接入控制,用于从主机故障中进行恢复。 使用“预留的群集资源的百分比”接入控制策略,VMware HA 可确保预留总群集资源的指定百分比以用于故 障切换。VMware, Inc.15 vSphere 可用性指南使用“预留的群集资源”策略,VMware HA 可执行接入控制。 1 2 3 4 计算群集内所有已启动虚拟机的总资源要求。 计算可用于虚拟机的主机资源总数。 计算群集的“当前的 CPU 故障切换容量”和“当前的内存故障切换容量”。 确定“当前的 CPU 故障切换容量”或“当前的内存故障切换容量”是否小于“配置的故障切换容量” (由用户提供)。 如果是,则接入控制不允许执行此操作。 它将使用虚拟机的实际预留。如果虚拟机没有预留(即预留量为 0),则将应用默认设置(0 MB 内存和 256 MHz CPU)。这由用于故障切换级别策略的同一 HA 高级选项进行控制。计算当前故障切换容量已启动虚拟机的总资源要求由两个组件组成,即 CPU 和内存。VMware HA 将计算这些值。nCPU 组件值的计算方法是:加总已启动虚拟机的 CPU 预留。如果尚未指定虚拟机的 CPU 预留,则会为 其分配默认值 256 MHz(此值可以使用 das.vmCpuMinMHz 高级属性进行更改)。 内存组件值的计算方法是:加总每台已启动虚拟机的内存预留(以及内存开销)。n计算出主机的 CPU 和内存资源总和,从而得出可用于虚拟机的主机资源总数。这些值包含在主机的根资源池中, 而不是主机的总物理资源中。不包括用于虚拟化目的的资源。只有处于连接状态、未进入维护模式而且没有 VMware HA 错误的主机才列入计算范畴。 先用主机 CPU 资源总数减去总 CPU 资源要求,然后再用这个结果除以主机 CPU 资源总数,从而计算出“当前的 CPU 故障切换容量”。“当前的内存故障切换容量”的计算方式与之相似。16VMware, Inc. 章 2 创建和使用 VMware HA 群集示例 2-2 使用“预留的群集资源的百分比”策略的接入控制 可以通过示例显示使用此接入控制策略计算和利用“当前故障切换容量”的方式。对群集进行如下假设:n群集包括三台主机,每台主机上可用的 CPU 和内存资源数各不相同。第一台主机 (H1) 的可用 CPU 资源 和可用内存分别为 9 GHz 和 9 GB,第二台主机 (H2) 为 9 GHz 和 6 GB,而第三台主机 (H3) 则为 6 GHz 和 6 GB。 群集内存在五个已启动的虚拟机,其 CPU 和内存要求各不相同。VM1 所需的 CPU 资源和内存分别为 2 GHz 和 1 GB,VM2 为 2 GHz 和 1 GB,VM3 为 1 GHz 和 2 GB,VM4 为 1 GHz 和 1 GB,VM5 则为 1 GHz 和 1 GB。 “配置的故障切换容量”设置为 25%。nn图 2-2 使用“预留的群集资源的百分比”策略的接入控制示例VM1 2GHz 1GBVM2 2GHz 1GBVM3 1GHz 2GB 总资源要求 7GHz,6GBVM4 1GHz 1GBVM5 1GHz 1GBH1 9GHz 9GBH2 9GHz 6GBH3 6GHz 6GB总主机资源 24GHz,21GB已启动虚拟机的总资源要求为 7 GHz CPU 和 6 GB 内存。可用于虚拟机的主机资源总数为 24 GHz CPU 和 21 GB 内存。根据上述情况,“当前的 CPU 故障切换容量”为 70% ((24GHz - 7GHz)/24GHz)。同样,“当前的内存 故障切换容量”为 71% ((21GB-6GB)/21GB)。 由于群集的“配置的故障切换容量”设置为 25%,因此仍然可使用 45% 的群集 CPU 资源总数和 46% 的群集内 存资源启动其他虚拟机。指定故障切换主机在配置 VMware HA 时可以将特定主机指定为故障切换主机。 如果使用“指定故障切换主机”接入控制策略,则在主机发生故障时,VMware HA 将尝试在指定的故障切换 主机上重新启动其虚拟机。如果不能使用此方法(例如,故障切换主机本身发生故障或者资源不足时),则 VMware HA 会尝试在群集内的其他主机上重新启动那些虚拟机。 为了确保故障切换主机上拥有可用的空闲容量,将阻止您启动虚拟机或使用 VMotion 将虚拟机迁移到故障切换 主机。而且,为了保持负载平衡,DRS 也不会使用故障切换主机。 当前的故障切换主机显示于 vSphere Client 群集的“摘要”选项卡的 VMware HA 区域中。主机旁边的状态图 标可以是绿色、黄色或红色。n绿色。主机处于连接状态、未进入维护模式且没有 VMware HA 错误。同时,主机上没有驻留任何已启动 的虚拟机。 黄色。主机处于连接状态、未进入维护模式且没有 VMware HA 错误。但是,主机上驻留了已启动的虚拟机。 红色。主机已断开连接、处于维护模式或存在 VMware HA 错误。n nVMware, Inc.17 vSphere 可用性指南选择接入控制策略应当基于可用性需求和群集的特性选择 VMware HA 接入控制策略。 选择接入控制策略时,应当考虑的因素很多。避免资源碎片当总计有足够资源用于虚拟机故障切换时,将出现资源碎片。但是,这些资源位于多个主机上并且不可用,因 为虚拟机一次只能在一个 ESX/ESXi 主机上运行。通过将插槽定义为虚拟机最大预留值,“群集允许的主机故 障数目”策略可避免资源碎片。“群集资源的百分比”策略不解决资源碎片问题。使用“指定故障切换主机” 策略不会出现资源碎片,因为该策略会为故障切换预留单台主机。故障切换资源预留的灵活性为故障切换保护预留群集资源时,接入控制策略所提供的控制粒度会有所不同。“群集允许的主机故障数目” 策略允许设置一台到四台主机作为故障切换级别。“群集资源的百分比”策略最多允许指定 50% 的群集资源发 生故障。“指定故障切换主机”策略仅允许指定单个故障切换主机。群集的异构性从虚拟机资源预留和主机总资源容量方面而言,群集可以异构。在异构群集内,“群集允许的主机故障数目” 策略可能过于保守,因为在定义插槽大小时它仅考虑最大虚拟机预留,而在计算当前故障切换容量时也假设最 大主机发生故障。其他两个接入控制策略不受群集异构性影响。创建 VMware HA 群集VMware HA 在 ESX/ESXi 主机群集的环境中运行。必须创建一个群集,然后用主机填充该群集,并在建立故 障切换保护之前配置 VMware HA 设置。 创建 VMware HA 群集时,必须配置许多可决定功能如何运行的设置。在此之前,首先请确定群集的节点。它 们是为支持虚拟机而提供资源,而且将由 VMware HA 用于故障切换保护的 ESX/ESXi 主机。然后应当确定如 何互相连接这些节点,以及如何将这些节点连接到虚拟机数据所驻留的共享存储器。在建立好网络架构后,可 以将主机添加到群集并完成 VMware HA 配置。 将主机节点添加到群集之前,可以启用和配置 VMware HA。但是,在将主机添加到群集之前,群集的所有功 能并非都能运行,部分群集设置不可用。例如,在出现可以指定为故障切换主机的主机之前,“指定故障切换 主机”接入控制策略不可用。 注意 为处于(或移入)VMware HA 群集的主机上驻留的所有虚拟机禁用“虚拟机启动和关机”(自动启动) 功能。VMware 建议您不要为任何虚拟机手动重新启用此设置。这样做会影响群集功能(如 VMware HA 或容 错)的操作。创建 VMware HA 群集可以为群集启用 VMware HA,并且启用了 VMware HA 的群集是容错的必备条件。VMware 建议您首先创建 空群集。在已计划群集的资源和网络架构之后,可以使用 vSphere 客户端将主机添加到群集,并指定群集的 VMware HA 设置。 使用具有群集管理员权限的帐户将 vSphere Client 连接到 vCenter Server。 前提条件 所有虚拟机及其配置文件必须驻留在共享存储器上。如此一来,您便可以使用群集中的不同主机启动虚拟机, 主机必须配置为具有该共享存储器的访问权限。 VMware HA 群集内的每台主机必须分配了主机名称,并且具有与每个虚拟网卡相关联的静态 IP 地址。18VMware, Inc. 章 2 创建和使用 VMware HA 群集主机必须配置为具有虚拟机网络的访问权限。 VMware 建议为 VMware HA 设置冗余网络连接。n n对于 ESX,请设置冗余服务控制台网络连接。 对于 ESXi,请设置冗余 VMkernel 网络连接。有关设置网络冗余的信息,请参见第 25 页,“网络路径冗余”。 步骤 1 2 3 选择“主机和群集”视图。 右键单击清单树中的数据中心,然后单击新建群集。 完成新建群集向导。 此时不要启用 VMware HA(或 DRS)。 4 单击完成,关闭向导并创建群集。 此时创建了一个空群集。 5 6 根据您的群集资源和网络架构计划,使用 vSphere 客户端将主机添加到群集。 右键单击群集,然后单击编辑设置。 在群集的设置对话框中,您可以修改群集的 VMware HA(和其他)设置。 7 8 在“群集功能”页上,选择打开 VMware HA。 根据需要为群集配置 VMware HA 设置。n n n n主机监控状态 接入控制 虚拟机选项 虚拟机监控9单击确定关闭群集的设置对话框。将创建一个已配置的 VMware HA 群集,其中已包含主机。群集功能新建群集向导中的第一个面板可用于为群集指定基本选项。 在该面板中,可以指定群集名称并选择一个或两个群集功能。 名称 打开 VMware HA 指定群集的名称。该名称显示在 vSphere Client“清单”面板中。必须指定一 个名称,才能继续创建群集。 如果选中此复选框,则在主机出现故障时,虚拟机将在群集内的其他主机上重 新启动。要在群集内的任何虚拟机上启用 VMware 容错,则必须打开 VMware HA。 如果选中此复选框,则 DRS 将平衡整个群集的虚拟机负载。即使虚拟机受 HA 保护,DRS 也会放置并迁移虚拟机。打开 VMware DRS以后可更改上面的任何群集功能。VMware, Inc.19 vSphere 可用性指南主机监控状态创建群集后,请启用主机监控以便 VMware HA 可以监控由群集内的 ESX/ESXi 主机发送的检测信号。 如果选择启用主机监控,则会检查群集内的每台 ESX/ESXi 主机以确保其正在运行。如果某台主机出现故障, 则会在另一台主机上重新启动虚拟机。主机监控还是 VMware 容错恢复进程正常运行所必需的。 如果需要执行可能会触发主机隔离响应的网络维护,VMware 建议首先禁用主机监控以挂起 VMware HA。完 成维护后,请重新启用“主机监控”。启用或禁用接入控制通过新建群集向导,可以为 VMware HA 群集启用或禁用接入控制,并选择有关其执行方式的策略。 可以为 HA 群集启用或禁用接入控制。 在虚拟机违反可用性限制时 禁止虚拟机启动 即使虚拟机违反可用性限制 也允许启动虚拟机 启用接入控制并执行可用性限制,同时保留故障切换容量。不允许在虚拟机上 执行会减少群集内的未预留资源并违反可用性限制的任何操作。 禁用接入控制。如果选择此选项,那么,即使会造成故障切换容量不足,也仍 然会启动虚拟机。完成此操作后,不会显示任何警告,而且群集不会变为红色。 如果群集的故障切换容量不足,VMware HA 仍可以执行故障切换,并使 用“虚拟机重新启动优先级”设置来确定要先启动的虚拟机。如果启用了接入控制,VMware HA 会提供三个强制接入控制的策略。n n n群集允许的主机故障数目 保留为故障切换空闲容量占用群集资源的百分比 指定故障切换主机注意 请参见第 18 页,“选择接入控制策略”获取有关 VMware HA 接入控制如何工作的详细信息。虚拟机选项默认虚拟机设置控制在主机之间失去网络连接时虚拟机的重新启动顺序和 VMware HA 的响应方式。这些设置 适用于主机发生故障或主机隔离时群集内的所有虚拟机。可以为每台虚拟机配置异常。虚拟机重新启动优先级虚拟机重新启动优先级确定主机发生故障后虚拟机的重新启动相对顺序。这些虚拟机在新主机上按顺序重新启动, 首先启动优先级最高的虚拟机,然后是那些低优先级的虚拟机,直到重新启动所有虚拟机或者没有更多的可用 群集资源为止。如果主机故障数目或重新启动的虚拟机数目超过了接入控制所允许的数目,则系统可能会等到 有更多资源可用时再重新启动优先级较低的虚拟机。虚拟机会在故障切换主机上(如果指定了一个)或在具有 最高百分比的可用资源的主机上重新启动。 此设置的值为:已禁用、低、中等(默认)和高。如果选择“已禁用”,则会为虚拟机禁用 VMware HA,这 意味着当 ESX/ESXi 主机发生故障时不会在其他 ESX/ESXi 主机上重新启动虚拟机。如果选择“已禁用”,不会 对虚拟机监控造成影响,这意味着当正常运行的主机上的某个虚拟机发生故障时,会在同一主机上重置该虚拟机。 您可更改各个虚拟机的这种属性。 虚拟机的重新启动优先级设置因用户需求而有所不同。VMware 建议为提供最重要服务的虚拟机分配较高的重 新启动优先级。20VMware, Inc. 章 2 创建和使用 VMware HA 群集例如,在多层应用程序中,可以根据虚拟机上所驻留的功能来对分配进行排序。n n n高。将为应用程序提供数据的数据库服务器。 中等。使用数据库中的数据并在网页上提供结果的应用程序服务器。 低。接收用户请求、将查询传递到应用程序服务器并将结果返回给用户的 Web 服务器。主机隔离响应主机隔离响应确定当 VMware HA 群集内的主机失去其服务控制台网络(在 ESXi 中为 VMkernel 网络)连接 但仍在运行时将发生的情况。主机隔离响应要求启用“主机监控状态”。如果“主机监控状态”处于禁用状态, 则主机隔离响应将同样被挂起。当某个主机停止接收所有其他主机的检测信号而且通过 ping 操作无法获得其 隔离地址时,可以确定该主机已被隔离。发生这种情况时,主机会执行其隔离响应。响应包括:保持启动、关 闭电源和关机。还可以为各个虚拟机自定义此属性。 要使用“关机”设置,必须在虚拟机的客户机操作系统中安装 VMware Tools。将虚拟机关机的优点在于可以 保留其状况。此操作优于关闭操作,关闭操作不会将最近的更改刷新到磁盘中,也不会提交事务。在关机完成时, 已关机的虚拟机需要更长时间进行故障切换。未在 300 秒内或在高级属性 das.isolationShutdownTimeout 中指 定的秒数内关机的虚拟机将被关闭。 注意 创建 VMware HA 群集后,可以替代特定虚拟机的“重新启动优先级”和“隔离响应”的默认群集设置。 此替代操作对于用于特殊任务的虚拟机很有帮助。例如,可能需要先启动提供基础架构服务(如 DNS 或 DHCP) 的虚拟机,再启动群集内的其他虚拟机。虚拟机监控如果在设置的时间内没有收到单个虚拟机的 VMware Tools 检测信号,虚拟机监控将重新启动该虚拟机。可以配置 VMware HA 对非响应的敏感程度。 如果选择启用虚拟机监控,则虚拟机监控服务将使用 VMware Tools,通过检查正在客户机内运行的 VMware Tools 进程的常规检测信号来评估群集内的每个虚拟机是否正在运行。如果没有收到检测信号,则很有可能是 客户机操作系统发生故障或未分配给 VMware Tools 用来完成任务的时间。在这种情况下,虚拟机监控服务会 先确定虚拟机已发生故障,然后决定重新引导虚拟机以还原服务。 另外,还可以配置监控敏感度级别。高敏感度监控可以更快得出已发生故障的结论。然而,如果受监控的虚拟 机实际上仍在运行,但由于资源限制等因素导致未收到检测信号,高敏感度监控可能会错误地认为此虚拟机发 生了故障。低敏感度监控会延长实际故障和虚拟机重置之间服务中断的时间。请选择一个有效折衷满足需求的选项。 检测到故障后,VMware HA 会重置虚拟机。这样有助于确保服务仍然可用。为了避免因非瞬态错误而反复重 置虚拟机,默认情况下,在某个可配置的时间间隔内将对虚拟机仅重置三次。在对虚拟机执行三次重置后,如 果指定时间未结束,VMware HA 不会在任何后续故障发生后进一步尝试重置虚拟机。可以使用每个虚拟机的 最大重置次数自定义设置来配置重置次数。 有时,仍然正常工作的虚拟机会停止发送检测信号。为了避免对这些虚拟机进行不必要的重置,虚拟机监控服 务还会监控虚拟机的 I/O 活动。如果在故障时间间隔内未收到任何检测信号,则会检查 I/O 统计间隔(群集级 别属性)。I/O 统计间隔确定在前两分钟(120 秒)内是否已发生与虚拟机有关的任何磁盘或网络活动。如果没有, 则重置该虚拟机。可以使用高级属性 das.iostatsInterval 更改此默认值(120 秒)。 注意 无法通过高级属性配置“虚拟机监控”设置。在群集的“设置”对话框的“虚拟机监控”页面上修改设置。 下表说明了虚拟机监控敏感度的默认设置。VMware, Inc.21 vSphere 可用性指南表 2-1 虚拟机监控设置设置 高 中等 低 故障时间间隔(秒) 30 60 120 重置期 1 小时 24 小时 7天可以指定虚拟机监控敏感度和 I/O 统计间隔的自定义值,如第 22 页,“自定义 VMware HA 行为”中所述。自定义 VMware HA 行为建立群集后,可以修改会对 VMware HA 行为方式造成影响的特定属性。还可以更改由单个虚拟机继承的群集 默认设置。 本节指导您设置 VMware HA 的高级属性,并列出了可能要设置的一些属性。因为这些属性会影响 HA 的运行, 所以更改时请小心谨慎。检查可用于优化环境中 VMware HA 群集的高级设置。 表 2-2 VMware HA 属性属性 das.isolationaddress[...] 描述 设置为了确定主机是否与网络隔离而要 ping 的地址。只有当 未从群集内的任何其他主机接收到检测信号时才 ping 此地址。 如果未指定,则使用控制台网络的默认网关。此默认网关必 须是可用的可靠地址,以便主机可以确定它是否与网络隔离。 可以为群集指定多个隔离地址(最多 10 个): das.isolationaddressX,其中 X = 1-10。通常每个服务控制台 应指定一个隔离地址。指定过多地址会使隔离检测花费太长 时间,并且会影响 VMware HA 行为。 默认情况下,VMware HA 使用控制台网络的默认网关作为 隔离地址。此属性指定是否使用此默认设置 (true|false)。 更改主机监控的默认故障检测时间。默认为 15000 毫秒(15 秒)。这是主机未从其他主机接收到任何检测信号时在声明 其出现故障前等待的时间段。 更改 VMware HA 主机间的检测信号时间间隔。默认情况下, 每 1000 毫秒(1 秒)发生一次。 定义 VMware HA 尝试将虚拟机故障切换到的主机。仅当 VMware HA 接入控制策略属于故障切换级别或群集资源百 分比时才使用此选项。如果此选项与故障切换主机接入控制 策略配合使用,此选项优先于策略中指明的故障切换主机。 只能定义一台故障切换主机。 关闭虚拟机之前,系统等待虚拟机关机的时间段。只有在主 机的隔离响应为“关机”时,此选项才适用。默认值为 300 秒。 定义内存插槽大小的最大限制。如果使用此选项,则插槽大 小小于该值,或是小于群集内任何已启动虚拟机的最大内存 预留以及内存开销。 定义 CPU 插槽大小的最大限制。如果使用此选项,则插槽大 小小于该值,或是小于群集内任何已启动虚拟机的最大 CPU 预留。 定义在没有指定虚拟机内存预留或者内存预留为零时,分配 给虚拟机的默认内存资源值。用于“群集允许的主机故障数 目”接入控制策略。如果未指定任何值,则默认值为 0 MB。das.usedefaultisolationaddress das.failuredetectiontimedas.failuredetectioninterval das.defaultfailoverhostdas.isolationShutdownTimeout das.slotMemInMBdas.slotCpuInMHzdas.vmMemoryMinMB22VMware, Inc. 章 2 创建和使用 VMware HA 群集表 2-2 VMware HA 属性 (续)属性 das.vmCpuMinMHz 描述 定义在没有指定虚拟机 CPU 预留或者内存预留为零时,分配 给虚拟机的默认 CPU 资源值。用于“群集允许的主机故障数 目”接入控制策略。如果未指定任何值,则默认值为 256 MHz。 更改虚拟机监控敏感度的默认 I/O 统计间隔。默认值为 120 (秒)。可以设置为大于等于 0 的任何值。设置为 0 会禁用检查。das.iostatsInterval注意 如果更改以下任一高级属性的值,则必须先禁用 VMware HA,再重新启用它,更改才会生效。n n n n ndas.isolationaddress[...] das.usedefaultisolationaddress das.failuredetectiontime das.failuredetectioninterval das.isolationShutdownTimeout设置高级 VMware HA 选项要自定义 VMware HA 行为,请设置高级 VMware HA 选项。 前提条件 要修改其设置的 VMware HA 群集。 群集管理员特权。 步骤 1 2 3 4 在群集的“设置”对话框中,选择 VMware HA。 单击高级选项按钮,打开“高级选项(HA)”对话框。 输入要在选项列中的文本框中更改的每个高级属性,并在值列中输入一个值。 单击确定。群集即可以使用已添加或修改的选项。自定义各个虚拟机的 VMware HA 行为VMware HA 群集中的每个虚拟机均分配了“虚拟机重新启动优先级”、“主机隔离响应”和“虚拟机监控” 的群集默认设置。可以通过更改这些默认项来指定每个虚拟机的特定行为。如果虚拟机离开该群集,则将丢弃 这些设置。 群集管理员特权。 步骤 1 2 3 4 5 6 选择群集并在右键菜单中选择编辑设置。 选择 VMware HA 下面的虚拟机选项。 在“虚拟机设置”窗格中,选择虚拟机,并自定义其虚拟机重新启动优先级或主机隔离响应设置。 在 VMware HA 下方选择虚拟机监控。 在“虚拟机设置”窗格中,选择虚拟机,并自定义其虚拟机监控设置。 单击确定。VMware, Inc.23 vSphere 可用性指南现在,虚拟机的行为将不同于您更改的每项设置的群集默认设置的行为。VMware HA 群集的最佳做法为帮助确保最佳 VMware HA 群集性能,VMware 建议您遵循某些最佳做法。此外,在设计和实现群集时,网 络配置和冗余非常重要。将警报设置为监控群集更改当 VMware HA 或容错执行可用来维护可用性的操作时(例如,虚拟机故障切换),您可能希望系统向您通知 此更改。可以将 vCenter Server 中的警报触发设置配置为在执行操作或向指定的一组管理员发送警示(如,电 子邮件)时触发。监控群集有效性有效群集是尚未违反接入控制策略的群集。 当已启动的虚拟机数超过了故障切换需求,即当前故障切换容量小于所配置的故障切换容量,则已启用 VMware HA 的群集将会变为无效(红色)。如果禁用了接入控制,则群集不会变为无效。 vSphere Client 中的群集的“摘要”页面显示群集的配置问题的列表。该列表说明造成群集无效或过载(黄色) 的原因。 如果群集是由于 VMware HA 问题而变为红色的,则 DRS 行为不会受到影响。网络最佳做法VMware 就主机网卡配置和 VMware HA 的网络拓扑提供某些最佳做法。这不仅包括针对 ESX/ESXi 主机的建议, 而且包括针对线缆、交换机、路由器和防火墙的建议。网络配置和维护下列网络维护建议可以帮助您避免对由于丢失 VMware HA 检测信号而发生故障的主机和网络隔离的意外检测。n对群集 ESX/ESXi 主机所在的网络进行更改时,VMware 建议您挂起主机监控功能。更改网络硬件或网络 设置会中断 VMware HA 用于检测主机故障的检测信号,并且这可能导致不必要的虚拟机故障切换尝试。 在 ESX/ESXi 主机上更改网络配置时(例如,添加端口组或移除 vSwitch),VMware 建议除了挂起主机 监控以外,还应将主机置于维护模式。n注意 由于网络是 VMware HA 的重要组件,因此在需要执行网络维护时应当通知 VMware HA 管理员。用于 VMware HA 通信的网络要标识哪些网络操作可能会中断 VMware HA 的运行,应清楚哪些网络用于检测信号和其他 VMware HA 通信。n在群集中的 ESX 主机上,VMware HA 通信通过指定为服务控制台网络的所有网络进行传输。这些主机没有将 VMkernel 网络用于 VMware HA 通信。 在群集中的 ESXi 主机上,默认情况下,VMware HA 通信通过 VMkernel 网络(除了那些标记为用于 VMotion 的通信)进行传输。如果仅有一个 VMkernel 网络,如有必要,VMware HA 与 VMotion 会共 享它。使用 ESXi 4.0,还必须显式启用“管理网络”复选框以允许 VMware HA 使用此网络。n24VMware, Inc. 章 2 创建和使用 VMware HA 群集群集范围的网络注意事项为了使 VMware HA 运行,群集内的所有主机都必须有兼容网络。添加到群集的第一个节点指明为了使所有后 续主机成为群集成员还必须拥有的网络。如果 IP 地址和子网掩码的组合生成的网络与其他主机的网络相匹配, 则将此网络视为兼容网络。如果尝试添加具有太多或太少网络的主机,或者要添加的主机具有不兼容的网络, 则配置任务将失败,而且“任务详细信息”窗格中将指定该主机不兼容。 例如,如果添加到群集的第一个主机有两个网络用于 VMware HA 通信,10.10.135.0/255.255.255.0 和 10.17.142.0/255.255.255.0,则所有后续主机必须配置相同的两个网络,并用于 VMware HA 通信。网络隔离地址网络隔离地址是要 ping 的 IP 地址,以确定主机是否与网络隔离。只有当主机已停止从群集内的任何其他主机 接收检测信号时才 ping 此地址。如果主机可以 ping 其网络隔离地址,则说明该主机并未与网络隔离,并且群 集内的其他主机已发生故障。但是,如果主机无法 ping 其隔离地址,则可能该主机已与网络隔离,并且不会 执行故障切换操作。 默认情况下,网络隔离地址是主机的默认网关。无论已定义多少个服务控制台网络,都只有一个指定的默认网关, 因此应当使用 das.isolationaddress[...] 高级属性为其他网络添加隔离地址。例如,das.isolationAddress2 为第 二个网络添加隔离地址,das.isolationAddress3 为第三个网络添加隔离地址,直至 das.isolationAddress9 为第 九个网络添加隔离地址。 指定额外的隔离地址时,VMware 建议将 das.failuredetectiontime 高级属性的设置增加到 20000 毫秒(20 秒) 或更长时间。如果主机隔离响应是为了故障切换虚拟机(而非将其保持为启动状态),则从网络隔离的节点需 要时间释放其虚拟机的 VMFS 锁。必须在其他节点将该节点声明为故障节点之前进行此操作,以便当它们启动 虚拟机时,不会由于虚拟机仍然被此隔离节点锁定而收到错误。 有关 VMware HA 高级属性的详细信息,请参见第 22 页,“自定义 VMware HA 行为”。其他网络注意事项配置交换机。如果连接服务器的物理网络交换机支持 PortFast(或等效)设置,请将其启用。此设置可防止主 机在执行冗长的跨树算法期间误认为网络已被隔离。 主机防火墙。在 ESX/ESXi 主机上,VMware HA 需要并自动打开以下防火墙端口。n n入站端口:TCP/UDP
出站端口:TCP/UDP 端口组名称和网络标签。在 VLAN 上使用一致的公用网络端口组名称和网络标签。端口组名称用于重新配置虚 拟机对网络的访问。如果在原始服务器和故障切换服务器间使用的名称不一致,虚拟机将在故障切换后中断网 络连接。虚拟机使用这些标签在重新启动时重新建立网络连接。网络路径冗余群集节点之间的网络路径冗余对 VMware HA 可靠性非常重要。单个服务控制台网络会最终成为单一故障点, 并且,尽管只有该网络发生故障,仍可能会导致故障切换。 如果您只有一个服务控制台网络,则主机和群集之间的任何故障都可能导致不必要的(或错误的)故障切换情况。 可能的故障包括网卡故障、网络电缆故障、网络电缆移除和交换机重置。考虑主机可能导致故障的上述原因, 然后尝试减少这些问题(通常通过提供网络冗余来实现此目的)。 可以使用网卡绑定在网卡级别或服务控制台(或 ESXi 上的 VMkernel 端口)级别实现网络冗余。在大多数实 现中,网卡绑定可以提供足够的冗余,但如果需要,可以使用或增加服务控制台(或 VMkernel 端口)冗余。ESX 上的冗余服务控制台网络(或 VMkernel 网络)可以可靠地检测故障并防止发生隔离的情况,因为检测信号可 以通过多个网络发送。 在群集内的服务器之间尽量少配置硬件分段,目的是为了限制单一故障点。此外,跃点过多的路由可能会导致 检测信号的网络数据包延迟,并增加潜在的故障点数目。VMware, Inc.25 vSphere 可用性指南使用网卡绑定的网络冗余如果用两个连接到不同物理交换机的网卡组成一个网卡组,则可以提高服务控制台(或 ESXi 中的 VMkernel) 网络的可靠性。因为通过两个网卡(并且通过单独的交换机)连接的服务器具有两条独立的路径来发送和接收 检测信号,所以群集具有更好的弹性。要为服务控制台配置网卡组,请在活动或待机配置的 vSwitch 配置中配置 vNIC。推荐的 vNIC 参数设置如下:n n默认的负载平衡 = 基于源虚拟端口 ID 的路由 故障恢复 = 否在为 VMware HA 群集内的主机添加网卡后,必须在该主机上重新配置 VMware HA。使用辅助网络的网络冗余除了使用网卡绑定提供检测信号冗余之外,还可以创建一个辅助服务控制台(或 ESXi 的 VMkernel 端口), 并将其连接到一个单独的虚拟交换机上。主服务控制台用于网络和管理。辅助服务控制台创建之后,VMware HA 会同时通过主服务控制台和辅助服务控制台发送检测信号。如果一条路径发生故障,VMware HA 仍可通过另 一条路径发送和接收检测信号。26VMware, Inc. 为虚拟机提供容错3可以为虚拟机启用 VMware 容错,以获得比 VMware HA 所提供的级别更高的可用性和数据保护,从而确保 业务连续性。 容错基于 ESX/ESXi 主机平台构建(使用 VMware vLockstep 功能),它通过在单独主机上以虚拟锁步方式运 行相同的虚拟机来提供连续可用性。 要获取容错的最佳结果,应先熟悉其工作原理、如何为群集和虚拟机启用它、其最佳使用方法以及故障排除提示。 本章讨论了以下主题:n n n n n n n n n n第 27 页,“容错的工作方式” 第 28 页,“容错用例” 第 28 页,“容错配置要求” 第 29 页,“容错互操作性” 第 30 页,“为容错准备群集和主机” 第 32 页,“为虚拟机打开容错” 第 33 页,“查看有关容错虚拟机的信息” 第 34 页,“容错最佳做法” 第 36 页,“VMware 容错配置建议” 第 36 页,“容错故障排除”容错的工作方式VMware 容错可通过创建和维护等同于主虚拟机并可在发生故障切换时替换主虚拟机的辅助虚拟机来为虚拟机 提供连续可用性。 可以为大多数任务关键虚拟机启用容错。并会创建一个重复虚拟机(称为辅助虚拟机),该虚拟机会以虚拟锁 步方式随主虚拟机一起运行。VMware vLockstep 可捕获主虚拟机上发生的输入和事件,并将这些输入和事件 发送到正在另一主机上运行的辅助虚拟机。使用此信息,辅助虚拟机的执行将等同于主虚拟机的执行。因为辅 助虚拟机与主虚拟机一起以虚拟锁步方式运行,所以它可以无中断地接管任何点处的执行,从而提供容错保护。 主虚拟机和辅助虚拟机可持续交换检测信号。这使得虚拟机对中的虚拟机能够监控彼此的状态以确保持续提供 容错保护。如果运行主虚拟机的主机发生故障,系统将会执行透明故障切换,此时会立即启用辅助虚拟机以替 换主虚拟机,并将启动新的辅助虚拟机,同时在几秒钟内重新建立容错冗余。如果运行辅助虚拟机的主机发生 故障,则该主机也会立即被替换。在任一情况下,用户都不会遭遇服务中断和数据丢失的情况。 容错虚拟机及其辅助副本不允许在相同主机上运行。容错功能使用反关联性规则,这些规则可确保容错虚拟机 的两个实例永远不会在同一主机上。这可确保主机故障无法导致两个虚拟机都缺失。VMware, Inc.27 vSphere 可用性指南容错可避免“裂脑”情况的发生,此情况可能会导致虚拟机在从故障中恢复后存在两个活动副本。共享存储器 上锁定的原子文件用于协调故障切换,以便只有一端可作为主虚拟机继续运行,并由系统自动重新生成新辅助 虚拟机。 注意 系统会在主虚拟机启动后执行反关联性检查。当主虚拟机和辅助虚拟机都处于关闭状态时,它们可能会 位于相同主机上。但这是正常行为,辅助虚拟机会在主虚拟机启动时在其他主机上启动。容错用例几种典型情况可以受益于 VMware 容错的使用。 容错可提供比 VMware HA 更高级别的业务连续性。当调用辅助虚拟机以替换与其对应的主虚拟机时,辅助虚 拟机会立即取代主虚拟机的角色,并会保存其整个状况。应用程序已在运行,并且不需要重新输入或重新加载 内存中存储的数据。这不同于 VMware HA 提供的故障切换,故障切换会重新启动受故障影响的虚拟机。 更高的连续性级别以及增加的状况信息和数据保护功能可在您要部署容错时提供方案信息。n需要始终保持可用的应用程序,尤其是那些具有长时间客户端连接的应用程序,用户希望在硬件故障期间 保持这些连接。 不能通过任何其他方式实现群集功能的自定义应用程序。 可以通过自定义群集解决方案提供高可用性,但这些解决方案太复杂,很难进行配置和维护的情况。n n按需容错用容错保护虚拟机的另一个关键用例可以描述为按需容错。在这种情况中,虚拟机在正常操作期间受到 VMware HA 的充分保护。在某些关键期间,您可能希望增强虚拟机的保护。例如,您可能正在执行季末报告,如果发 生中断,则可能会延迟任务关键信息的可用性。使用 VMware 容错,可以在运行此报告之前保护此虚拟机,然 后在生成报告之后关闭或禁用容错。可以在关键时间段使用按需容错保护虚拟机,然后在非关键操作期间将资 源置回正常状态。容错配置要求要使 VMware 容错 (FT) 按预期方式执行,群集、主机和虚拟机的配置必须满足特定要求。群集必备条件与 VMware HA 在默认情况下保护群集内的每个虚拟机不同,VMware 容错在单个虚拟机上启用。要使群集支持 VMware 容错,必须满足以下必备条件:n必须针对群集启用 VMware HA。还应当启用主机监控。如果没有启用主机监控,那么,当容错功能使用 辅助虚拟机替换主虚拟机时,将不会创建新的辅助虚拟机且不会还原冗余。 必须为将用于容错的所有主机启用主机证书检查。请参见第 31 页,“启用主机证书检查”。 每台主机必须配置有 VMotion 和容错日志记录网卡。请参见第 31 页,“为主机配置网络”。 至少两台主机的处理器必须来自同一兼容处理器组。尽管容错功能支持异构群集(混合处理器组),但是, 如果所有主机均兼容,则将获取最大的灵活性。有关受支持处理器的信息,请参见 VMware 知识库文章, 网址为 http://kb.vmware.com/kb/1008027。 所有主机的 ESX/ESXi 版本和修补程序级别都必须相同。 所有主机必须对虚拟机的数据存储和网络具有访问权。n n nn n28VMware, Inc. 章 3 为虚拟机提供容错要确认群集内的主机是否兼容,从而判断其是否支持容错,请运行配置文件合规性检查。 注意 VMware HA 在执行接入控制计算时会包括容错辅助虚拟机的资源使用情况。对于“群集允许的主机故 障数目”策略,将为辅助虚拟机分配一个插槽;而对于“群集资源的百分比”策略,在计算群集的可用容量时 将考虑辅助虚拟机的资源使用情况。请参见第 12 页,“VMware HA 接入控制”。主机必备条件如果主机满足以下要求,则可以支持容错虚拟机。n主机上的处理器必须来自与容错兼容的处理器组。请参见位于 http://kb.vmware.com/kb/1008027 的 VMware 知识库文章。 主机必须经 OEM 认证为支持容错。请参阅当前的硬件兼容性列表 (HCL) 获取支持容错的服务器的列表 (请参见 http://www.vmware.com/resources/compatibility/search.php)。 主机配置必须在 BIOS 中启用了硬件虚拟化 (HV)。某些硬件制造商交付产品时禁用了硬件虚拟化。各种 BIOS 中启用硬件虚拟化的过程不同。请参见主机的 BIOS 文档以获取有关如何启用硬件虚拟化的详细信息。如 果未启用硬件虚拟化,则尝试启动容错虚拟机将产生错误,而且虚拟机不会启动。nn请查看第 34 页,“容错最佳做法”的“主机配置”部分以选择对 VMware 容错提供最佳支持的主机选项。虚拟机要求在可以打开容错前,虚拟机必须满足最低要求。n虚拟机文件必须存储在共享存储器上。可接受共享的存储解决方案包括光纤通道、(硬件和软件)iSCSI、 NFS 和 NAS。 虚拟机必须存储在虚拟 RDM 或厚置备的虚拟机磁盘 (VMDK) 文件(已启用“群集功能”选项)中。如果 将虚拟机存储在精简置备或厚置备的 VMDK 文件(未启用群集功能)中,则在尝试启用容错时将会出现 一则指示必须转换 VMDK 文件的消息。用户可以接受此自动转换(需要关闭虚拟机),允许转换磁盘并 使用容错保护虚拟机。此转换过程所需的时间根据磁盘的大小和主机处理器类型而有所不同。 虚拟机必须在一个受支持的客户机操作系统上运行。有关详细信息,请参见 VMware 知识库文章,网址为 http://kb.vmware.com/kb/1008027。nn容错互操作性在配置 VMware 容错之前,应当了解容错不能与之交互操作的功能和产品。容错和不支持的 vSphere 功能容错虚拟机不支持以下 vSphere 功能。n n快照。在虚拟机上启用容错前,必须移除或提交快照。此外,不可能对已启用容错的虚拟机执行快照。 Storage VMotion。不能为已启用容错的虚拟机调用 Storage VMotion。要迁移存储器,应当先暂时关闭容 错,然后再执行 Storage VMotion 操作。在完成迁移之后,可以重新打开容错。 DRS 功能。容错虚拟机会自动配置为禁用 DRS。DRS 最初将放置一个辅助虚拟机,但在对群集进行负载 平衡时,DRS 不会提出建议,也不会对主虚拟机或辅助虚拟机进行负载平衡。主虚拟机和辅助虚拟机在正 常运行期间可以进行手动迁移。n不与容错兼容的其他功能要使虚拟机与容错功能兼容,虚拟机不能使用以下功能或设备。VMware, Inc.29 vSphere 可用性指南表 3-1 不与容错兼容的功能和设备以及纠正操作不兼容的功能或设备 对称多处理器 (SMP) 虚拟机。只有支持单个 vCPU 的虚拟机 才与容错功能兼容。 物理裸磁盘映射 (RDM)。如果要针对虚拟磁盘使用裸磁盘映射 (RDM),则仅支持虚拟 RDM。 由物理或远程设备支持的 CD-ROM 或虚拟软盘设备。 准虚拟化客户机。 USB 和声音设备。 N_Port ID 虚拟化 (NPIV)。 网卡直通。 旧版网络硬件的网络接口。 纠正操作 将虚拟机重新配置为单个 vCPU。配置为单 vCPU 后,许多 工作负载均有较好的性能表现。 请重新配置具有支持物理 RDM 的虚拟设备的虚拟机以使用 虚拟 RDM。 移除 CD-ROM 或虚拟软盘设备,或使用共享存储器上安装的 ISO 重新配置备用功能。 如果准虚拟化不是必需的,请重新配置不带 VMI ROM 的虚 拟机。 从虚拟机移除这些设备。 禁用虚拟机的 NPIV 配置。 容错不支持此功能,因此必须将其关闭。 尽管某些旧版驱动程序不受支持,但容错支持 vmxnet2 驱动 程序。在某些客户机操作系统中,可能需要安装 VMware Tools(而不是 vlance)才能访问 vmxnet2 驱动程序。 当您打开容错时,系统会默认执行到适当磁盘格式的转换。 执行此操作时虚拟机必须处于关闭状态。 容错虚拟机的热插拔功能将自动禁用。要热插拔设备(添加 或移除),必须临时关闭容错,完成热插拔操作,然后重新 启用容错。 注意 使用容错时,如果在虚拟机正在运行过程中更改虚拟网 卡的设置,该操作即为热插拔操作,因为它要求先拔出网卡, 然后重新插入。例如,当正在运行的虚拟机使用虚拟网卡时, 如果更改虚拟网卡所连接到的网络,必须首先关闭容错。 扩展页表/快速虚拟化索引 (EPT/RVI)。 EPT/RVI 在启用了容错的虚拟机上将自动禁用。使用精简置备的存储器或未启用群集功能的厚置备磁盘备份 的虚拟磁盘。 热插拔设备。为容错准备群集和主机要为群集启用 VMware 容错,必须满足此功能的必备条件,然后在主机上执行特定的配置步骤。完成这些步骤 并创建群集后,还可以检查配置是否符合启用容错的要求。 尝试为群集启用容错之前应该完成的任务包括:n n n启用主机证书检查(如果您正在从先前版本的 Virtual Infrastructure 升级) 为每台主机配置网络 创建 VMware HA 群集,添加主机,并检查合规性在为群集和主机准备好容错之后,便可为虚拟机打开容错。请参见第 33 页,“为虚拟机打开容错”。30VMware, Inc. 章 3 为虚拟机提供容错启用主机证书检查使用主机证书检查,可以将 ESX/ESXi 主机配置为相互验证身份,从而确保维护一个更安全的环境。对于容错 虚拟机所在的 ESX/ESXi 主机来说,这是必需的。如果安装了 VMware vCenter Server 4.0 版本,系统会自动启 用主机证书检查。如果所用版本是从上一版本升级的版本,则必须手动执行此过程。在此过程中,您会看到主 机及其待验证的证书的列表。您可以在启用证书检查之前验证主机证书。必须以手动方式对未在此步骤中验证 的主机进行验证和重新连接。 步骤 1 2 将 vSphere Client 连接到 vCenter Server。 选择系统管理,然后选择 vCenter Server 设置。 此时会出现 vCenter Server 设置窗口。 3 4 5 在左窗格中单击 SSL 设置。 选中 vCenter 需要已验证的主机 SSL 证书复选框。 单击确定。为主机配置网络在要添加到 VMware HA 群集的每台主机上,必须配置两个不同的网络交换机,以便使主机也可以支持 VMware 容错。 前提条件 需要多个千兆位网络接口卡 (NIC)。对于支持容错的每台主机,总共需要两个 VMkernel 千兆位网卡:一个专 用于容错日志记录,一个专用于 VMotion。VMotion 和容错日志记录网卡必须位于不同子网上。其他网卡建议 用于虚拟机和管理网络流量。 步骤 1 2 3 将 vSphere Client 连接到 vCenter Server。 在 vCenter Server 清单中,选择主机,然后单击配置选项卡。 选择硬件下的网络,然后单击添加网络链接。 此时会出现添加网络向导。 4 5 6 7 8 9 选择连接类型下的 VMkernel,然后单击下一步。 选择创建虚拟交换机,然后单击下一步。 提供交换机的标签,然后选择将此端口组用于 VMotion 或将此端口组用于容错日志记录。 单击下一步。 提供 IP 地址和子网掩码,然后单击下一步。 单击完成。 要为主机启用容错,VMware 建议您执行此过程两次,即针对每个端口组选项执行一次,以确保有足够带 宽可供容错日志记录使用。选择一个选项,完成该过程,然后选择另一个端口组选项,再执行一次该过程。 在您已创建 VMotion 和容错日志记录虚拟交换机之后,应当将主机添加到群集,并完成任何所需步骤以打开容错。VMware, Inc.31 vSphere 可用性指南下一步 要确认是否在主机上成功启用了 VMotion 和容错,请在 vSphere Client 中查看该主机的“摘要”选项卡。 在“常规”窗格中,VMotion 已启用和容错已启用字段均应显示为“是”。 注意 如果您将网络配置为支持容错,但随后又将其禁用,已启动的容错虚拟机对将保持此配置。但是,如果 出现了故障切换情况,那么,当主虚拟机被其辅助虚拟机替换时,将不会启动新的辅助虚拟机,这会导致新的 主虚拟机以“不受保护”状态运行。创建 VMware HA 群集和检查合规情况VMware 容错在 VMware HA 群集环境中使用。在每台主机上配置网络之后,创建 VMware HA 群集并向其 中添加主机。可以查看群集配置是否正确以及是否符合成功启用容错的要求。 步骤 1 2 3 将 vSphere Client 连接到 vCenter Server。 在 vCenter Server 清单中,选择群集,然后单击配置文件合规情况选项卡。 单击立即检查合规情况运行合规情况测试。 要查看运行的测试,请单击描述。 合规情况测试的结果将显示在屏幕的底部。主机将标记为“合规”或“不合规”。 注意 有关如何创建 VMware HA 群集的详细论述,请参见第 11 页,第 2 章“创建和使用 VMware HA 群集”。为虚拟机打开容错在采取了为群集启用 VMware 容错所需的全部步骤之后,可以为各个虚拟机打开容错功能。 如果符合下列任一情况,则用于打开容错的选项将不可用(灰显):n n n n虚拟机所驻留的主机并未获得使用该功能的许可证。 虚拟机所驻留的主机处于维护模式或待机模式。 虚拟机已断开连接或被孤立(无法访问其 .vmx 文件)。 用户没有打开此功能的权限。如果用于打开容错的选项可用,则此任务仍然必须进行验证,并且在未满足某些要求时可能会失败。打开容错时的验证检查在打开容错之前,需要在虚拟机上执行多项验证检查。n n n n n n n必须在 vCenter Server 设置中启用 SSL 证书检查。 主机必须位于 VMware HA 群集或包含 VMware HA 和 DRS 的混合群集内。 主机必须安装了 ESX/ESXi 4.0 或更高版本。 虚拟机不得有多个 vCPU。 虚拟机不得有快照。 虚拟机不得是模板。 对于虚拟机不得禁用 VMware HA。32VMware, Inc. 章 3 为虚拟机提供容错已对已启动的虚拟机(或正在启动的虚拟机)执行了多项附加验证检查。n n n容错虚拟机所驻留的主机的 BIOS 必须启用了硬件虚拟化 (HV)。 支持主虚拟机的主机必须有支持容错的处理器。 支持辅助虚拟机的主机必须有支持容错的处理器,并且该处理器的 CPU 系列和型号与支持主虚拟机的主 机相同。 虚拟机的客户机操作系统和处理器的组合必须受容错支持(例如,基于 AMD 的处理器和 32 位 Solaris 系 统的组合当前不受支持)。 虚拟机的配置必须有效,以便与容错功能配合使用(例如,不得包含任何不受支持的设备)。nn当为虚拟机打开容错这一操作通过验证检查时,将创建辅助虚拟机,并复制整个主虚拟机的状况。辅助虚拟机 的放置位置和即时状态取决于在打开容错时主虚拟机是已启动还是已关闭。 如果主虚拟机已启动:n n将创建辅助虚拟机并将其放置在单独的兼容主机上,而且会在通过接入控制时启动。 vSphere Client 中虚拟机的“摘要”选项卡上显示的容错状态将为受保护。如果主虚拟机已关闭:n n n n将立即创建辅助虚拟机并在群集的主机中注册(启动该虚拟机时,可能会在更合适的主机上重新进行注册)。 辅助虚拟机在主虚拟机启动之后启动。 vSphere Client 中虚拟机的“摘要”选项卡上显示的容错状态将为不受保护、虚拟机未运行。 当尝试在打开容错之后启动主虚拟机时,将执行上面列出的附加验证检查。要正确启动,虚拟机不得使用 准虚拟化 (VMI)。 通过这些检查之后,将启动主虚拟机和辅助虚拟机,并将其分别放置在单独的兼容主机上,vSphere Client 中虚拟机的“摘要”选项卡上显示的容错状态将为受保护。为虚拟机打开容错可以通过 vSphere Client 打开 VMware 容错。 注意 在打开容错功能后,vCenter Server 会取消虚拟机的内存限制设置,并将内存预留值设置为虚拟机的内 存大小。当容错保持打开状态时,不能更改内存预留、大小、限制或份额。在关闭容错功能后,已更改的任何 参数均不会恢复到其原始值。 使用具有群集管理员权限的帐户将 vSphere Client 连接到 vCenter Server。 步骤 1 2 选择“主机和群集”视图。 右键单击虚拟机并选择容错 & 打开容错。特定的虚拟机将指定为主虚拟机,并在另一台主机上建立辅助虚拟机。现在,主虚拟机已启用了容错功能。查看有关容错虚拟机的信息可以使用 vSphere Client 查看 vCenter Server 清单中的容错虚拟机。 注意 不能从辅助虚拟机禁用容错。VMware, Inc.33 vSphere 可用性指南主虚拟机的摘要选项卡中提供了 VMware“容错”区域(窗格),其中包含了有关虚拟机的信息。 容错状态 表示虚拟机的容错状态。n n受保护。表示主虚拟机和辅助虚拟机均已启动并正在按预期运行。 不受保护。表示辅助虚拟机未在运行。下表中列出了可能原因。 表 3-2 主虚拟机处于不受保护状态的原因处于不受保护状态的原因 正在启动 需要辅助虚拟机 描述 容错功能正在启动辅助虚拟机。此消息 仅在短时间段内可见。 主虚拟机正在运行而没有辅助虚拟机, 因此主虚拟机当前不受保护。此情况通 常在群集内无兼容主机可用于辅助虚拟 机时发生。使某台兼容主机联机可解决 此问题。如果群集内有联机的兼容主机, 则可能需要进一步调查。在某些情况下, 禁用容错然后重新将其启用可解决此问 题。 容错功能当前处于禁用状态(没有辅助 虚拟机正在运行)。此情况在用户禁用 了容错或当 vCenter Server 在无法启动 辅助虚拟机之后禁用了容错时发生。 容错功能已启用,但虚拟机已关闭。启 动虚拟机,使其达到受保护状态。已禁用虚拟机未运行辅助虚拟机位置 辅助虚拟机的总 CPU 辅助虚拟机的总内存 vLockstep 时间间隔 记录带宽显示辅助虚拟机所在的 ESX/ESXi 主机。 表示辅助虚拟机的 CPU 使用情况,以 MHz 为单位。 表示辅助虚拟机的内存使用情况,以 MB 为单位。 辅助虚拟机匹配主虚拟机的当前执行状况所需的时间间隔(以秒为单位)。通 常,此时间间隔小于半秒。 用于将 VMware 容错日志信息从运行主虚拟机的主机发送到运行辅助虚拟机的 主机的网络容量。容错最佳做法为帮助确保获得最佳容错结果,VMware 建议您遵循某些最佳做法。主机配置配置主机时请遵守以下最佳做法。n运行主虚拟机和辅助虚拟机的主机应当按照与处理器大致相同的频率运行,否则辅助虚拟机可能会更频繁 地重新启动。不依据工作负载进行调整(例如,为省电而执行功率封顶和强制低频率模式)的平台电源管 理功能可能会导致处理器频率大范围浮动。如果辅助虚拟机要定期重新启动,请在运行容错虚拟机的主机 上禁用所有的电源管理模式,或者确保所有主机以相同电源管理模式运行。 对所有主机应用相同的指令集扩展配置(已启用或已禁用)。启用或禁用指令集的过程因 BIOS 而异。请 参见主机的 BIOS 文档以获取有关如何配置指令集的详细信息。n34VMware, Inc. 章 3 为虚拟机提供容错同类群集VMware 容错可以在主机不一致的群集内使用,但在节点兼容的群集内才能起到最好的效果。构建群集时,所 有主机都应具有:n n n n n来自同一兼容处理器组的处理器。 对虚拟机所用数据存储的一般访问权限。 相同的虚拟机网络配置。 相同的 ESX/ESXi 版本。 所有主机的相同 BIOS 设置。运行检查合规情况以确定不兼容性,并进行更正。性能要为主虚拟机和辅助虚拟机之间的日志记录流量增加可用带宽,请使用 10 千兆位网卡(而不是 1 千兆位网卡), 并运行使用巨帧。在共享存储器上存储 ISO 以连续进行访问由启用了容错的虚拟机访问的 ISO 应当存储可以供容错虚拟机的这两个实例访问的共享存储器上。如果使用此 配置,虚拟机中的 CD-ROM 会继续正常工作,即使发生了故障切换也是如此。 对于启用了容错的虚拟机,您可能会使用只有主虚拟机才可访问的 ISO 映像。在这种情况下,主虚拟机可以访问 ISO,但是如果发生故障切换,CD-ROM 会报告错误,就好像介质不存在一样。如果 CD-ROM 只是用于临时 的非关键性操作(如安装),则此情况是可以接受的。升级用于容错的主机当升级包含容错虚拟机的主机时,必须确保主虚拟机和辅助虚拟机继续在具有相同 ESX/ESXi 版本和修补程序 级别的主机上运行。 前提条件 群集管理员特权。 四台或多台正在托管已启动的容错虚拟机的 ESX/ESXi 主机集合。如果虚拟机已关闭,则主虚拟机和辅助虚拟 机可以重定位到具有不同内部版本的主机。 注意 此升级过程适用于至少包含四个节点的群集。更小的群集也可以遵循此说明,不过不受保护的时间间隔 将稍微长一些。 步骤 1 2 3 4 5 6 7 使用 VMotion 从两台主机中迁出容错虚拟机。 将这两台已撤出的主机升级到相同的 ESX/ESXi 内部版本。 在主虚拟机上禁用容错。 使用 VMotion 将已禁用的主虚拟机移动到其中一台已升级的主机上。 针对已移动的主虚拟机重新启用容错。 要在升级的主机上容纳尽可能多的容错虚拟机对,请重复步骤 1 到步骤 5。 使用 VMotion 重新分配容错虚拟机。群集中的所有 ESX/ESXi 主机即已升级。VMware, Inc.35 vSphere 可用性指南VMware 容错配置建议VMware 建议您在配置容错时遵循特定准则。n除了非容错虚拟机以外,任何一台主机上不得有超过四个的容错虚拟机(主虚拟机或辅助虚拟机)。每台 主机上可以安全运行的容错虚拟机数目依据 ESX/ESXi 主机和虚拟机的大小以及工作负载而有所不同,所 有的这些数目均会根据情况发生变化。 如果要使用 NFS 访问共享存储器,请使用至少具有 1 千兆位网卡的专用 NAS 硬件,以获取为了使容错功 能正常工作所需的网络性能。 确保包含容错虚拟机的资源池内存大于虚拟机内存。容错虚拟机会使用其全部内存预留。如果资源池中没 有额外内存,则可能没有内存可用作开销内存。 VMware 建议每个容错虚拟机上最多使用 16 个虚拟磁盘。 为确保冗余和最大容错保护,VMware 建议您在群集中至少有三台主机。如果发生故障切换情况,这可确 保有主机可容纳所创建的新辅助虚拟机。nnn n容错故障排除要保持容错虚拟机的高级别性能和稳定性并最小化故障切换率,应当了解某些故障排除主题。 此处讨论的故障排除主题重点介绍在虚拟机上使用 VMware 容错功能时所遇到的问题。本主题还介绍了解决这 些问题的方法。 可以使用附录“容错错误消息”中提供的信息来帮助您解决容错问题。此主题包含在尝试使用该功能时可能遇 到的错误消息列表以及如何解决每个错误的建议(如果可用)。意外虚拟机故障切换通过确定意外虚拟机故障切换的原因,可能需要排除 VMware 容错故障。这种类型的故障切换在主虚拟机或辅 助虚拟机已进行故障切换并重新建立冗余时发生,即使其 ESX/ESXi 主机未崩溃也是如此。在这种情况下,虚 拟机执行不会中断,但会临时失去冗余。与存储器有关的部分硬件故障当存储器访问缓慢或完全无法访问某台主机时,可能出现此问题。此问题发生时,VMkernel 日志中将列出许 多存储器错误。要解决此问题,必须找到与存储器有关的问题。与网络有关的部分硬件故障如果日志记录网卡不能正常工作或通过该网卡与其他主机的连接断开,将触发容错虚拟机进行故障切换,从而 重新建立冗余。要避免此问题,请将每个独立网卡专门用于 VMotion 和容错日志记录,并仅在虚拟机活动较少 时执行 VMotion 迁移。日志记录网卡网络上的带宽不足如果主机上有过多的容错虚拟机,则会发生此问题。要解决此问题,请将容错虚拟机对分布到更多的不同主机上。由虚拟机活动级别引起的 VMotion 故障如果通过 VMotion 迁移容错虚拟机失败,则虚拟机可能需要进行故障切换。此问题通常在虚拟机过于活跃(因 而无法在对其造成最小损坏的情况下完成迁移)时发生。要避免此问题,请只在虚拟机活动较少时执行 VMotion 迁移。36VMware, Inc. 章 3 为虚拟机提供容错VMFS 卷上活动过多可能会导致虚拟机故障切换在单一 VMFS 卷上执行大量文件系统锁定操作、虚拟机启动/关闭或 VMotion 迁移时,可能会触发容错虚拟机 进行故障切换。可能发生此现象的症状为在 VMkernel 日志中收到许多有关 SCSI 预留的警告。要解决此问题, 请减少文件系统操作的数量,或确保容错虚拟机位于 VMFS 卷上,而且该卷上没有大量定期启动/关闭或使用 VMotion 进行迁移的其他虚拟机。文件系统空间不足导致无法启动辅助虚拟机请检查 /(root) 或 /vmfs/&datasource& 文件系统中是否有可用空间。这些文件系统可能会因多种原因而变得空间 已满,空间不足会导致您无法启动新辅助虚拟机。其他容错故障排除问题可能需要排除对容错虚拟机功能产生负面影响的问题。必须启用硬件虚拟化尝试启动启用了 VMware 容错的虚拟机时,可能会出现错误消息。这通常是由硬件虚拟化 (HV) 在尝试启动的 虚拟机所在的 ESX/ESXi 服务器上不可用造成的。硬件虚拟化不可用的原因可能是其不受 ESX/ESXi 服务器硬件 支持或未在 BIOS 中启用。 如果 ESX/ESXi 服务器硬件支持硬件虚拟化,但当前未启用硬件虚拟化,请在该服务器的 BIOS 中将其启用。各种 BIOS 中启用硬件虚拟化的过程不同。请参见主机的 BIOS 文档以获取有关如何启用硬件虚拟化的详细信息。 如果 ESX/ESXi 服务器硬件不支持硬件虚拟化,请切换到使用支持容错的处理器的硬件。兼容的辅助主机必须可用在启动已启用容错的虚拟机后,在“近期任务”窗格中可能会显示错误消息:辅助虚拟机无法启动,因为没有兼容主机可以容纳该虚拟机。这可能是由多种原因造成的,包括群集内没有其他主机、没有其他已启用硬件虚拟化的主机、数据存储不可访问、 可用容量不足或主机正处于维护模式中。如果主机数量不足,请向群集内添加更多主机。如果群集内有多台主机, 请确保它们支持硬件虚拟化且硬件虚拟化已启用。各种 BIOS 中启用硬件虚拟化的过程不同。请参见主机的 BIOS 文档以获取有关如何启用硬件虚拟化的详细信息。检查主机是否有足够容量,并确认它们未处于维护模式中。过载主机上的辅助虚拟机降低主虚拟机的性能如果主虚拟机的执行速度似乎缓慢,即便它所在主机上的负载较轻且有空闲 CPU 时间,也请检查运行辅助虚 拟机的主机是否负载较重。在 CPU 资源过载的主机上运行的辅助虚拟机获取的 CPU 资源与主虚拟机获取的 CPU 资源数量可能不同。当出现此情况时,主虚拟机必须频繁减速以使辅助虚拟机跟进,将主虚拟机的执行速度大 大降低至辅助虚拟机的较慢速度。 此问题的进一步症状是主虚拟机“容错”面板上的“vLockstep 时间间隔”指示器为黄色或红色。这表示辅助 虚拟机比主虚拟机的运行慢数秒。在这种情况下,容错将减慢主虚拟机的速度。如果“vLockstep 时间间隔” 指示器长时间保持为黄色或红色,则充分表明辅助虚拟机未能获取足够的 CPU 资源,因此跟不上主虚拟机的速度。 要解决此问题,请为主虚拟机设置明确的 CPU 预留(以 MHz 为单位),该预留应足以在所需性能级别上运行 负载。此预留对于主虚拟机和辅助虚拟机均适用,能够确保两者均能以指定的速率执行。有关设置此预留的指导, 请在启用容错前查看虚拟机的性能图表以查看在正常条件下使用的 CPU 资源量。大型虚拟机可能会阻止使用容错如果虚拟机太大(大于 15GB)或内存的变化速率大于 VMotion 通过网络进行复制的速率,则启用容错或使用 VMotion 迁移正在运行的容错虚拟机时可能会失败。如果由于虚拟机的内存大小而没有足够的带宽以在默认超 时时间段(8 秒)内完成 VMotion 切换操作,则会出现此问题。VMware, Inc.37 vSphere 可用性指南要解决此问题,请在启用容错前,关闭虚拟机并将下行添加到虚拟机的 vmx 文件中,以增加虚拟机的超时时间段:ft.maxSwitchoverSeconds = &30&其中 30 是超时时间段的数值,以秒为单位。启用容错并重新启动虚拟机。除了在网络活动极多的情况下,此解 决方案均可正常使用。 注意 如果您将超时时间段增加到 30 秒,则在启用容错或在故障切换之后创建新辅助虚拟机时,容错虚拟机可 能会在较长时间内都没有响应(最多 30 秒)。辅助虚拟机出现 CPU 使用过度在某些情况中,您可能会注意到某个辅助虚拟机的 CPU 使用率高于其关联的主虚拟机。这是因为在辅助虚拟 机上重放事件(如计时器中断)比在主虚拟机上记录事件的成本高。而额外开销较小。当主虚拟机空闲时,主 虚拟机和辅助虚拟机之间的相对差异看起来可能会较大,但检查实际 CPU 使用情况时会发现主虚拟机或辅助 虚拟机当前消耗的 CPU 资源很少。38VMware, Inc. 附录: 容错错误消息尝试使用 VMware 容错 (FT) 时,可能会遇到错误消息。表中列出了其中部分错误消息。每个错误消息均提供 了有关解决该错误的描述和信息(如果适用)。 表 A-1 容错错误消息错误消息 描述和解决方案此主机包含已打开容错的虚拟机 此主机不能从群集中移出,因为它包含已打开容错的虚拟机。要将此主机移动到另一 (VM),因此无法将该主机从当前群集 个群集中,请首先将容错虚拟机迁移至另一台主机。 中移出。要将此主机移动到另一群集, 请先将已打开容错的虚拟机迁移到其 他主机 无法将包含已打开容错的虚拟机的主 机添加到未启用 HA 的群集 无法将包含已打开容错的虚拟机的主 机作为独立主机添加 此主机上的一台或多台虚拟机已启用 容错,必须禁用容错才能将主机从当 前群集中移出 虚拟机 {vmName} 已启用容错。禁用 容错以将虚拟机从当前 [资源池, 群集] 中移出 主机 {hostName} 包含已打开容错的 虚拟机。在与该主机断开连接前,应 将其置于维护模式或关闭这些虚拟机 上的容错保护 同一容错对中的虚拟机不能位于同一 主机上 文件系统上虚拟机磁盘的未使用磁盘 块尚未擦除。要支持容错等功能需要 执行此操作 文件系统上虚拟机磁盘的磁盘块尚未 完全置备。要支持容错等功能需要执 行此操作 不支持的虚拟机容错配置 容错功能要求群集已启用 VMware HA。请编辑群集设置,并打开 VMware HA。 不能在独立主机上启用容错。当主机位于已启用 VMware HA 的群集中时,右键单 击该主机上的每个虚拟机,然后选择“关闭容错”。禁用容错之后,此主机便可以添 加为独立主机。 在关闭容错之前,此主机不能从群集中移出。要关闭容错,请右键单击容错虚拟机, 然后选择“关闭容错”。 要将虚拟机移到其他群集或独立主机,请首先关闭容错。在将此主机置于维护模式或关闭容错之前,无法断开与该主机的连接。要关闭容错, 请右键单击容错虚拟机,然后选择“关闭容错”。您已尝试通过 VMotion 将辅助虚拟机迁移到主虚拟机所在的同一主机上。主虚拟机 和其辅助虚拟机不能位于同一主机上。请为辅助虚拟机选择其他目标主机。 已尝试在已启动的虚拟机上打开容错,该虚拟机具有厚格式的磁盘,磁盘属性为 Lazy Zero。对于类似的虚拟机,无法在其已启动时启用容错。请关闭虚拟机,然后打开容 错并重新启动虚拟机。此操作会在虚拟机重新启动时更改其磁盘格式。如果虚拟磁盘 较大,则打开容错可能需要一些时间。 您已尝试在具有精简置备磁盘的已启动虚拟机上打开容错。对于类似的虚拟机,无法 在其已启动时启用容错。请关闭虚拟机,然后打开容错并重新启动虚拟机

我要回帖

更多关于 服务接入安全策略 的文章

 

随机推荐