Terraform-中安全地更改-EC2-实例-instance_type-的指南

2025-03-06 约 6339 字预计阅读 13 分钟

https://bing.ee123.net/img/rand?artid=146074963

Terraform 中安全地更改 EC2 实例 instance_type 的指南

在使用 Terraform 管理 AWS EC2 实例时，更改实例类型 ( instance_type ) 需要谨慎处理，以避免实例被意外重建或系统盘数据丢失。接下来将详细介绍如何通过 Terraform 安全地更改 EC2 实例的类型，并保证系统盘（根卷）的数据完整无损。

本文涵盖以下内容：

Terraform 变更影响分析 ：如何确认 instance_type 更改不会影响系统盘。
实例停机与变更策略 ：如何执行实例停机并应用变更。
检查 Terraform 计划 ( terraform plan ) 输出 ，确保 Terraform 仅修改实例类型。
应用变更 ( terraform apply ) 过程 ：如何正确执行，确保不会误删除系统盘。
实例重启与验证 ：变更完成后如何确认实例恢复正常，数据未丢失。

1. Terraform 变更影响分析

在 Terraform 的配置中更新 EC2 实例的 instance_type 会对资源产生什么影响呢？根据 Terraform 的设计，新版本的 Terraform 已支持对 EC2 实例类型的原地更新（in-place update），无需销毁重建整个实例 ( )。也就是说，当我们仅修改 aws_instance 资源的 instance_type 属性并运行 terraform plan 时，计划输出应显示实例将 原地修改 （在输出中以 ~ 前缀标识），而不是销毁再创建 ( )。例如，Plan 中可能出现类似： ~ instance_type: "t2.micro" => "t3.small" 。只要 Terraform Plan 显示为修改（ ~ ）而非销毁/重建（ -/+ ），就意味着 Terraform 将通过停止实例、调整类型然后重新启动实例的方式来应用更改，而不会替换实例 ( )。

值得注意的是，在应用此修改时实例会经历一次停机。Terraform 提供商会调用 AWS API 停止实例、修改实例类型，然后再启动实例 ( )。这一过程相当于人工在 AWS 控制台执行“停止实例->更改类型->启动实例”，因此会有短暂的不可用时间（停机时间）。在变更前，应该评估这一停机对业务的影响，必要时规划维护窗口。

系统盘数据安全性分析 ：由于 Terraform 更改 instance_type 是原地完成，实例的 ID 不变，附加在该实例上的EBS卷（包括根卷）也不会改变或重新创建。因此，只要我们遵循正确的步骤，实例的系统盘数据将保持完整，Terraform 不会删除或替换现有的根磁盘。需要避免的是其他会强制重建实例的改动，例如更换 AMI 映像（这会导致 Terraform 计划销毁并重建实例），那样系统盘数据就可能丢失 ( )。仅调整 instance_type 并不涉及AMI或磁盘配置变更，因而默认情况下不会影响系统盘的数据。

当然，前提是实例是由 EBS 卷作为根存储（大多数现代实例均是如此）。如果实例使用实例存储（Instance Store）作为根盘，那么无法通过停止/启动保留数据——实例存储在停止后数据即丢失，此种情况下 Terraform 也会强制重新创建实例。但对于EBS支持的实例类型，按照正常流程更改类型是安全的，不会丢失根盘数据。

2. 实例停机与变更策略

根据 AWS 官方要求，更改 EC2 实例类型之前 必须先将实例停止 。AWS 文档明确指出：“在您可以更改实例类型之前，必须先停止实例” ( )。因此，无论是通过控制台手动操作还是使用 Terraform，修改实例类型都离不开“停止实例->更改配置->启动实例”这一流程。具体来说：

AWS 官方方法（控制台/CLI） ：在 AWS 管理控制台中，选中实例，选择“实例状态 -> 停止”，等待实例进入停止状态；然后在“操作 -> 实例设置”中选择“更改实例类型”，选择新的类型并应用；最后再启动实例。AWS 会在实例运行时禁止直接修改类型，如果实例处于运行状态，控制台操作会先将其停止再更改类型。同理，使用 AWS CLI 执行 aws ec2 modify-instance-attribute --instance-id <ID> --instance-type <newType> 也要求实例已停止，否则会报错。因此，停机是更改实例类型的必要步骤。
Terraform 管理方法 ：Terraform 的 AWS 提供商在检测到 instance_type 需要更新时，会自动按照上述流程执行。也就是说，Terraform 会负责停止实例、修改类型、再启动实例 ，而不需要用户手动干预 ( )。Terraform 将此视为资源的生命周期内的正常修改，而非销毁重建。这一点由 Terraform 状态和计划来保障：Terraform 知道该实例已经存在，会将修改约束在该资源上，不会去创建新实例。因而根卷（系统盘）仍然附着在原实例上，不会被替换或丢失。

在停止实例进行类型变更时，有几点需要特别注意：

停机导致的附加影响 ：当实例停止后，AWS 可能会将实例迁移到不同的底层硬件。当实例重新启动时，实例ID保持不变，之前关联的Elastic IP和私有IP地址仍会保留；但如果之前使用的是自动分配的公有IP（非弹性IP），则重启后该公有IP会发生变化 ( )。因此，如果我们的实例没有绑定弹性IP，变更后需要留意其公网IP变动对外部系统的影响（例如DNS映射）。此外，如果实例在一个自动伸缩组中，长时间停止可能被判定为不健康而替换，所以在变更期间应暂停该Auto Scaling组的健康检查或缩容该实例 ( )。
实例存储卷 (Ephemeral) ：对于具有实例存储的实例类型（少数旧类型或带本地NVMe存储的类型），停止实例会导致这些 临时存储的数据丢失 。Terraform 在执行类型变更时无法避免这一点——这是AWS的特性限制。因此，在变更前应确保没有将重要数据仅存放在实例的临时硬盘上 ( )。一般来说，系统盘为EBS时数据是安全的，但实例上的临时盘（如果有）在停机后内容即消失，此属正常现象，非Terraform导致。
delete_on_termination 标志： root_block_device 配置中的 delete_on_termination 决定了实例终止时是否删除其绑定的EBS根卷。通常该值默认为 true （表示实例销毁时删除磁盘），保持此默认设置有助于Terraform正确管理卷的生命周期，避免状态不一致。不过，在我们确保不会销毁实例的前提下，这个值不影响类型调整过程。然而 务必确保 在修改 instance_type 时，没有错误地调整 root_block_device 配置或改动 delete_on_termination 值。保持其为 true （默认值）可以防止Terraform在计划时将其视作需要更改的属性，避免出现额外的卷操作，从而确保系统盘在整个过程中保持原样，不会被意外删除或分离。

总之，遵循“先停机再修改再重启”的策略是安全更改实例类型的核心。Terraform 已经帮我们自动实现了这一策略，但作为用户仍需知晓其过程，以便在变更时配合检查和确认。

3. 检查 Terraform 计划 ( `terraform plan` ) 输出

在正式应用更改前，务必运行 terraform plan 来预览即将发生的变更，并仔细检查计划输出，确认修改范围仅限于 instance_type 属性。以下是执行和解读 terraform plan 的步骤：

**执行 Terraform Plan：**在 Terraform 配置中更新 EC2 实例的 instance_type （例如从 "t2.micro" 改为 "t3.small" ）后，运行命令：

   PS C:\src\devops\terraform> terraform plan -out=ftplan
Terraform used the selected providers to generate the following execution plan. Resource actions are indicated with the
following symbols:
  ~ update in-place

Terraform will perform the following actions:

  # module.ec2_instance_standard_contract.aws_instance.server-dev will be updated in-place
  ~ resource "aws_instance" "server-dev" {
        id                                   = "i-08ccd763cc9544e9c"
      ~ instance_type                        = "t3.large" -> "t3.xlarge"
      ~ public_dns                           = "ec2-10-140-142-237.ap-southeast-1.compute.amazonaws.com" -> (known after apply)
      ~ public_ip                            = "10.140.142.237" -> (known after apply)
        tags                                 = {
            "Name" = "standard-contract"
        }
        # (36 unchanged attributes hidden)

        # (8 unchanged blocks hidden)
    }

Plan: 0 to add, 1 to change, 0 to destroy.

Saved the plan to: ftplan

To perform exactly these actions, run the following command to apply:
    terraform apply "ftplan"

Terraform 将根据当前状态和配置计算出执行计划，并输出资源更改列表。建议针对目标资源执行 plan（例如 terraform plan -target="module.ec2_instance__standard_contract.aws_instance.server-dev" ）以专注于该实例的变更（如果Terraform版本较新，也可以直接查看整体计划输出中的相关部分）。

**识别计划符号：**留意计划输出中的符号含义：
- ~ 表示 将更新 现有资源的某些属性（in-place修改）。
- - 表示销毁资源， + 表示创建资源；如果同时出现 -/+ 则表示资源将被替换。
- 在本次操作中，我们 期望只看到 ~ 修改 ，而不应出现销毁/创建操作。正常情况下，Terraform 会显示类似 ~ resource "aws_instance" "server-dev" ，表示我们的 EC2 实例将被更新而非重建 ( )。

**检查变更细节：**在 plan 输出中，找到对应 aws_instance 资源的详细变更列表。例如：

   # module.ec2_instance_standard_contract.aws_instance.server-dev will be updated in-place
   ~ resource "aws_instance" "server-dev" {
         id                                   = "i-08ccd763cc9544e9c"
       ~ instance_type                        = "t3.large" -> "t3.xlarge"
       ~ public_dns                           = "ec2-10-140-142-237.ap-southeast-1.compute.amazonaws.com" -> (known after apply)
       ~ public_ip                            = "10.140.142.237" -> (known after apply)
         tags                                 = {
             "Name" = "standard-contract"
         }
         # (36 unchanged attributes hidden)

         # (8 unchanged blocks hidden)
     }

 Plan: 0 to add, 1 to change, 0 to destroy.

重点关注 instance_type 行，应显示旧值 -> 新值的更改。另外，检查 root_block_device 等与存储相关的部分：正常情况下，这些块设备配置不会在 plan 中出现变更行，因为根卷未发生任何改变。也就是说，诸如 volume_id 、 delete_on_termination 等字段应该 保持不变 。如果 plan 输出未Explicit列出它们的更改，基本可以确定 Terraform 不会对系统盘执行销毁或重新创建操作。

示例: 若 terraform plan 输出中包含了 root_block_device.0.volume_id 或类似字段，并显示更改（例如更换了 vol-XXXX 的ID），那表示Terraform认为根卷需要更换，这是不正常的，务必停止并调查原因（例如是否错误地修改了 root_block_device 配置）。在理想情况下，plan 的变更应仅限于 instance_type 一项，其它如 ami 、 subnet_id 、 volume_id 等都不应出现变化。

确认计划摘要： 查看 plan 输出底部的摘要行，确保它类似于： Plan: 0 to add, 1 to change, 0 to destroy. 这表示将有1个现有资源被更新，无新建也无销毁。这与我们的预期一致。如果出现了“将销毁 (destroy)”的提示，切勿贸然继续，而应该回滚修改或检查Terraform配置，以找出是哪个改动引起了实例重建计划。

通过仔细解读 terraform plan ，我们可以有信心地确认此次操作只是更改实例类型，不会影响系统盘数据。例如，有用户报告在 Terraform 0.8.8 及以后版本中，更改实例类型时 Terraform 会显示原地更新且不会销毁实例 ( )。如果我们的计划输出与此一致，那么就可以进入下一步。反之，如果计划不符预期，应先行解决再进行应用。

4. 应用变更 ( `terraform apply` ) 过程

在确认 terraform plan 符合预期且仅修改 instance_type 之后，就可以执行 terraform apply 将更改付诸实践。以下是应用变更的过程和注意事项：

执行 Terraform Apply ：运行命令：
```
PS C:\src\devops\terraform> terraform apply "ftplan"
Apply complete! Resources: 0 added, 1 changed, 0 destroyed.
```
Terraform会再次显示执行计划并要求确认。请再次核对输出（尤其在 plan 之后有进一步修改的情况下）。输入 yes 确认后，Terraform将开始对AWS执行实际更改。
Terraform 输出监控： terraform apply 过程中的终端输出会显示资源的操作进展。例如：
- aws_instance.my_instance: Modifying... [id=i-1234567890abcdef] 表示正在修改该实例。
- 此时，您可以在 AWS 控制台观察到对应实例进入 stopping 状态，随后实例状态变为 stopped ，实例类型属性在停止期间被更新，紧接着实例进入 pending 然后 running 状态重新启动。这一系列操作都是 Terraform 在幕后调用 AWS API 完成的。
- Terraform 完成后会输出类似 aws_instance.my_instance: Modifications complete after Xs ，最终提示 Apply complete! Resources: 0 added, 1 changed, 0 destroyed. 表明应用成功，1个资源已更新。
异常情况处理 ：通常，更改实例类型是一个直接的过程，但仍需防范潜在异常：
- 类型不兼容或配额问题 ：如果新实例类型与当前实例配置不兼容（例如架构不同、虚拟化类型不同）或者 AWS 资源不足，AWS 可能会返回错误，导致 Terraform 应用失败。这时终端会显示错误信息。遇到此类错误，实例可能会保持在已停止状态（如果类型修改未成功应用）。应根据错误信息采取措施，例如选择兼容的实例类型或在AWS控制台手动将实例启动回原类型以恢复服务，然后重新规划变更方案。
- Terraform 中断 ：在 apply 过程中， 不要强制中断 Terraform ，以免状态不同步。如果不得不中断（比如网络问题），在恢复后应先使用 terraform refresh （或 terraform plan ）检查当前状态，再决定后续步骤。
- 生命周期保护 ：如果之前在 Terraform 配置中对该实例设置了 lifecycle { prevent_destroy = true } 防止销毁，那么即使计划是重建实例，Terraform 也会在 apply 时阻止删除操作。这在本场景下应不适用（因为我们不期望销毁），但值得了解其存在，以防配置中有类似保护导致 apply 失败需要解除。
最坏情况预案 ：虽然按照上述方法 Terraform 不会重建实例，但如果由于某种原因计划出现了实例重建（销毁+创建），为了保险起见可以采取额外预防措施：
- 临时将根卷的 delete_on_termination 设置为 false （如果允许修改的话），使得即便实例被销毁，其系统盘EBS卷也不会被删除，从而保留数据。此操作需谨慎，并记得在操作完成后根据需要改回原设置。
- 或者在 Terraform 外手动创建快照备份当前根卷。在极端意外发生时（实例被删），仍可通过快照还原数据。
当然，这些仅作为容灾备选。按照我们规划的流程，Terraform 不应删除系统盘或使数据受损。

总的来说， terraform apply 步骤在正确的计划下是安全的。应用过程中多关注Terraform输出及AWS控制台实例状态，可以及时发现异常并处理。正常情况下，Terraform 会顺利完成实例类型调整，实例将以新类型重新启动运行。

5. 实例重启与验证

变更完成后，需要对实例进行检查和验证，以确保实例按新配置正常运行且系统盘数据完好无损。请按照以下步骤进行验证：

检查实例状态 ：在 Terraform 提示应用完成后，登录 AWS 管理控制台，找到该 EC2 实例，确认其 状态为 running（运行中） ，实例类型已更新为您期望的新类型。如果实例没有自动启动（例如实例之前就是停止状态，Terraform 修改后保持停止），则需要手动启动实例。在 AWS 控制台或使用 CLI ( aws ec2 start-instances --instance-ids <实例ID> ) 启动它，并等待其变为运行状态。
确认实例标识 ：核对实例的 Instance ID ，确保仍然是原来的ID（Terraform 原地更新不会改变实例ID）。实例ID不变意味着我们依然在操作原来的实例 ( )。这一点可以从 Terraform 输出或 AWS 控制台直接看到。如果实例ID发生变化，那表明出现了实例替换，应立即调查原因。
验证系统盘挂载 ：查看该实例的存储卷配置。在 AWS 控制台的 “存储” 或 “Volumes” 部分，找到附加到该实例的根卷（通常挂载点为 /dev/xvda 或 /dev/sda1 ）。核对其 卷ID (Volume ID) 是否与变更前一致。如有需要，可在变更前先记录下原始卷ID，然后在变更后对比。理想情况下，卷ID应完全相同，表示实例仍使用原来的系统盘。您也可以通过 Terraform 命令验证这一点：
```
terraform state show  module.ec2_instance_standard_contract.aws_instance.server-dev
```
在输出中寻找 root_block_device 信息，确认其中的 volume_id 未发生变化，且依然与实例关联。如果 terraform state show 显示 Terraform 正在跟踪同一个卷，那么说明Terraform状态与实际资源匹配，一切正常。
数据完整性检查 ：确保系统盘中的数据确实未丢失。最直接的方法是登录到该实例（通过SSH或RDP等方式），检查关键文件或数据是否完好。例如，查看之前创建的文件是否仍然存在，应用或服务是否保留了原有的配置和数据。由于我们没有更换或重新创建根卷，按理说数据不会改变。如果无法登录实例，也可将该EBS卷挂载到其他临时实例进行检查（不太常见，仅在怀疑数据完整性时采取）。
其他附加验证：
- 网络连通性 ：如果实例有公共IP且未使用弹性IP，那么重启后IP可能变化 ( )。确认新的公共IP并更新相关的DNS记录或通知客户端。如果是私有实例，检查其私有IP是否保持不变（通常停止/启动会保留私有IP，但不同子网策略可能有影响）。
- 应用服务 ：重启后确保实例上的应用服务启动并正常运行。观察应用日志或监控指标，确保因为实例类型变更（比如CPU/内存资源变化）没有引入性能或兼容性问题。
- CloudWatch 检查 ：查看CloudWatch中该实例的新指标，以验证实例规格变更生效（如CPU基线性能对应新实例类型）。
清理与后续 ：
- 如果在变更过程中对 Terraform 配置做了临时调整（例如 lifecycle 规则或 delete_on_termination 设置），在确认变更成功后可以恢复原配置以保持代码一致性。
- 将此次变更记录在案，包括变更前后的实例类型、卷ID、停机时间段等，方便日后审计或排查。
- 未来若再次需要变更实例类型，可参考本指南的步骤重复进行。

通过以上验证步骤，我们可以确信此次 Terraform 执行的实例类型更改是成功且安全的。系统盘数据仍然保存在原有的 EBS 卷上，没有因为实例替换而丢失 ( )。Terraform 状态也与实际资源匹配，后续管理可以继续依赖 Terraform 对该实例及其卷的追踪。

关键点回顾

Terraform 原地更新能力： 现代版本的 Terraform 支持直接修改 EC2 实例的 instance_type 而不重建资源 ( )。利用 terraform plan 预先确认变更为原地更新（ ~ 标识）至关重要。
停机操作遵循AWS最佳实践： 更改实例类型必须先停止实例 ( )。Terraform 会自动执行停机->修改->启动流程，期间实例ID不变、根卷不变，但需考虑停机带来的公网IP变化和服务中断影响 ( )。
系统盘保护： 确保 Terraform 计划中未对 root_block_device 进行任何修改， volume_id 等字段保持不变。 delete_on_termination 等参数请保持与当前状态一致（通常为 true），避免Terraform尝试修改卷的生命周期设置。
充分利用 Terraform 工具： 运用 terraform plan 、 terraform state show 等命令来核实变更影响和结果。Plan 输出应仅呈现 instance_type 更改，没有隐藏的销毁/创建操作。Apply 后通过 state 和控制台检查实例和卷，确保 Terraform 状态正确映射实际资源。
数据验证： 变更完成后，一定要验证实例上的应用和数据是否正常。由于根卷未更换，理论上数据不会丢失，但通过登录实例检查关键数据来 双重确认 始终是稳妥的做法。

按照本文指南操作，可以安全地使用 Terraform 更改 EC2 实例类型，而无需担心系统盘数据的丢失。在获得更高配置或更优成本的同时，依然保持基础设施状态的一致和受控。祝大家在Terraform的使用中一切顺利！