AWS Operational Excellence筆記

Operational Excellence 的核心: 讓系統好管理、好監控、好部署、好改善。

在 AWS 上,不只是把服務跑起來而已,而是要讓整個環境可以標準化、自動化、可追蹤、可持續改善。

一、什麼是 Operational Excellence?

Operational Excellence,中文可以理解成「營運卓越」。

它的重點是:系統不只要能運作,還要能被穩定操作、有效監控,並且持續改善流程。

簡單說,就是讓雲端環境變得更好維護、更好部署、更好追蹤,也更容易從問題中修正。

二、核心設計原則

設計原則 口語化說明
操作流程程式化 不要靠人工點選建立資源,應該使用 CloudFormation,把基礎架構寫成程式碼。
小幅度、可回復變更 不要一次改一大包,應該小步快跑。出問題時,才容易回復。
持續改善流程 SOP、Runbook、部署流程都要定期更新,團隊成員也要熟悉。
預期失敗會發生 雲端不是不會壞,而是要設計成壞了也能快速發現、快速恢復。
從失敗中學習 事故發生後要回顧原因,修正流程,避免同樣問題一直重複。
使用受管服務 能交給 AWS 管的就交給 AWS,減少自己維運的負擔。
導入可觀測性 透過監控、日誌、追蹤資料,掌握效能、可靠性與成本狀況。

三、Prepare:準備階段

準備階段的重點是建立標準化的基礎。

你需要有 Runbook、基礎架構標準、部署流程,以及模擬部署的能力。

AWS 服務 用途
CloudFormation 把 AWS 架構寫成程式碼,方便建立、複製、修改與重建。
AWS Config 檢查資源設定是否符合規範,協助維持環境一致性。

四、Operate:操作階段

操作階段的重點是自動化、監控與追蹤。

你要盡量避免手動流程,因為人工操作容易造成環境不一致,也比較難追蹤問題來源。

AWS 服務 口語化說明
CloudFormation 用程式碼管理基礎架構,避免人工建立資源。
AWS Config 檢查目前資源設定是否符合公司規範。
CloudTrail 記錄誰在什麼時間做了什麼 API 操作。
CloudWatch 監控系統效能、指標、日誌與告警。
AWS X-Ray 追蹤請求流程,找出應用程式哪個環節出問題。

五、Evolve:持續演進

好的架構不是一次設計完就結束,而是要隨著需求、流量與問題持續演進。

這時候 CI/CD 工具就很重要,因為它可以讓部署變得更快、更穩、更可控。

AWS 服務 用途
CodeCommit 管理程式碼版本。
CodeBuild 自動建置與測試程式。
CodeDeploy 自動部署應用程式。
CodePipeline 串接完整 CI/CD 流程。

六、Operational Excellence 流程圖

Prepare 準備 ↓ 建立 Runbook / SOP ↓ 使用 CloudFormation 管理基礎架構 ↓ 使用 AWS Config 檢查環境規範 Operate 操作 ↓ 避免手動操作 ↓ 使用 CloudTrail 追蹤 API 行為 ↓ 使用 CloudWatch 監控指標與日誌 ↓ 使用 X-Ray 追蹤應用程式請求 Evolve 演進 ↓ 透過 CI/CD 快速交付 ↓ 小幅度、可回復的變更 ↓ 從失敗中學習並改善流程


總結:Operational Excellence 就是把雲端維運標準化、自動化、可監控化, 讓系統可以穩定交付、快速修正、持續改善。

沒有留言:

張貼留言

AWS Security and Compliance 總整理

AWS Security and Compliance 總整理 一、核心概念 AWS 安全與合規不是靠單一服務,而是透過多層防護來完成。 從外部流量防護、身分權限、資料加密、設定稽核、威脅偵測,到集中管理與事件調查, 每一個服務...