Operational Excellence 的核心: 讓系統好管理、好監控、好部署、好改善。
在 AWS 上,不只是把服務跑起來而已,而是要讓整個環境可以標準化、自動化、可追蹤、可持續改善。
一、什麼是 Operational Excellence?
Operational Excellence,中文可以理解成「營運卓越」。
它的重點是:系統不只要能運作,還要能被穩定操作、有效監控,並且持續改善流程。
簡單說,就是讓雲端環境變得更好維護、更好部署、更好追蹤,也更容易從問題中修正。
二、核心設計原則
| 設計原則 | 口語化說明 |
|---|---|
| 操作流程程式化 | 不要靠人工點選建立資源,應該使用 CloudFormation,把基礎架構寫成程式碼。 |
| 小幅度、可回復變更 | 不要一次改一大包,應該小步快跑。出問題時,才容易回復。 |
| 持續改善流程 | SOP、Runbook、部署流程都要定期更新,團隊成員也要熟悉。 |
| 預期失敗會發生 | 雲端不是不會壞,而是要設計成壞了也能快速發現、快速恢復。 |
| 從失敗中學習 | 事故發生後要回顧原因,修正流程,避免同樣問題一直重複。 |
| 使用受管服務 | 能交給 AWS 管的就交給 AWS,減少自己維運的負擔。 |
| 導入可觀測性 | 透過監控、日誌、追蹤資料,掌握效能、可靠性與成本狀況。 |
三、Prepare:準備階段
準備階段的重點是建立標準化的基礎。
你需要有 Runbook、基礎架構標準、部署流程,以及模擬部署的能力。
| AWS 服務 | 用途 |
|---|---|
| CloudFormation | 把 AWS 架構寫成程式碼,方便建立、複製、修改與重建。 |
| AWS Config | 檢查資源設定是否符合規範,協助維持環境一致性。 |
四、Operate:操作階段
操作階段的重點是自動化、監控與追蹤。
你要盡量避免手動流程,因為人工操作容易造成環境不一致,也比較難追蹤問題來源。
| AWS 服務 | 口語化說明 |
|---|---|
| CloudFormation | 用程式碼管理基礎架構,避免人工建立資源。 |
| AWS Config | 檢查目前資源設定是否符合公司規範。 |
| CloudTrail | 記錄誰在什麼時間做了什麼 API 操作。 |
| CloudWatch | 監控系統效能、指標、日誌與告警。 |
| AWS X-Ray | 追蹤請求流程,找出應用程式哪個環節出問題。 |
五、Evolve:持續演進
好的架構不是一次設計完就結束,而是要隨著需求、流量與問題持續演進。
這時候 CI/CD 工具就很重要,因為它可以讓部署變得更快、更穩、更可控。
| AWS 服務 | 用途 |
|---|---|
| CodeCommit | 管理程式碼版本。 |
| CodeBuild | 自動建置與測試程式。 |
| CodeDeploy | 自動部署應用程式。 |
| CodePipeline | 串接完整 CI/CD 流程。 |
六、Operational Excellence 流程圖
Prepare 準備
↓
建立 Runbook / SOP
↓
使用 CloudFormation 管理基礎架構
↓
使用 AWS Config 檢查環境規範
Operate 操作
↓
避免手動操作
↓
使用 CloudTrail 追蹤 API 行為
↓
使用 CloudWatch 監控指標與日誌
↓
使用 X-Ray 追蹤應用程式請求
Evolve 演進
↓
透過 CI/CD 快速交付
↓
小幅度、可回復的變更
↓
從失敗中學習並改善流程
沒有留言:
張貼留言