AWS Well-Architected:Reliability Pillar筆記

AWS 可靠性 = 自動擴展、自動復原、可監控、可備份、可重建、可切換。

一、Reliability 是什麼?

Reliability 是指系統在遇到基礎架構故障、服務中斷、設定錯誤, 或暫時性網路問題時,仍然能恢復並持續運作。

簡單說,可靠性就是: 系統壞了要能救回來,流量變大要能撐住,環境出問題要能快速切換。

二、AWS 可靠性設計重點

自動復原 水平擴展 不要猜容量 監控告警 備份復原 故障切換
  • 測試復原程序:不要等出事才知道備份不能用。
  • 自動從失敗中恢復:能自動修復,就不要只靠人工救火。
  • 水平擴展:流量變大時,增加更多節點,而不是只依賴單一大主機。
  • 不要猜容量:使用 Auto Scaling 依照實際需求調整資源。
  • 變更自動化:透過 CloudFormation 管理架構,方便部署與回滾。
  • 準備故障切換:透過 Route 53 與多區域架構,讓服務可以切到可用環境。

三、AWS 服務整理

類別 AWS 服務 用途 白話說明
權限基礎 IAM 控制使用者、角色與權限 避免有人權限太大,把系統搞壞
網路基礎 Amazon VPC 建立雲端網路 AWS 裡自己的網路環境
資源限制 Service Quotas / Service Limits 管理 AWS 資源上限 避免資源用到上限後服務中斷
架構檢查 Trusted Advisor 檢查帳號與架構建議 幫你看哪裡可能有風險
自動擴展 Auto Scaling 依流量自動增加或減少資源 人變多就加機器,人變少就減機器
監控告警 CloudWatch 監控指標、日誌與告警 看 CPU、流量、錯誤率有沒有異常
操作追蹤 CloudTrail 記錄 API 操作 查誰改了什麼、刪了什麼
設定追蹤 AWS Config 追蹤資源設定變更 看設定有沒有被改壞
備份復原 AWS Backup 集中管理備份 幫重要資料做備份與還原
架構重建 CloudFormation 用範本建立 AWS 資源 環境壞掉時,可以照設計圖重建
備份儲存 Amazon S3 儲存備份、檔案、資料 穩定耐用的雲端儲存空間
長期封存 S3 Glacier 長期保存低頻資料 很少用到的備份資料放這裡
DNS 切換 Route 53 全球 DNS 與流量導向 系統壞掉時,把流量切到別的地方

四、生活化比喻

AWS 可靠性可以想成一間 24 小時營業的便利商店。

  • IAM:員工權限管理,店員不能隨便動金庫。
  • VPC:店面動線設計,客人、員工、倉庫分開管理。
  • Service Quotas:店內容量限制,倉庫與冰箱都有上限。
  • Auto Scaling:尖峰時段自動加派人手。
  • CloudWatch:監控螢幕,看客流量、設備與收銀狀況。
  • CloudTrail:操作紀錄,知道誰改了價格、誰開了金庫。
  • AWS Config:稽核表,檢查設備與設定是否符合規範。
  • S3 / Backup:倉庫備份,重要資料不能只放一份。
  • CloudFormation:店面設計圖,店壞了可以照圖重建。
  • Route 53:客服導流,A 店不能營業就導到 B 店。

五、整體概念流程圖

使用者流量進入系統
        │
        ▼
[DNS 與流量導向]
Route 53
把使用者導向可用的服務入口
        │
        ▼
[網路基礎]
VPC + Subnet + Route Table
建立穩定的雲端網路環境
        │
        ▼
[權限控管]
IAM
避免錯誤操作或過大權限造成系統風險
        │
        ▼
[應用程式運行]
EC2 / ALB / RDS / 其他服務
承載實際系統與資料
        │
        ▼
[自動擴展]
Auto Scaling
流量增加時自動加資源
        │
        ▼
[監控與追蹤]
CloudWatch + CloudTrail + AWS Config
監控效能、追蹤操作、檢查設定變更
        │
        ▼
[備份與復原]
AWS Backup + S3 + S3 Glacier
保留資料備份,必要時可以還原
        │
        ▼
[基礎架構重建]
CloudFormation
環境損壞時,快速重建整套架構
        │
        ▼
[故障切換]
Route 53 + Multi-AZ / Multi-Region
某個環境壞掉時,將流量切到可用環境
  

六、常見誤解與正確觀念

常見誤解 正確觀念
可靠性就是備份 備份只是其中一部分,還包含監控、自動擴展、故障復原與切換
系統規格開大一點就可靠 單機再大也可能故障,應該用水平擴展與多可用區設計
Auto Scaling 只是省錢工具 Auto Scaling 更重要的是讓系統在流量變化下仍可用
有備份就一定能復原 備份要定期測試還原,否則出事時可能無法使用
CloudWatch 只是看 CPU CloudWatch 還可以看日誌、錯誤率、延遲與告警
CloudTrail 跟 CloudWatch 一樣 CloudTrail 看操作紀錄,CloudWatch 看系統狀態與指標
AWS Config 是監控效能用的 AWS Config 是追蹤設定變更與合規狀態
Service Quotas 不重要 資源用到上限時,可能會造成擴展失敗或服務中斷
CloudFormation 只是部署工具 它也能在環境損壞時快速重建基礎架構
Route 53 只是 DNS Route 53 也可以做健康檢查、流量導向與故障切換

七、總結

AWS 可靠性不是單靠一台大主機,而是靠自動擴展、監控告警、備份復原、 基礎架構自動化與故障切換,讓系統在出問題時仍能繼續服務。

沒有留言:

張貼留言

AWS Security and Compliance 總整理

AWS Security and Compliance 總整理 一、核心概念 AWS 安全與合規不是靠單一服務,而是透過多層防護來完成。 從外部流量防護、身分權限、資料加密、設定稽核、威脅偵測,到集中管理與事件調查, 每一個服務...