AWS 可靠性 = 自動擴展、自動復原、可監控、可備份、可重建、可切換。
一、Reliability 是什麼?
Reliability 是指系統在遇到基礎架構故障、服務中斷、設定錯誤, 或暫時性網路問題時,仍然能恢復並持續運作。
簡單說,可靠性就是: 系統壞了要能救回來,流量變大要能撐住,環境出問題要能快速切換。
二、AWS 可靠性設計重點
自動復原
水平擴展
不要猜容量
監控告警
備份復原
故障切換
- 測試復原程序:不要等出事才知道備份不能用。
- 自動從失敗中恢復:能自動修復,就不要只靠人工救火。
- 水平擴展:流量變大時,增加更多節點,而不是只依賴單一大主機。
- 不要猜容量:使用 Auto Scaling 依照實際需求調整資源。
- 變更自動化:透過 CloudFormation 管理架構,方便部署與回滾。
- 準備故障切換:透過 Route 53 與多區域架構,讓服務可以切到可用環境。
三、AWS 服務整理
| 類別 | AWS 服務 | 用途 | 白話說明 |
|---|---|---|---|
| 權限基礎 | IAM | 控制使用者、角色與權限 | 避免有人權限太大,把系統搞壞 |
| 網路基礎 | Amazon VPC | 建立雲端網路 | AWS 裡自己的網路環境 |
| 資源限制 | Service Quotas / Service Limits | 管理 AWS 資源上限 | 避免資源用到上限後服務中斷 |
| 架構檢查 | Trusted Advisor | 檢查帳號與架構建議 | 幫你看哪裡可能有風險 |
| 自動擴展 | Auto Scaling | 依流量自動增加或減少資源 | 人變多就加機器,人變少就減機器 |
| 監控告警 | CloudWatch | 監控指標、日誌與告警 | 看 CPU、流量、錯誤率有沒有異常 |
| 操作追蹤 | CloudTrail | 記錄 API 操作 | 查誰改了什麼、刪了什麼 |
| 設定追蹤 | AWS Config | 追蹤資源設定變更 | 看設定有沒有被改壞 |
| 備份復原 | AWS Backup | 集中管理備份 | 幫重要資料做備份與還原 |
| 架構重建 | CloudFormation | 用範本建立 AWS 資源 | 環境壞掉時,可以照設計圖重建 |
| 備份儲存 | Amazon S3 | 儲存備份、檔案、資料 | 穩定耐用的雲端儲存空間 |
| 長期封存 | S3 Glacier | 長期保存低頻資料 | 很少用到的備份資料放這裡 |
| DNS 切換 | Route 53 | 全球 DNS 與流量導向 | 系統壞掉時,把流量切到別的地方 |
四、生活化比喻
AWS 可靠性可以想成一間 24 小時營業的便利商店。
- IAM:員工權限管理,店員不能隨便動金庫。
- VPC:店面動線設計,客人、員工、倉庫分開管理。
- Service Quotas:店內容量限制,倉庫與冰箱都有上限。
- Auto Scaling:尖峰時段自動加派人手。
- CloudWatch:監控螢幕,看客流量、設備與收銀狀況。
- CloudTrail:操作紀錄,知道誰改了價格、誰開了金庫。
- AWS Config:稽核表,檢查設備與設定是否符合規範。
- S3 / Backup:倉庫備份,重要資料不能只放一份。
- CloudFormation:店面設計圖,店壞了可以照圖重建。
- Route 53:客服導流,A 店不能營業就導到 B 店。
五、整體概念流程圖
使用者流量進入系統
│
▼
[DNS 與流量導向]
Route 53
把使用者導向可用的服務入口
│
▼
[網路基礎]
VPC + Subnet + Route Table
建立穩定的雲端網路環境
│
▼
[權限控管]
IAM
避免錯誤操作或過大權限造成系統風險
│
▼
[應用程式運行]
EC2 / ALB / RDS / 其他服務
承載實際系統與資料
│
▼
[自動擴展]
Auto Scaling
流量增加時自動加資源
│
▼
[監控與追蹤]
CloudWatch + CloudTrail + AWS Config
監控效能、追蹤操作、檢查設定變更
│
▼
[備份與復原]
AWS Backup + S3 + S3 Glacier
保留資料備份,必要時可以還原
│
▼
[基礎架構重建]
CloudFormation
環境損壞時,快速重建整套架構
│
▼
[故障切換]
Route 53 + Multi-AZ / Multi-Region
某個環境壞掉時,將流量切到可用環境
六、常見誤解與正確觀念
| 常見誤解 | 正確觀念 |
|---|---|
| 可靠性就是備份 | 備份只是其中一部分,還包含監控、自動擴展、故障復原與切換 |
| 系統規格開大一點就可靠 | 單機再大也可能故障,應該用水平擴展與多可用區設計 |
| Auto Scaling 只是省錢工具 | Auto Scaling 更重要的是讓系統在流量變化下仍可用 |
| 有備份就一定能復原 | 備份要定期測試還原,否則出事時可能無法使用 |
| CloudWatch 只是看 CPU | CloudWatch 還可以看日誌、錯誤率、延遲與告警 |
| CloudTrail 跟 CloudWatch 一樣 | CloudTrail 看操作紀錄,CloudWatch 看系統狀態與指標 |
| AWS Config 是監控效能用的 | AWS Config 是追蹤設定變更與合規狀態 |
| Service Quotas 不重要 | 資源用到上限時,可能會造成擴展失敗或服務中斷 |
| CloudFormation 只是部署工具 | 它也能在環境損壞時快速重建基礎架構 |
| Route 53 只是 DNS | Route 53 也可以做健康檢查、流量導向與故障切換 |
七、總結
AWS 可靠性不是單靠一台大主機,而是靠自動擴展、監控告警、備份復原、
基礎架構自動化與故障切換,讓系統在出問題時仍能繼續服務。
沒有留言:
張貼留言