當你花在「看系統」的錢超過「跑系統」的錢
你是 SRE Lead。今天是每月的第一個星期二。
雲端帳單到了。上個月總額:$847,000。
你打開明細,胃開始翻攪...
你花在「看系統」的錢比「跑系統」多了 12%。
你拉出 Datadog 用量報告。結果令人震驚。
Datadog 帳單的 85% 是自訂指標和日誌攝取。追蹤下去發現:
payment-processor)每月輸出 12 億行日誌你要怎麼做?
移除 DEBUG 日誌,立即每月省 $67K
你不敢冒險漏掉下一次事故——那些日誌可能很重要
每月省 $67K。三週後支付系統出 bug,沒有日誌可以 debug。事後檢討寫著「可觀測性不足」。你被究責。
帳單維持 $448K。財務部問「為什麼監控花的比基礎設施多?」你說「我們需要。」他們問「證明一下。」你證明不了。
你無從得知哪些日誌、指標和 trace 真正幫助了事故排查,哪些是純粹的浪費。沒有人知道。所以每個人都全部留著,繼續繳稅。
我們掃描了 1,995 個 agent skill,找到 74 個監控相關的。它們在做什麼:
這些 skill 教你怎麼設定正在讓你破產的工具。
沒有一個幫你搞清楚該砍什麼。
每個可觀測性廠商告訴你系統裡發生了什麼。沒有一個告訴你知道這件事花了多少錢,以及知道這件事是否值那個價。
缺失的工具應該能:
這和我們在所有 8 個痛點類別發現的規律一模一樣:
幫你設定 Datadog、配置儀表板、寫 PromQL 查詢、部署 Grafana
知道哪些儀表板沒人看、哪些日誌花 $67K 卻省了 $0、哪些警報只在製造噪音
「Skill 市場為設定而最佳化,不是為求生而最佳化。」