基礎題¶
為什麼監控問題常常比較關心一段時間,而不是單一時間點?
滑動視窗比每次重新加總快,核心原因是什麼?
「超過門檻的所有區段」和「總量最高的單一區段」為什麼要分開看?
如果資料中有缺值或負值,你會怎麼調整目前的模型?
實作題¶
讓告警函式除了總量,也回傳該區段的平均值。
新增一個函式,回傳前
k個最高總量的視窗區段。把目前固定大小視窗改成支援不同部門各自不同的視窗長度。
反思題¶
本章的告警門檻是一個固定數字。在真實監控場景裡,你認為固定門檻和動態門檻(例如依歷史平均值自動調整)各有什麼優缺點?
滑動視窗只看固定長度的區段。如果異常事件跨越了兩個視窗的邊界(例如前半段在第 k 個視窗末、後半段在第 k+1 個視窗初),現有的設計會怎麼處理?你認為這是問題嗎?
監控系統通常需要在「太敏感(假警報多)」和「太遲鈍(漏報)」之間取捨。視窗大小和門檻分別影響哪一邊?你會怎麼系統性地調整這兩個參數?