在賭場全天候經營和打電話的做法
1)24/7行動目標
商業SLO:登錄≥ 99。9%,押金≥ 99。85%,利率/設定為≥ 99.9%,p95 WS RTT ≤ 120毫秒。
事件目標:MTTD ≤ 1分鐘(合成),MTTR ≤ 15-30分鐘,用於現金流。
支持質量:<3%的tiket在第二天沒有響應,sapport CSAT ≥ 90%。
2)呼叫組織: 模型和時間表
模型
追隨太陽:3個地理團隊(歐洲/美國/亞太地區),最低夜間負荷。
該地區的夜間輪換:每人每周N周(補償/休假)一周的夜班。
牢房(基於牢房):雜貨牢房值班(品牌/市場)+通用L1。
改變中的角色
L1通話(缺省事件指揮官)-接受警報,協調,保持與sapport的通信。
L2 Domain Engineers-付款、遊戲網關/WS、DB/錢包、平臺 SRE。
Comms官員-身份頁面,合作夥伴/提供商,內部升級。
Duty Manager-業務升級、優先級、例外(VIP/監管機構)。
輪班模式(12 × 7或8 × 5+值班)
輪班:10/12小時。更改15-30分鐘「warm handover」。
在14天的窗口中連續最多2個晚上和不超過7個通話日遵守規則。
每個班次都有Roster:值班人員,後備人員,呼叫經理,聯系人L2。
3)事件分類和SLA
4)無噪音的Alerting
原則:有癥狀的SLO-Alerta →因果資源→背景。
Симптомы: `login_success_ratio↓`, `deposit_success_by_psp↓`, `ws_rtt_p95↑`, `game_launch_success↓`.
Причины: `db_conn_saturation↑`, `queue_lag↑`, `psp_timeout↑`, `provider_launch_latency↑`.
噪音保護:要求一致性violations ≥ 3、自動超速釋放、重復數據消除和分組。
值班人員:關鍵人員-PagerDuty/Opsgenie;剩下的是Slack/郵件。
Alert文本:「什麼/在哪裏/多少/行動」。示例:5)Runbook"和升級
迷你運行手冊模板
1.細節:指向行車記錄儀(SLO,因果關系),trace,logi。
2.快速檢查:健康PSP/提供商,DR區域合成,DB/緩存狀態。
3.時間措施:fich-flag/kill-switch,rate-limits,PSP/提供程序切換,重型照片降級。
4.升級:誰L2/L3,24 × 7個提供商的聯系人。
5.綠區標準:SLO在正常的N分鐘,隊列 6.Comms:狀態模板,affected markets/brands, ETA/next update。 T0-5分鐘:L1接受,分配IC,運行運行手冊。 T5-10分鐘:我們叫一個簡報的L2+Comms官員。 T10-15分鐘:Duty Manager/產品,必要時合法/合規。 外部:PSP/遊戲提供商-根據規定(SLA頻道,滴答聲,電話)。 6)通訊和狀態頁面 SEV-1/2每10至15分鐘一次內部升級(頻道#war-room,消息模板)。 狀態頁面:當前狀態,受影響的市場,臨時措施,下次通過X分鐘升級。 Sapport/附屬機構/合作夥伴的事件後註釋:什麼是補償。 預先模式:簡短,沒有「內部廚房」,沒有過錯。 7)處理外部依賴項(PSP/遊戲/CDN) 聯系人目錄24 × 7:PSP A/B,遊戲提供商,CDN/WAF,雲。 SLA監視:合成存款/遊戲啟動,自動滴答觸發器。 Failover策略:在"成功"<99%10 min"時路由到PSP-B,在"TTFS> 800ms"時切換遊戲提供商。 收件箱webhook: HMAC簽名,等效性,在提供商降級後從隊列中重新播放。 8) GameDay和鍛煉 每周tabletop演習(30-45分鐘):閱讀圖表和決策。 每月技術DR驅動器(60-90分鐘):PSP故障,供應商失靈,DB/WS集群下降。 KPI演習:原因識別時間,通信質量,拼圖決策正確性。 9)Hendover和文檔 10)電話健康與可持續性 第8/8/8條規則:工作/睡眠/個人。夜班→休息時間。 新手壞人系統,shadow值班2-3周。 心理安全:「無憂無慮」復古,支持嚴重事件。 負載審計:每位工程師每晚平均≤ 2次「喚醒」-目標;上面→重新設計alerting/體系結構。 11)運營效率指標 按域名劃分的MTTD/MTTR(登錄/存款/WS/遊戲)。 警報質量:無動作噪音/封閉的百分比,平均警報數/班次。 更改故障率: 發布引起的事件百分比;mean time between failures. Toil:可重復的手動任務比例→自動化計劃。 提供者沖擊:由於外部合作夥伴(SLA/遷移的參數)而造成的SEV-2/1份額。 12)「值班」工具及面板" 「紅色」dashboard SLO:登錄/存款/投註/遊戲啟動,5xx/429,p95,區域。 因果小組:DB/隊列/緩存,PSP/提供商,CDN/WAF。 呼叫管理器:活動事件,更新計時器,單擊鏈接到runbook'和ficheflagi。 動作日誌(timeline)-誰在什麼時候做了,並附有SLO。 13)典型場景和快速解決方案 行動:金絲雀marshrut→ PSP-B 50%;舉起webhook的taymaut;在機器人的WAF中啟用JS挑戰。 Comms:狀態頁面「通過PSP-A degradation DE deposits」。 輸出:成功≥ 99%15分鐘,隊列轉發 B. APAC Live Games中p95 WS的增長 行動:放大WS網關復制品,包括warm-pool nod;廣播消息的頻率限制;提供商-RTT滴答作響。 出口:p95 WS RTT ≤ 120毫秒20分鐘。 C. Lag遊戲提供商(TTFS> 1.2 (c) 行動:將大廳切換到備用辦公桌/工作室,包括元數據小節;狀態升級。 退出:TTFS <800 ms,投訴↓。 14)全天候準備工作清單 15)後太平間模板(blameless) 1.簡而言之:什麼時候,什麼時候發生SEV,影響力和規模。 2.時間線:→升級→行動的細節→穩定。 3.根源:那些/過程/人員/供應商(5 Why)。 4.什麼有效/什麼不有效:Alertes,Ranbook,溝通。 5.行動項目:技術、流程、合作夥伴-負責和截止日期。 6.預防:測試/監測/演習,SLO/變異。 成功的24/7賭場運營是SLO學科,設計得當,無噪音的警報,清晰的跑步簿和升級,定期的演習以及對呼叫人員的謹慎對待。將SLO面板與快速杠桿(ficheflagi、PSP/提供商切換、重型幻燈片降級)連接起來,與玩家和合作夥伴保持通信,測量效率(MTTD/MTTR/alert quality)-您的平臺將全天候穩定,團隊將生產力和可持續性。升級樓梯
A. PSP-A的DE存款下降
二.總結
