在赌场全天候经营和打电话的做法
1)24/7行动目标
商业SLO:登录≥ 99。9%,押金≥ 99。85%,利率/设定为≥ 99.9%,p95 WS RTT ≤ 120毫秒。
事件目标:MTTD ≤ 1分钟(合成),MTTR ≤ 15-30分钟,用于现金流。
支持质量:<3%的tiket在第二天没有响应,sapport CSAT ≥ 90%。
2)呼叫组织: 模型和时间表
模型
追随太阳:3个地理团队(欧洲/美国/亚太地区),最低夜间负荷。
该地区的夜间轮换:每人每周N周(补偿/休假)一周的夜班。
牢房(基于牢房):杂货牢房值班(品牌/市场)+通用L1。
改变中的角色
L1通话(缺省事件指挥官)-接受警报,协调,保持与sapport的通信。
L2 Domain Engineers-付款、游戏网关/WS、DB/钱包、平台 SRE。
Comms官员-身份页面,合作伙伴/提供商,内部升级。
Duty Manager-业务升级、优先级、例外(VIP/监管机构)。
轮班模式(12 × 7或8 × 5+值班)
轮班:10/12小时。更改15-30分钟"warm handover"。
在14天的窗口中连续最多2个晚上和不超过7个通话日遵守规则。
每个班次都有Roster:值班人员,后备人员,呼叫经理,联系人L2。
3)事件分类和SLA
4)无噪音的Alerting
原则:有症状的SLO-Alerta →因果资源→背景。
Симптомы: `login_success_ratio↓`, `deposit_success_by_psp↓`, `ws_rtt_p95↑`, `game_launch_success↓`.
Причины: `db_conn_saturation↑`, `queue_lag↑`, `psp_timeout↑`, `provider_launch_latency↑`.
噪音保护:要求一致性violations ≥ 3、自动超速释放、重复数据消除和分组。
值班人员:关键人员-PagerDuty/Opsgenie;剩下的是Slack/邮件。
Alert文本:"什么/在哪里/多少/行动"。示例:5)Runbook"和升级
迷你运行手册模板
1.细节:指向行车记录仪(SLO,因果关系),trace,logi。
2.快速检查:健康PSP/提供商,DR区域合成,DB/缓存状态。
3.时间措施:fich-flag/kill-switch,rate-limits,PSP/提供程序切换,重型照片降级。
4.升级:谁L2/L3,24 × 7个提供商的联系人。
5.绿区标准:SLO在正常的N分钟,队列 6.Comms:状态模板,affected markets/brands, ETA/next update。 T0-5分钟:L1接受,分配IC,运行运行手册。 T5-10分钟:我们叫一个简报的L2+Comms官员。 T10-15分钟:Duty Manager/产品,必要时合法/合规。 外部:PSP/游戏提供商-根据规定(SLA频道,滴答声,电话)。 6)通讯和状态页面 SEV-1/2每10至15分钟一次内部升级(频道#war-room,消息模板)。 状态页面:当前状态,受影响的市场,临时措施,下次通过X分钟升级。 Sapport/附属机构/合作伙伴的事件后注释:什么是补偿。 预先模式:简短,没有"内部厨房",没有过错。 7)处理外部依赖项(PSP/游戏/CDN) 联系人目录24 × 7:PSP A/B,游戏提供商,CDN/WAF,云。 SLA监视:合成存款/游戏启动,自动滴答触发器。 Failover策略:在"成功"<99%10 min"时路由到PSP-B,在"TTFS> 800ms"时切换游戏提供商。 收件箱webhook: HMAC签名,等效性,在提供商降级后从队列中重新播放。 8) GameDay和锻炼 每周tabletop演习(30-45分钟):阅读图表和决策。 每月技术DR驱动器(60-90分钟):PSP故障,供应商失灵,DB/WS集群下降。 KPI演习:原因识别时间,通信质量,拼图决策正确性。 9)Hendover和文档 10)电话健康与可持续性 第8/8/8条规则:工作/睡眠/个人。夜班→休息时间。 新手坏人系统,shadow值班2-3周。 心理安全:"无忧无虑"复古,支持严重事件。 负载审计:每位工程师每晚平均≤ 2次"唤醒"-目标;上面→重新设计alerting/体系结构。 11)运营效率指标 按域名划分的MTTD/MTTR(登录/存款/WS/游戏)。 警报质量:无动作噪音/封闭的百分比,平均警报数/班次。 更改故障率: 发布引起的事件百分比;mean time between failures. Toil:可重复的手动任务比例→自动化计划。 提供者冲击:由于外部合作伙伴(SLA/迁移的参数)而造成的SEV-2/1份额。 12)"值班"工具及面板" "红色"dashboard SLO:登录/存款/投注/游戏启动,5xx/429,p95,区域。 因果小组:DB/队列/缓存,PSP/提供商,CDN/WAF。 呼叫管理器:活动事件,更新计时器,单击链接到runbook'和ficheflagi。 动作日志(timeline)-谁在什么时候做了,并附有SLO。 13)典型场景和快速解决方桉 行动:金丝雀marshrut→ PSP-B 50%;举起webhook的taymaut;在机器人的WAF中启用JS挑战。 Comms:状态页面"通过PSP-A degradation DE deposits"。 输出:成功≥ 99%15分钟,队列转发 B. APAC Live Games中p95 WS的增长 行动:放大WS网关复制品,包括warm-pool nod;广播消息的频率限制;提供商-RTT滴答作响。 出口:p95 WS RTT ≤ 120毫秒20分钟。 C. Lag游戏提供商(TTFS> 1.2 (c) 行动:将大厅切换到备用办公桌/工作室,包括元数据小节;状态升级。 退出:TTFS <800 ms,投诉↓。 14)全天候准备工作清单 15)后太平间模板(blameless) 1.简而言之:什么时候,什么时候发生SEV,影响力和规模。 2.时间线:→升级→行动的细节→稳定。 3.根源:那些/过程/人员/供应商(5 Why)。 4.什么有效/什么不有效:Alertes,Ranbook,沟通。 5.行动项目:技术、流程、合作伙伴-负责和截止日期。 6.预防:测试/监测/演习,SLO/变异。 成功的24/7赌场运营是SLO学科,设计得当,无噪音的警报,清晰的跑步簿和升级,定期的演习以及对呼叫人员的谨慎对待。将SLO面板与快速杠杆(ficheflagi、PSP/提供商切换、重型幻灯片降级)连接起来,与玩家和合作伙伴保持通信,测量效率(MTTD/MTTR/alert quality)-您的平台将全天候稳定,团队将生产力和可持续性。升级楼梯
A. PSP-A的DE存款下降
二.总结
