Casino 24/7-иштетүү жана on-call практикалары
1) 24/7-операциялардын максаттары
Бизнес SLO: логин ≥ 99. 9%, депозит ≥ 99. 85%, чен/орнотуу ≥ 99. 9%, p95 WS RTT ≤ 120 мс.
Окуя максаттары: MTTD ≤ 1 мин (синтетикалык), MTTR ≤ 15-30 мин акча Flow үчүн.
Колдоо сапаты: <3% билеттер жоопсуз экинчи күнү кетет, CSAT саппорт ≥ 90%.
2) On-call уюштуруу: моделдер жана расписание
Моделдер
Follow-the-sun: 3 гео-команда (Европа/Америка/APAC), минималдуу түнкү жүк.
Аймакта түнкү ротация: N жума сайын киши башына түнкү нөөмөт жумасы (компенсация/эс алуу).
Клеткалар (cell-based): азык-түлүк клеткалары боюнча нөөмөт (бренддер/базарлар) + жалпы L1.
Сменадагы ролдор
L1 On-call (демейки боюнча Incident Commander) - alert кабыл алат, координациялайт, саппорт менен байланыш кармап турат.
L2 домен инженерлер - төлөмдөр, оюн-gateway/WS, BD/капчык, платформа SRE.
Коммс-офицер - статус-бет, өнөктөштөр/провайдерлер, ички жаңылыктар.
Duty Manager - бизнес-эскалация, артыкчылык, өзгөчөлүктөр (VIP/жөнгө салуучу).
Смена үлгүсү (12 × 7 же 8 × 5 + нөөмөтчү)
өзгөртүү: 8/10/12 саат. алмаштыруу 15-30 мин "warm handover".
Эрежени 2 түн катары менен максималдуу жана 14 күндүк терезеде 7 on-call-күндөн ашык эмес сактаңыз.
Ар бир сменада Roster бар: нөөмөтчү, резерв, чалуу менеджери, L2 байланыш.
3) Окуя классификациясы жана SLA
4) эч кандай ызы-чуу Alerting
Принциптер: симптоматикалык SLO-алерталар → себептик ресурстук → контекст.
Симптомы: `login_success_ratio↓`, `deposit_success_by_psp↓`, `ws_rtt_p95↑`, `game_launch_success↓`.
Причины: `db_conn_saturation↑`, `queue_lag↑`, `psp_timeout↑`, `provider_launch_latency↑`.
ызы-чууга каршы коргоо: required consecutive violations ≥ 3, бошотуу auto supress, deduplication жана топтоо.
нөөмөт топтому: критикалык - PagerDuty/Opsgenie; калган - Slack/почта.
Алерттин тексти: "Эмне/Кайда/Канча/Аракет". Мисалы:5) Runbook 'жана эскалация
Mini runbook шаблон
1. Detect: dashboard шилтемелер (SLO, себеп), Trace, Логи.
2. Fast текшерүүлөр: PSP/провайдерлердин ден соолугу, DR-синтетика аймагы, DD/кэш статусу.
3. Убактылуу чаралар: фича-желектер/kill-switch, rate-limits, PSP/провайдерди которуу, оор көрүнүштөрдүн бузулушу.
4. Эскалация: ким L2/L3, байланыш 24 × 7 провайдер.
5. Жашыл зонанын критерийлери: SLO нормада N мүнөт, кезек  6. Coms: статус шаблон, affected markets/brands, ETA/next update. T0-5 мин: L1 кабыл алат, IC дайындайт, runbook баштайт. T5-10 мин: Биз профилдик L2 + Comms-офицер деп атайбыз. T10-15 мин: Duty Manager/продукт, зарыл болсо юридикалык/комплаенс. Тышкы: PSP/Game provider - регламент боюнча (SLA-канал, тикет, чалуу). 6) Байланыш жана статус-бет Ички апдейттер ар бир 10-15 мүнөт үчүн SEV-1/2 (канал #war -room, билдирүү үлгүсү). Статус-бет: учурдагы абалы, жабыр тарткан рыноктор, убактылуу чаралар, кийинки update X мүнөт аркылуу. Post-incident note үчүн саппорт/аффилиаттар/өнөктөштөр: компенсация катары болгон. Шаблондор алдын ала: кыска, "ички ашкана" жок, күнөөсү жок. 7) тышкы көз карандылык менен иштөө (PSP/оюндар/CDN) Байланыш каталогу 24 × 7: PSP A/B, оюн провайдерлери, CDN/WAF, булут. SLA-мониторинг: депозиттер боюнча синтетика/оюндарды ишке киргизүү, автоматтык тикет триггерлери. Failover-саясат: PSP-B 'success <99% 10 мин' боюнча маршрут, 'TTFS> 800ms' боюнча оюн провайдерин которуу. Inbox-WebHook: HMAC кол, демпотенттик, кайра ойноо кезек кийин провайдер деградация. 8) GameDay жана окутуу Жумалык tabletop-машыгуулар (30-45 мин): графиктерди окуу, чечим кабыл алуу. Ай сайын техникалык DR-драйлер (60-90 мин): PSP ийгиликсиз, жөнөтүүчү артта, DD/WS кластердин кулашы. KPI көнүгүүлөр: себебин таануу убактысы, байланыш сапаты, ficheflags боюнча чечимдердин тууралыгы. 9) Хендовер жана документтер 10) On-call ден соолук жана туруктуулук Эреже 8/8/8: жумуш/уйку/жеке. Түнкү нөөмөт → дем алыш. Жаңы келгендер үчүн Бадди системасы, shadow-милдети 2-3 жума. Психологиялык коопсуздук: "blameless" ретро, оор окуяларды колдоо. жүк Аудит: ≤ 2 "ойгонуу" түн ичинде орточо инженер - максат; жогоруда → кайра иштетүү/архитектура. 11) Операциялык натыйжалуулуктун метрикасы MTTD/MTTR домендери боюнча (логин/аманат/WS/оюндар). Alert quality:% ызы-чуу/жабык иш-аракет жок, орточо саны alerts/өзгөртүү. Change failure rate:% релиздер менен шартталган окуялар; mean time between failures. Toil: кайталануучу кол тапшырмалардын үлүшү → автоматташтыруу планы. Provider impact: тышкы өнөктөштөр үчүн SEV-2/1 үлүшү (SLA/миграция үчүн аргумент). 12) Аспаптар жана панелдер "нөөмөтчү" "Кызыл" дашборд SLO: Логин/депозиттик/коюм/оюндарды ишке киргизүү, 5xx/429, p95, региондор. Себеп панелдер: DD/кезек/кэш, PSP/провайдерлер, CDN/WAF. On-call диспетчери: активдүү окуялар, жаңылоо таймерлери, runbook 'и жана ficheflags үчүн one-click шилтемелери. Иш-аракеттер журналы (timeline) - SLO байланыштуу, качан, ким эмне кылды. 13) типтүү жагдайлар жана тез чечимдер Иш-аракеттер: Канар маршруту → PSP-B 50%; Webhook убакыт жогорулатуу; боттордон WAF JS-чакырык кирет. Comms: статус-бет "Degradation DE deposits via PSP-A". Чыгуу: success ≥ 99% 15 мин, кезек  B. Live оюндарында p95 WS өсүшү Иш-аракеттер: WS-шлюз репликаларын көбөйтүү, warm-pool nod; rate-limit кабарлар; жөнөтүүчү - RTT боюнча билет. Чыгуу: p95 WS RTT ≤ 120 мс 20 мин. C. оюн провайдери (TTFS> 1. 2 с) Иш-аракеттер: Альтернативдик столдор/студиялар үчүн лобби которуу, мета-маалымат кэшин күйгүзүү; статус-апдейт. Чыгуу: TTFS <800 ms, даттануулар ↓. 14) 24/7 даяр чек тизмеси 15) Post-мортема үлгүсү (blameless) 1. Кыскача: эмне болгон, качан, кандай SEV, таасири жана масштабы. 2. Таймлайн: долбоор → эскалация → аракет → турукташтыруу. 3. тамыр себептери: тех/жараяндар/адамдар/жөнөтүүчүлөр (5 Why). 4. Эмне иштеди/эмне жок: алерталар, ранбуктар, коммуникациялар. 5. Action items: техникалык, процесстик, өнөктөштүк - жоопкерчиликтүү жана мөөнөтсүз. 6. Алдын алуу: тесттер/мониторинг/машыгуу, SLO/алерттерди өзгөртүү. Ийгиликтүү 24/7 казинодогу операциялар - бул SLO дисциплинасы, ызы-чуусуз туура иштелип чыккан alarming, так runbook 'i жана эскалация, үзгүлтүксүз машыгуулар жана on-call адамдарга кылдаттык менен мамиле кылуу. SLO панелдерин тез рычагдар менен байланыштырыңыз (фичефлагдар, PSP/провайдерлерди которуу, оор баскычтардын бузулушу), оюнчулар жана өнөктөштөр менен баарлашууну сактаңыз, эффективдүүлүктү өлчөңүз (MTTD/MTTR/alert quality) - жана сиздин платформаңыз күнү-түнү туруктуу болот жана команда - өндүрүмдүү жана туруктуу.Эскалациялык тепкич
A. Депозиттер PSP-A боюнча DE түшүп
Резюме
