Казинодағы 24/7 пайдалану және on-call тәжірибелері
1) 24/7-операциялардың мақсаттары
Бизнес-SLO: логин ≥ 99. 9%, депозит ≥ 99. 85%, ставка/сеттлмент ≥ 99. 9%, p95 WS RTT ≤ 120 мс.
Инциденттік мақсаттар: MTTD ≤ 1 мин (синтетика бойынша), MTTR ≤ ақшалай флоу үшін 15-30 мин.
Қолдау сапасы: <3% билет екінші күні жауапсыз кетеді, CSAT саппорты ≥ 90%.
2) On-call ұйымдастыру: модельдер мен кестелер
Модельдер
Follow-the-sun: 3 гео-командалар (Еуропа/Америка/APAC), минималды түнгі жүктеме.
Өңірдегі түнгі ротация: N аптада бір рет бір адамға түнгі ауысым аптасы (өтемақы/демалыс).
Ұяшықтар (cell-based): азық-түлік ұяшықтары бойынша кезекшілік (брендтер/базарлар) + жалпы L1.
Ауысымдағы рөлдер
L1 On-call (әдепкі бойынша Incident Commander) - алерт қабылдайды, үйлестіреді, саппортпен байланыста болады.
L2 Домен инженерлері - төлемдер, game-gateway/WS, БД/әмиян, платформалық SRE.
Коммс-офицер - мәртебе-бет, серіктестер/провайдерлер, ішкі жаңартулар.
Duty Manager - бизнес-эскалация, басымдылық, ерекшеліктер (VIP/реттеуші).
Ауысым үлгісі (12 × 7 немесе 8 × 5 + кезекші)
Ауысым: 8/10/12 сағат. 15-30 мин «warm handover» ауыстыру.
14 күндік терезеде ең көп дегенде 2 түн және 7 on-call-күннен артық емес ережені сақтаңыз.
Әрбір ауысымда Roster бар: кезекші, резерв, шақыру жөніндегі менеджер, байланыс L2.
3) Оқыс оқиғаларды жіктеу және SLA
4) Шусыз алертинг
Қағидаттар: симптомдық SLO-алерталар → себептік ресурстық → контексті.
Симптомы: `login_success_ratio↓`, `deposit_success_by_psp↓`, `ws_rtt_p95↑`, `game_launch_success↓`.
Причины: `db_conn_saturation↑`, `queue_lag↑`, `psp_timeout↑`, `provider_launch_latency↑`.
Шудан қорғау: required consecutive violations ≥ 3, релизде авто-супресс, дедупликация және топтау.
Кезекші жиынтық: сындарлы - PagerDuty/Opsgenie; қалғаны - Slack/пошта.
Алерт мәтіні: «Не/Қайда/Қанша/Әрекет». Мысал:5) Runbook 'және эскалация
Runbook шағын үлгісі
1. Детект: дашбордқа сілтемелер (SLO, себептер), трейс, логтар.
2. Жылдам тексерулер: денсаулық PSP/провайдерлер, DR-синтетика аймағы, ДБ/кэш мәртебесі.
3. Уақытша шаралар: фича-жалаулар/kill-switch, rate-limits, PSP/провайдерді ауыстырып қосу, ауыр фиттердің тозуы.
4. Эскалация: кім L2/L3, байланыс 24 × 7 провайдер.
5. Жасыл аймақ критерийлері: SLO нормасы N минут, кезек  6. Коммс: мәртебе үлгісі, affected markets/brands, ETA/next update. T0-5 минут: L1 қабылдайды, IC тағайындайды, runbook іске қосады. T5-10 мин: профильді L2 + Коммс-офицер деп атаймыз. T10-15 мин: Duty Manager/өнім, қажет болған жағдайда заңды/комплаенс. Сыртқы: PSP/Game provider - регламент бойынша (SLA-арна, тикет, қоңырау). 6) Коммуникация және мәртебе-бет Ішкі апдейттер әрбір 10-15 минут сайын SEV-1/2 үшін (#war-room арнасы, хабарламалар үлгісі). Статус-бет: ағымдағы мәртебе, қозғалған нарықтар, уақытша шаралар, келесі жаңартылған X минут. Саппорт/аффилиаттар/серіктестер үшін Post-incident note: өтемақы ретінде болды. Үлгілер алдын ала: қысқа, «ішкі асханасыз», кінәсіз. 7) Сыртқы тәуелділікпен жұмыс істеу (PSP/ойындар/CDN) 24 × 7 байланыс каталогы: PSP A/B, ойын провайдерлері, CDN/WAF, бұлт. SLA-мониторинг: депозиттерге синтетика/ойындарды іске қосу, билеттердің автоматты триггерлері. Failover-саясаты: 'success <99% 10 мин' кезінде PSP-B бағыты, 'TTFS> 800мс' кезінде ойын провайдерін ауыстыру. Inbox-webhook: HMAC қолтаңбасы, теңсіздік, провайдер деградацияланғаннан кейін кезектен re-play. 8) GameDay және жаттығулар Апталық tabletop-жаттығулар (30-45 мин): кестелерді оқу, шешім қабылдау. Ай сайынғы техникалық DR-драйлдер (60-90 мин): PSP істен шығуы, провайдер лаг, БД/WS кластерінің құлауы. KPI жаттығулары: себебін анықтау уақыты, коммуникация сапасы, фичефлагтар бойынша шешімдердің дұрыстығы. 9) Хендовер және құжаттама 10) On-call денсаулық және тұрақтылық 8/8/8 ереже: жұмыс/ұйқы/жеке. Түнгі ауысымдар → демалыс. Жаңа келгендерге арналған бадди жүйесі, 2-3 апта кезекшілік. Психологиялық қауіпсіздік: «blameless» ретро, ауыр оқиғалар кезінде қолдау. Жүктеме аудиті: ≤ 2 «ояну» түні орта есеппен инженерге - мақсат; жоғары → алертинг/сәулет өңдеу. 11) Операциялық тиімділік өлшемдері MTTD/MTTR домендері бойынша (логин/депозит/WS/ойындар). Alert quality:% әрекетсіз шулы/жабық, орташа алерт/ауысым саны. Change failure rate:% релиздерінен туындаған оқиғалар; mean time between failures. Toil: қайталанатын қол тапсырмаларының үлесі → автоматтандыру жоспары. Provider impact: сыртқы серіктестерге байланысты SEV-2/1 үлесі (SLA/көші-қон аргументі). 12) «Кезекшінің» құрал-саймандары мен панельдері «Қызыл» дашборд SLO: логин/депозит/ставкалар/ойындарды іске қосу, 5xx/429, p95, өңірлер. Себеп панельдері: ДБ/кезек/кэш, PSP/провайдерлер, CDN/WAF. On-call диспетчері: белсенді оқиғалар, апдейт таймерлері, runbook 'және фичефлагтарға one-click сілтемелері. Әрекеттер журналы (timeline) - SLO-ға байланыстыра отырып, кім не істеді, қашан. 13) Үлгілік сценарийлер және жылдам шешімдер Әрекеттер: канареялық маршрут → PSP-B 50%; вебхуктардың таймаутын көтеру; JS-челленджді боттардан WAF-ке қосу. Коммс: «Degradation DE deposits via PSP-A» мәртебе-беті. Шығу: success ≥ 99% 15 мин, ретрайлардың кезегі  B. APAC лайв-ойындарында p95 WS өсуі Әрекеттер: WS-шлюздердің репликаларын ұлғайтамыз, warm-пул нод қосамыз; хабар тарату хабарларының rate-limit; провайдерге - RTT бойынша билет. Шығу: p95 WS RTT ≤ 120 мс 20 мин. C. ойын провайдерінің лаг (TTFS> 1. 2 с) Әрекеттер: лоббилерді баламалы үстелдерге/студияларға ауыстыру, метадеректер кэшін қосу; статус-апдейт. Шығу: TTFS <800 мс, шағымдар ↓. 14) 24/7-ге дайындық Ротациялар мен кезекшiлiк бекiтiлдi, әрбiр ауысымда «екiншi нөмiр». 15) Пост-мортема үлгісі (blameless) 1. Қысқаша: не болды, қашан, қандай SEV, әсері мен ауқымы. 2. Таймлайн: детект → эскалация → әрекет → тұрақтандыру. 3. Негізгі себептер: тех/процестер/адамдар/жеткізушілер (5 Why). 4. Не істеді/не істемеді: алерта, ранбука, коммуникация. 5. Action items: техникалық, процестік, серіктестік - жауапты және мерзімдік. 6. Профилактика: тесттер/мониторинг/оқу-жаттығулар, SLO/алгоритмдердің өзгеруі. Сәтті 24/7 казино операциялары - SLO пәні, шусыз дұрыс әзірленген аларминг, нақты runbook 'және эскалация, тұрақты жаттығулар және on-call-адамдарға ұқыпты қарау. SLO панельдерін жылдам тетіктермен байланыстырыңыз (фичефлагтар, PSP/провайдерлерді ауыстыру, ауыр кезеңдердің құлдырауы), ойыншылармен және серіктестермен байланыста болыңыз, тиімділікті өлшеңіз (MTTD/MTTR/alert quality) - және сіздің платформаңыз тәулік бойы тұрақты болады, ал команда - өнімді және тұрақты.Эскалация сатысы
A. Депозиттер PSP-A-дан DE-ге түседі
Түйіндеме
