Kazinoda 24/7 ulanyş we on-call amallary
1) 24/7-amallaryň maksatlary
Business-SLO: giriş ≥ 99. 9%, goýum ≥ 99. 85%, nyrh/kesgitleme ≥ 99. 9%, p95 WS RTT ≤ 120 ms.
Waka maksatlary: MTTD ≤ 1 min (sintetika boýunça), MTTR ≤ 15-30 min pul flowlary üçin.
Goldawyň hili: <3% bilet ikinji gün jogapsyz gidýär, CSAT sapport ≥ 90%.
2) On-call guramasy: modeller we meýilnamalar
Modeller
Follow-the-sun: 3 geo-topar (Europeewropa/Amerika/APAC), iň az gijeki ýük.
Sebitde gijeki aýlaw: adam başyna gijeki çalşyk hepdesi N hepdede bir gezek (kompensasiýa/dynç alyş).
Öýjükler (cell-based): azyk öýjükleri boýunça nobatçylyk (markalar/bazarlar) + umumy L1.
Çalşykdaky rollar
L1 On-call (Insident Commander) - alert kabul edýär, utgaşdyrýar, sapport bilen aragatnaşyk saklaýar.
L2 Domen inersenerleri - tölegler, game-gateway/WS, BD/gapjyk, platforma SRE.
Komms-ofiser - status-sahypa, hyzmatdaşlar/üpjün edijiler, içerki täzelenmeler.
Duty Manager - işewürlik güýçlenmegi, ileri tutulmagy, kadadan çykmalar (VIP/düzgünleşdiriji).
Çalşyk şablony (12 × 7 ýa-da 8 × 5)
Çalşyk: 8/10/12 sagat. Çalşyk 15-30 min "warm handover".
14 günlük penjirede yzly-yzyna 2 gije we 7 on-call-günden köp bolmadyk düzgüni berjaý ediň.
Her çalşykda Roster bar: nobatçy, ätiýaçlyk, jaň dolandyryjysy, aragatnaşyk L2.
3) Hadysalaryň klassifikasiýasy we SLA
4) Sessiz alerting
Ýörelgeler: simptomatiki SLO-alertler → sebäpler çeşmeleri → kontekst.
Симптомы: `login_success_ratio↓`, `deposit_success_by_psp↓`, `ws_rtt_p95↑`, `game_launch_success↓`.
Причины: `db_conn_saturation↑`, `queue_lag↑`, `psp_timeout↑`, `provider_launch_latency↑`.
Sesden goramak: required consecutive violations ≥ 3, çykarylanda awto-supress, de-duplikasiýa we toparlanma.
Nobat toplumy: kritiki - PagerDuty/Opsgenie; galanlary - Slack/poçta.
Alertiň teksti: "Näme/Nirede/Näçe/Hereket". Mysal:5) Runbook 'we eskalasiýa
Runbook kiçi şablony
1. Detekt: daşbordlara salgylanmalar (SLO, sebäpler), treýs, loglar.
2. Çalt barlaglar: PSP/üpjün edijileriň saglygy, DR-sintetika sebiti, DB/kesh ýagdaýy.
3. Wagtlaýyn çäreler: ficha-baýdaklar/kill-switch, rate-limits, PSP/üpjün edijini üýtgetmek, agyr şekilleriň zaýalanmagy.
4. Eskalasiýa: kim L2/L3, aragatnaşyklar 24 × 7 üpjün ediji.
5. Ýaşyl zolagyň ölçegleri: SLO kadada N minut, nobatlar  6. Komms: status şablony, affected markets/brands, ETA/next update. T0-5 min: L1 kabul edýär, IC belleýär, runbook başlaýar. T5-10 min: profil L2 + Komms ofiserini çagyrýarys. T10-15 min: Duty Manager/önüm, zerur bolsa kanuny/complayens. Daşarky: PSP/Game provider - düzgünnama laýyklykda (SLA kanaly, bilet, jaň). 6) Aragatnaşyk we status-sahypa Içerki täzelenmeler SEV-1/2 üçin her 10-15 minutda (#war -room kanaly, habar şablony). Status-sahypa: häzirki ýagdaýy, täsir eden bazarlar, wagtlaýyn çäreler, X minutdan soň indiki täzelenme. Post-incident note for sapport/affiliates/partnýorlar: näme boldy, nädip öwezini dolýarys. Şablonlar öňünden: gysga, "içerki aşhanasyz", günäsiz. 7) Daşarky garaşlylyk bilen işlemek (PSP/oýunlar/CDN) Aragatnaşyk katalogy 24 × 7: PSP A/B, oýun üpjün edijileri, CDN/WAF, bulut. SLA-monitoring: depozitlere sintetika/oýunlaryň başlamagy, biletleriň awtomatiki triggerleri. Failover-syýasatlar: 'success <99% 10 min' -de PSP-B ugry, 'TTFS> 800ms' -de oýun üpjün edijisini çalyşmak. Inbox-webhook: HMAC goly, idempotentlik, üpjün ediji zaýalanandan soň nobatdan re-play. 8) GameDay we türgenleşik Hepdelik tabletop-maşklar (30-45 minut): grafikleri okamak, karar bermek. Aýlyk tehniki DR-drailler (60-90 minut): PSP-iň şowsuzlygy, üpjün edijiniň yza galmagy, WS/DB klasteriniň ýykylmagy. KPI maşklar: sebäpleri tanamagyň wagty, aragatnaşyklaryň hili, aýratynlyklar boýunça kararlaryň dogrulygy. 9) Hendower we resminamalar 10) On-call saglyk we durnuklylyk 8/8/8 düzgüni: iş/uky/şahsy. Gijeki çalşyklar → dynç alyş. Täze başlanlar üçin baddi-ulgam, 2-3 hepde nobatçylyk. Psihologiki howpsuzlyk: "blameless" retro, agyr hadysalarda goldaw. Ýüküň barlagy: bir gije ortaça inerener üçin 2 ≤ "oýanmak" - maksat; ýokarda → alerting/arhitektura gaýtadan işlemek. 11) Operasiýa netijeliliginiň metrikleri Domen boýunça MTTD/MTTR (giriş/goýum/WS/oýunlar). Alert quality:% şowhunly/hereketsiz ýapyk, ortaça alert/smena. Change failure rate: Goýberilen hadysalaryň% -i; mean time between failures. Toil: gaýtalanýan el meseleleriniň paýy → awtomatlaşdyryş meýilnamasy. Provider impact: daşarky hyzmatdaşlar sebäpli SEV-2/1 paýy (SLA/migrasiýa üçin argument). 12) "Nobatçynyň" gurallary we panelleri "Gyzyl" dashboard SLO: login/depozit/stawkalar/oýunlaryň başlamagy, 5xx/429, p95, sebitler. Sebäpler paneli: DB/nobatlar/kesiş, PSP/üpjün edijiler, CDN/WAF. On-call dispetçeri: işjeň hadysalar, täzelenmeleriň taýmerleri, runbook we ficheflaglara one-click baglanyşyklary. Hereket magazineurnaly (timeline) - SLO bilen baglanyşdyrylan, haçan, kim näme etdi. 13) Nusgawy ssenariýalar we çalt çözgütler Hereketler: kanar ýoly → PSP-B 50%; webhook wagtyny ýokarlandyrmak; JS-challenge-i botlardan WAF-a goşuň. Komms: "Degradation DE deposits via PSP-A" status sahypasy. Çykyş: success ≥ 99% 15 min, retraýlaryň nobaty  B. APAC durmuş oýunlarynda p95 WS-iň ösüşi Hereket: WS-şlýuzlaryň nusgalaryny köpeldýäris, nod warm-howuzyny açýarys; ýaýlym habarlarynyň rate-limit; üpjün edijä - RTT boýunça bilet. Çykyş: p95 WS RTT ≤ 120 ms 20 min. C. oýun üpjün edijisi lag (TTFS> 1. 2 s) Hereketler: lobbini alternatiw stollara/studiýalara geçirmek, meta-maglumat keshini açmak; status-täzelenme. Çykyş: TTFS <800 ms, şikaýatlar ↓. 14) Taýynlyk çek-sanawy 24/7 15) Post-mortem şablony (blameless) 1. Gysgaça: näme boldy, haçan, haýsy SEV, täsir we masştab. 2. Timline: detekt → eskalasiýa → hereket → durnuklaşma. 3. Kök sebäpleri :/prosesler/adamlar/üpjün edijiler (5 Why). 4. Näme işledi/näme işlemedi: alertler, runbook, aragatnaşyk. 5. Action items: tehniki, prosessual, hyzmatdaş - jogapkär we möhletli. 6. Öňüni alyş: synaglar/gözegçilik/maşklar, SLO/alertleri üýtgetmek. Kazinoda geçirilen üstünlikli 24/7 amallar SLO-nyň düzgün dizaýn edilen düzgün-nyzamy, sessiz alarming, anyk runbook 'i we eskalasiýa, yzygiderli maşklar we on-call-adamlara seresaply garaýyşdyr. SLO panellerini çalt gollar bilen baglanyşdyryň (ficheflags, PSP/üpjün edijileri çalyşmak, agyr nokatlar zaýalanmak), oýunçylar we hyzmatdaşlar bilen aragatnaşyk saklaň, netijeliligi ölçäň (MTTD/MTTR/alert quality) - we platforma gije-gündiziň dowamynda durnukly bolar we buýruk - öndürijilikli we durnukly.Eskalasiýa basgançagy
A. Depozitler PSP-A-dan DE düşýär
Jemleme
