Kazinoda 24/7 foydalanish va on-call amaliyotlari
1) 24/7-operatsiyalarning maqsadlari
Biznes-SLO: login ≥ 99. 9%, depozit ≥ 99. 85%, stavka/settlment ≥ 99. 9%, p95 WS RTT ≤ 120 ms.
Noxush maqsadlar: MTTD ≤ 1 min (sintetika bo’yicha), MTTR ≤ pul floulari uchun 15-30 min.
Qo’llab-quvvatlash sifati: <3% chiptalar ikkinchi kuni javobsiz ketadi, CSAT sapport ≥ 90%.
2) On-call: modellar va jadvallarni tashkil etish
Modellar
Follow-the-sun: 3 geo-jamoa (Yevropa/Amerika/APAC), minimal tungi yuk.
Mintaqada tungi rotatsiya: bir kishi boshiga tungi smenalar haftasi N haftada bir marta (kompensatsiya/dam olish kunlari).
Kataklar (cell-based): mahsulot kataklari bo’yicha navbatchilik (brendlar/bozorlar) + umumiy L1.
Smenadagi rollar
L1 On-call (default bo’yicha Incident Commander) - alert qabul qiladi, muvofiqlashtiradi, sapport bilan aloqa qiladi.
L2 Domen muhandislari - to’lovlar, game-gateway/WS, BD/hamyon, platforma SRE.
Komms-ofitser - maqom-sahifa, sheriklar/provayderlar, ichki yangilanishlar.
Duty Manager - biznes-eskalatsiya, ustuvorlik, istisnolar (VIP/regulyator).
Smena shabloni (12 × 7 yoki 8 × 5 + navbatchi)
Smena: 8/10/12 soat. 15-30 daqiqa «warm handover» almashtirish.
14 kunlik derazada ketma-ket 2 kecha va ko’pi bilan 7 on-call-kun qoidasiga rioya qiling.
Har bir smenada Roster mavjud: navbatchi, rezerv, qo’ng’iroq menejeri, kontaktlar L2.
3) Hodisalar tasnifi va SLA
4) Shovqinsiz alerting
Tamoyillar: simptomatik SLO-alertlar → sababiy resurslar → kontekst.
Симптомы: `login_success_ratio↓`, `deposit_success_by_psp↓`, `ws_rtt_p95↑`, `game_launch_success↓`.
Причины: `db_conn_saturation↑`, `queue_lag↑`, `psp_timeout↑`, `provider_launch_latency↑`.
Shovqindan himoya qilish: required consecutive violations ≥ 3, reliz paytida avto-supress, deduplikatsiya va guruhlash.
Navbatchi to’plam: kritik - PagerDuty/Opsgenie; qolganlari - Slack/pochta.
Alert matni: «Nima/Qaerda/Qancha/Harakat». Misol:5) Runbook’i va eskalatsiyalar
Runbook mini namunasi
1. Detekt: dashbordlarga havolalar (SLO, sabablar), treys, loglar.
2. Tezkor tekshiruvlar: PSP/provayderlarning sog’lig’i, sintetikaning DR mintaqasi, DB/kesh maqomi.
3. Vaqtinchalik choralar: ficha bayroqlari/kill-switch, rate-limits, PSP/provayderni almashtirish, og’ir fichlarning degradatsiyasi.
4. Eskalatsiyalar: kim L2/L3, aloqalar 24 × 7 provayder.
5. Yashil zona mezonlari: SLO normada N daqiqa, navbatlar 6. Komms: maqom namunasi, affected markets/brands, ETA/next update. T0-5 daqiqa: L1 qabul qiladi, IC ni tayinlaydi, runbook ni ishga tushiradi. T5-10 daqiqa: biz profil L2 + Comms ofitserini chaqiramiz. T10-15 min: Duty Manager/mahsulot, zarurat bo’lganda yuridik/komplayens. Tashqi: PSP/Game provider - reglament bo’yicha (SLA-kanal, chipta, qo’ng’iroq). 6) Kommunikatsiyalar va maqom-sahifa Ichki apdeytlar har 10-15 daqiqada SEV-1/2 uchun (#war-room kanali, xabarlar shabloni). Maqom-sahifa: joriy maqom, ta’sir ko’rsatilgan bozorlar, vaqtinchalik choralar, keyingi yangilanish X min. Post-incident note sapport/affiliats/sheriklar uchun: kompensatsiya sifatida nima bo’ldi. Naqshlar oldindan: qisqacha, «ichki oshxonasiz», aybsiz. 7) Tashqi qaramliklar bilan ishlash (PSP/o’yinlar/CDN) Aloqa katalogi 24 × 7: PSP A/B, oʻyin provayderlari, CDN/WAF, bulut. SLA-monitoring: depozitlarga sintetika/o’yinlarni ishga tushirish, chiptalarning avtomatik triggerlari. Failover-siyosati:’success’da PSP-B yo’nalishi <99% 10 min’,’TTFS> 800ms’da o’yin provayderini almashtirish. Inbox-vebxuk: HMAC imzosi, idempotentlik, provayder degradatsiyadan keyin navbatdan re-play. 8) GameDay va mashqlar Haftalik tabletop-mashqlar (30-45 daqiqa): grafiklarni o’qish, qarorlar qabul qilish. Har oylik texnik DR-draillar (60-90 daqiqa): PSP nosozligi, provayder lag, DB/WS klasterining qulashi. KPI mashqlar: sabablarni aniqlash vaqti, kommunikatsiya sifati, ficheflaglar bo’yicha qarorlarning to’g "riligi. 9) Xendover va hujjatlar 10) On-call salomatlik va barqarorlik 8/8/8 qoidasi: ish/uyqu/shaxsiy. Tungi smenalar → dam olish kunlari Yangi kelganlar uchun buddi tizimi, shadow-navbatchilik 2-3 hafta. Psixologik xavfsizlik: «blameless» retro, og’ir hodisalarni qo’llab-quvvatlash. Yuklama auditi: ≤ 2 «uyg’onish» bir kecha uchun o’rtacha muhandisga - maqsad; yuqorida → alerting/arxitekturani qayta ishlash. 11) Operatsion samaradorlik metrikasi MTTD/MTTR domenlar bo’yicha (login/depozit/WS/o’yinlar). Alert quality: harakatsiz shovqin/yopiq%, o’rtacha alert/smena soni. Change failure rate: relizlar tufayli yuzaga kelgan hodisalar% mean time between failures. Toil: takrorlanadigan qoʻl vazifalari ulushi → avtomatlashtirish rejasi. Provider impact: tashqi hamkorlar tufayli SEV-2/1 ulushi (SLA/migratsiya uchun argument). 12) «Navbatchi» asboblari va panellari «Qizil» SLO dashbord: login/depozit/stavkalar/o’yinlarni ishga tushirish, 5xx/429, p95, hududlar. Sabablar panellari: DB/navbatlar/kesh, PSP/provayderlar, CDN/WAF. On-call dispetcher: faol hodisalar, yangilanishlar taymeri, runbook’va ficheflaglarga one-click havolalari. Harakat jurnali (timeline) - SLO bilan bog’langan holda, kim, qachon, nima qildi. 13) Namunaviy stsenariylar va tez yechimlar Harakatlar: kanar yo’nalishi → PSP-B 50%; vebxuklarning vaqtini ko’tarish; JS-challenge botlardan WAFga kiritiladi. Komms: «Degradation DE deposits via PSP-A» maqom sahifasi. Chiqish: success ≥ 99% 15 min. B. APAC hayot o’yinlarida p95 WS o’sishi Amallar: WS-shlyuzlarning nusxalarini ko’paytiring, warm-pulni yoqing; keng ko’lamli xabarlarning rate-limiti; provayderga - RTT bo’yicha chipta. Chiqish: p95 WS RTT ≤ 120 ms 20 min. S. O’yinlar provayderi (TTFS> 1. 2 s) Amallar: lobbini muqobil stol/studiyalarga oʻtkazish, meta maʼlumotlar keshini yoqish; maqom-yangilanish. Chiqish: TTFS <800 ms, shikoyatlar ↓. 14) 24/7 tayyorlik chek-varaqasi 15) Post-mortem shabloni (blameless) 1. Qisqacha: nima bo’ldi, qachon, qanday SEV, ta’sir va ko’lami. 2. Taymline: detekt → eskalatsiya → harakat → barqarorlashtirish. 3. Asosiy sabablar :/jarayonlar/odamlar/yetkazib beruvchilar (5 Why). 4. Nima ishladi/nima ishlamadi: alertlar, runbuklar, kommunikatsiyalar. 5. Action items: texnik, protsessual, sheriklik - mas’uliyatli va muddatlidir. 6. Profilaktika: testlar/monitoring/mashqlar, SLO/alertlarni o’zgartirish. Muvaffaqiyatli 24/7 casino operatsiyalari SLO intizomi, shovqinsiz to’g’ri ishlab chiqilgan alarming, aniq runbook’i va eskalatsiyalar, muntazam mashg’ulotlar va on-call-odamlarga ehtiyotkorlik bilan munosabatda bo’lishdir. SLO panellarini tezkor dastaklar bilan bog’lang (ficheflaglar, PSP/provayderlarni o’zgartirish, og’ir chiziqlar buzilishi), o’yinchilar va hamkorlar bilan muloqotda bo’ling, samaradorlikni o’lchang (MTTD/MTTR/alert quality) - va platformaniz kecha-kunduz barqaror bo’ladi va buyruq - mahsuldor va barqaror.Eskalatsiya zinapoyasi
A. Depozitlar PSP-A da DEga tushadi
Xulosa