Casinoda 24/7 əməliyyat və on-call təcrübələri
1) 24/7 əməliyyatlarının məqsədləri
Biznes SLO: giriş ≥ 99. 9%, depozit ≥ 99. 85%, bahis/quruluş ≥ 99. 9%, p95 WS RTT ≤ 120 ms.
Hadisə hədəfləri: MTTD ≤ 1 min (sintetik), MTTR ≤ pul flow üçün 15-30 min.
Dəstək keyfiyyəti: <3% bilet ikinci gün cavabsız, CSAT sapport ≥ 90%.
2) On-call təşkilatı: modellər və cədvəllər
Modellər
Follow-the-sun: 3 geo-komanda (Avropa/Amerika/APAC), minimum gecə yükü.
Regionda gecə növbəsi: adambaşına N həftədə bir gecə növbəsi (kompensasiya/məzuniyyət).
Hücrələr (cell-based): ərzaq hücrələri (markalar/bazarlar) + ümumi L1.
Növbədəki rollar
L1 On-call (default Insident Commander) - alert qəbul, koordinasiya, sapport ilə əlaqə saxlayır.
L2 Domen mühəndisləri - ödənişlər, game-gateway/WS, BD/cüzdan, platforma SRE.
Komms-zabit - status-səhifə, tərəfdaşlar/provayderlər, daxili yeniləmələr.
Duty Manager - biznes eskalasiyası, prioritetləşdirmə, istisnalar (VIP/tənzimləyici).
Smena şablonu (12 × 7 və ya 8 × 5 + növbətçi)
Növbə: 8/10/12 saat. Dəyişdirilməsi 15-30 dəq «warm handover».
14 günlük pəncərədə maksimum 2 gecə və ən çox 7 on-call-gün qaydasına əməl edin.
Hər bir növbə Roster var: növbətçi, ehtiyat, zəng meneceri, əlaqə L2.
3) Hadisələrin təsnifatı və SLA
4) Səs-küy olmadan Alerting
Prinsiplər: simptomatik SLO-alertlər → səbəb resursları → kontekst.
Симптомы: `login_success_ratio↓`, `deposit_success_by_psp↓`, `ws_rtt_p95↑`, `game_launch_success↓`.
Причины: `db_conn_saturation↑`, `queue_lag↑`, `psp_timeout↑`, `provider_launch_latency↑`.
Səs-küy qorunması: required consecutive violations ≥ 3, release auto supress, deduplication və qruplaşdırma.
Növbə dəsti: kritik - PagerDuty/Opsgenie; qalan - Slack/mail.
Alert mətni: «Nə/Harada/Nə qədər/Hərəkət». Nümunə:5) Runbook 'və eskalasiya
Runbook mini şablon
1. Detekt: Dashboard linkləri (SLO, səbəb), treys, log.
2. Sürətli yoxlamalar: PSP/provayderlərin sağlamlığı, DR-sintetik region, BD/cache statusu.
3. Müvəqqəti tədbirlər: fiça bayraqları/kill-switch, rate-limits, PSP/provayder keçid, ağır fiqurların deqradasiyası.
4. Eskalasiya: kim L2/L3, əlaqə 24 × 7 provayder.
5. Yaşıl zonanın meyarları: SLO normada N dəqiqə, növbələr  6. Coms: status şablon, affected markets/brands, ETA/next update. T0-5 min: L1 qəbul, IC təyin, runbook çalışır. T5-10 min: profil L2 + Koms zabit çağırırıq. T10-15 min: Duty Manager/məhsul, lazım olduqda hüquqi/komplayens. Xarici: PSP/Game provider - reqlamentə əsasən (SLA kanalı, bilet, zəng). 6) Rabitə və status-səhifə SEV-1/2 üçün hər 10-15 dəqiqədə daxili yeniləmələr (kanal #war -room, mesaj şablonu). Status-səhifə: cari status, təsir bazarları, müvəqqəti tədbirlər, X dəqiqə sonra yenilənir. Post-incident note üçün sapport/affiliates/partnyorlar: nə oldu, kompensasiya kimi. Əvvəlcədən şablonlar: qısa, «daxili mətbəx» olmadan, günahsız. 7) Xarici asılılıqla işləmək (PSP/oyunlar/CDN) Əlaqə kataloqu 24 × 7: PSP A/B, oyun provayderləri, CDN/WAF, bulud. SLA monitorinqi: depozitlərə sintetika/oyunların başlaması, avtomatik bilet tetikleyiciləri. Failover siyasəti: PSP-B marşrutu 'success <99% 10 dəq', oyun provayderi keçid 'TTFS> 800ms'. Inbox-webhook: HMAC imzası, idempotentlik, provayder deqradasiyasından sonra növbədən yenidən oynamaq. 8) GameDay və təlim Həftəlik tabletop təlimləri (30-45 dəqiqə): qrafiklərin oxunması, qərarların qəbulu. Aylıq texniki DR-drails (60-90 dəq): PSP uğursuzluğu, lag provayder, DB/WS klasterinin düşməsi. KPI təlimləri: səbəblərin tanınması vaxtı, kommunikasiyaların keyfiyyəti, fitness qərarlarının düzgünlüyü. 9) Hendover və sənədləşmə 10) On-call sağlamlıq və sabitlik Qayda 8/8/8: iş/yuxu/şəxsi. Gecə növbələri → istirahət. Yeni başlayanlar üçün Buddy sistemi, shadow-növbə 2-3 həftə. Psixoloji təhlükəsizlik: «blameless» retro, ağır hadisələrə dəstək. Yükün auditi: bir mühəndis üçün orta hesabla bir gecədə ≤ 2 «oyanış» - hədəf; yuxarıda → alerting/memarlıq emalı. 11) Əməliyyat effektivliyinin metrikası MTTD/MTTR domen (giriş/depozit/WS/oyunlar). Alert quality:% səs-küylü/hərəkətsiz qapalı, orta sayda alert/növbə. Change failure rate:% relizlər səbəb olan hadisələr; mean time between failures. Toil: təkrar əl tapşırıqları payı → avtomatlaşdırma planı. Provider impact: xarici tərəfdaşlara görə SEV-2/1 payı (SLA/miqrasiya üçün arqument). 12) «Növbətçi» alətlər və panellər «Qırmızı» Dashboard SLO: giriş/depozit/bahis/oyun, 5xx/429, p95, regionlar. Səbəb panelləri: DB/növbələr/cache, PSP/provayderlər, CDN/WAF. On-call dispetçer: aktiv hadisələr, yeniləmə zamanlayıcıları, runbook və ficheflags üçün bir-click bağlantıları. Fəaliyyət jurnalı (timeline) - SLO ilə bağlı, nə zaman, kim etdi. 13) Tipik ssenarilər və sürətli həllər Fəaliyyət: Kanarya marşrutu → PSP-B 50%; webhook vaxtını artırmaq; JS çağırışını botlardan WAF-a daxil edin. Komms: status-səhifə «Degradation DE deposits via PSP-A». Çıxış: success ≥ 99% 15 dəq, retras növbəsi  B. Canlı APAC oyunlarında p95 WS artımı Fəaliyyət: WS şlyuzlarının replikalarını artırın, warm-pool nodunu yandırın; rate-limit yayım mesajları; provayder - RTT bilet. Çıxış: p95 WS RTT ≤ 120 ms 20 dəq. C. oyun provayderi (TTFS> 1. 2 s) Fəaliyyət: lobbi alternativ masa/studiyalara keçid, meta-məlumat cache daxil; status-yeniləmə. Çıxış: TTFS <800 ms, şikayətlər ↓. 14) 24/7 hazırlıq çek siyahısı 15) Post-mortem şablon (blameless) 1. Qısa: nə zaman, hansı SEV, təsir və miqyas. 2. Time Line: Detekt → eskalasiya → fəaliyyət → sabitləşmə. 3. Kök səbəbləri: tech/proseslər/insanlar/təchizatçılar (5 Why). 4. Nə işlədi/nə işləmədi: alertlər, ranbuklar, kommunikasiyalar. 5. Action items: texniki, prosessual, tərəfdaşlıq - məsuliyyətli və uzunmüddətli. 6. Profilaktika: testlər/monitorinq/təlimlər, SLO/alert dəyişiklikləri. Uğurlu 24/7 casino əməliyyatları SLO intizamı, səs-küy olmadan düzgün dizayn edilmiş alarminq, aydın runbook və eskalasiya, müntəzəm təlimlər və on-call insanlarına diqqətli münasibətdir. SLO panellərini sürətli rıçaqlarla əlaqələndirin (ficheflaglar, PSP/provayderlərin dəyişdirilməsi, ağır fiqurların deqradasiyası), oyunçularla və tərəfdaşlarla ünsiyyəti saxlayın, effektivliyi ölçün (MTTD/MTTR/alert quality) - və platformanız gecə-gündüz sabit olacaq və komanda - məhsuldar və davamlı.Eskalasiya pilləkəni
A. Depozitlər PSP-A-da DE-yə düşür
Xülasə
