Casino 24/7 și practici de gardă
1) Obiectivele operațiunilor 24/7
Business SLO: autentificare ≥ 99. 9%, depozit ≥ 99. 85%, rata/decontare ≥ 99. 9%, p95 WS RTT ≤ 120 ms.
Obiective incidente: MTTD ≤ 1 min (sintetic), MTTR ≤ 15-30 min pentru fluxul de numerar.
Calitatea suportului: <3% din bilete merg în a doua zi fără răspuns, CSAT de sprijin ≥ 90%.
2) Organizarea on-call: modele și programe
Modele
Follow-the-sun: 3 geo-echipe (Europa/America/APAC), încărcare minimă pe timp de noapte.
Rotația nocturnă în regiune: o săptămână de ture de noapte pe persoană o dată la N săptămâni (compensație/timp liber).
Bazat pe celule: taxă pe celule de produs (mărci/piețe) + total L1.
Roluri în schimbare
L1 On-call (Incident Commander implicit) - acceptă alertă, coordonează, păstrează legătura cu suportul.
L2 Ingineri domeniu - plăți, joc-gateway/WS, bază de date/portofel, platforma SRE.
Ofițer Comms - pagina de stare, parteneri/furnizori, actualizări interne.
Duty Manager - escaladarea afacerilor, prioritizare, excepții (VIP/regulator).
Șablon Shift (12 × 7 sau 8 × 5 + schimburi)
Shift: 8/10/12 ore. Shift schimba 15-30 min „predare caldă”.
Urmați regula de maxim 2 nopți consecutive și nu mai mult de 7 zile de gardă într-o fereastră de 14 zile.
Fiecare tură are o listă: datorie, rezervă, manager de apeluri, contact L2.
3) Clasificarea incidentelor și SLA
4) Alertarea fără zgomot
Principii: alerte simptomatice SLO → resurse cauzale → context.
: ' ', ' ', ' ', '.
: ' ', ' ', ' ', '.
Protecție împotriva zgomotului: încălcări secvențiale necesare ≥ 3, auto-supress la eliberare, eliminare a duplicatelor și grupare.
Set de taxe: critic - PagerDuty/Opsgenie; restul este Slack/mail.
Text de alertă: "Ce/Unde/Cât de mult/Acțiune. "Exemplu:5) Runbook "și escaladări
Runbook Mini șablon
1. Detectarea: link-uri către tablouri de bord (SLO, cauzale), urme, jurnale.
2. Verificări rapide: PSP/furnizori de sănătate, sintetica regiunii DR, starea DB/cache.
3. Măsuri temporare: feature-flags/kill-switch, rate-limite, PSP/comutare furnizor, degradarea caracteristicilor grele.
4. Escaladare: cine L2/L3, contactează furnizorul 24 × 7.
5. Criterii zona verde: SLO normal N minute, cozi  6. Comms: șablon de stare, piețe/mărci afectate, ETA/următoarea actualizare. T0-5 min: L1 acceptă, atribuie IC, începe runbook. T5-10 min: sunăm ofițerul L2 + Comms. T10-15 min: Duty Manager/produs, legal/conformitate, dacă este necesar. Extern: Furnizor PSP/Game - conform reglementărilor (canal SLA, bilet, apel). 6) Comunicații și pagina de stare Actualizări interne la fiecare 10-15 minute pentru SEV-1/2 (# war-room channel, mesaj șablon). Starea paginii: starea curentă, piețele afectate, măsurile provizorii, următoarea actualizare în X min. Notă post-incident pentru suport/afiliați/parteneri: ce sa întâmplat, cum să compenseze. Șabloane în avans: scurt, fără „bucătărie interioară”, fără vină. 7) Lucrul cu dependențe externe (PSP/jocuri/CDN) Directorul de contact 24 × 7: PSP A/B, furnizorii de jocuri, CDN/WAF, cloud. Monitorizare SLA: sintetice pe depuneri/jocuri de lansare, declanșatoare automate de bilete. Politici de failover: traseu către PSP-B la 'succes <99% 10 min', comutare furnizor de joc la 'TTFS> 800ms'. Carti web Inbox: semnatura HMAC, idempotenta, re-play din coada dupa degradarea furnizorului. 8) GameDay și antrenamente Exerciții săptămânale de masă (30-45 de minute): citirea graficelor, luarea deciziilor. Drive-uri tehnice lunare (60-90 min): eșec PSP, lag furnizor, baza de date WS/picătură de cluster. Exercitarea KPI: timp pentru a recunoaște cauza, calitatea comunicațiilor, corectitudinea deciziilor privind phicheflags. 9) Predarea și documentația 10) La cerere sănătate și durabilitate Regula 8/8/8: muncă/somn/personal. Ture de noapte → timp liber. Sistem de prieteni pentru începători, shadow duty 2-3 săptămâni. Siguranța psihologică: retro „fără vină”, sprijin pentru incidente grave. Audit de sarcină: ≤ 2 „treziri” pe noapte în medie pe inginer - țintă; mai sus → reciclarea alertei/arhitecturii. 11) Metrica performanței operaționale MTTD/MTTR pe domenii (login/depunere/WS/jocuri). Calitate alertă:% zgomotos/închis fără acțiune, număr mediu de alerte/schimbare. Rata de eșec a modificării:% din incidentele cauzate de eliberări; timpul mediu între eşecuri. Trudă: ponderea sarcinilor manuale repetabile → planul de automatizare. Impactul furnizorului: cota de SEV-2/1 datorată partenerilor externi (argument pentru SLA/migrație). 12) Instrumente și panouri ale „însoțitorului” Tabloul de bord „roșu” SLO: login/depunere/pariuri/jocuri de lansare, 5xx/429, p95, regiuni. Panouri cauzale: DB/cozi/memorie cache, PSP/furnizori, CDN/WAF. Dispecerul de gardă: incidente active, cronometre de actualizare, link-uri cu un singur clic către runbook și phicheflags. Cronologie - cine a făcut ce, când, cu referire la SLO. 13) Scenarii tipice și remedieri rapide Acţiuni: canar marshrut→ PSP-B 50%; ridicați timpul de ieșire a cârligelor web; Includeți JS Challenge în WAF de la boți. Comms: „Degradarea depunerilor DE prin intermediul paginii de stare PSP-A”. Ieșire: succes ≥ 99% 15 min, coadă de retragere  B. Creșterea p95 WS în APAC jocuri live Acțiuni: creșteți replicile gateway-urilor WS, porniți piscina caldă a nodurilor; mesajele de difuzare a ratei-limită; Furnizor - bilet RTT. Ieșire: p95 WS RTT ≤ 120 ms 20 min. C. Game Provider Lag (TTFS> 1. 2 s) Acțiuni: comutați lobby-ul la tabele/studiouri alternative, activați memoria cache a metadatelor; actualizare stare. Ieșire: TTFS <800 ms, ↓ plângeri. 14) Lista de verificare a pregătirii 24/7 15) Șablon post-mortem (fără vină) 1. Pe scurt: ce s-a întâmplat atunci când, ce SEV, impactul și domeniul de aplicare. 2. Linia de timp: detectarea → escaladarea → acțiunea → stabilizarea. 3. Cauze principale: acele/procese/persoane/furnizori (5 De ce). 4. Ce nu a funcționat: alerte, ranbookuri, comunicații. 5. Elemente de acțiune: tehnic, proces, partener - responsabil și termene limită. 6. Prevenire: teste/monitorizare/exerciții, modificări SLO/alertă. Operațiunile de cazino de succes 24/7 sunt disciplina SLO, proiectate corespunzător alarmant fără zgomot, cărți clare și escaladări, exerciții regulate și respect pentru oamenii de gardă. Link-ul panouri SLO la pârghii rapide (phicheflags, PSP/furnizor de comutare, degradarea caracteristicilor grele), menținerea comunicațiilor cu jucătorii și partenerii, măsurarea eficienței (calitate MTTD/MTTR/alertă) - și platforma va fi stabilă non-stop, iar echipa - productiv și stabil.Scara rulanta
A. Depozitele cad în DE la PSP-A
Rezumat reluare
