24/7-Betrieb und On-Call-Praktiken im Casino
1) Ziele der 24/7-Operationen
Business SLO: Login ≥ 99. 9%, Anzahlung ≥ 99. 85%, Rate/Settlement ≥ 99. 9%, p95 WS RTT ≤ 120 ms.
Incident Ziele: MTTD ≤ 1 min (synthetisch), MTTR ≤ 15-30 min für Cash-Flow.
Support-Qualität: <3% der Tickets gehen am zweiten Tag unbeantwortet, der CSAT von sapport ≥ 90%.
2) On-Call-Organisation: Modelle und Fahrpläne
Modelle
Follow-the-sun: 3 Geo-Teams (Europa/Amerika/APAC), minimale Nachtbelastung.
Nachtrotation in der Region: eine Woche Nachtschichten pro Person alle N Wochen (Entschädigung/Auszeit).
Zellen (zellbasiert): Bereitschaftsdienst für Produktzellen (Marken/Märkte) + allgemeines L1.
Rollen im Wandel
L1 On-Call (Incident Commander default) - akzeptiert alert, koordiniert, hält die Verbindung mit dem Sapport.
L2 Domain Engineers - Zahlungen, Game-Gateway/WS, DB/Wallet, Plattform SRE.
Comms Officer - Status-Seite, Partner/Anbieter, interne Updates.
Duty Manager - Business Eskalationen, Priorisierung, Ausnahmen (VIP/Regulator).
Schichtmuster (12 × 7 oder 8 × 5 + Bereitschaftsdienst)
Wechsel: 8/10/12 Stunden. Schichtwechsel 15-30 min „warm handover“.
Befolgen Sie die Regel von 2 aufeinanderfolgenden Nächten maximal und nicht mehr als 7 On-Call-Tage in einem 14-Tage-Fenster.
Jede Schicht hat Roster: Bereitschaftsdienst, Reserve, Bereitschaftsleiter, Ansprechpartner L2.
3) Klassifizierung von Vorfällen und SLAs
4) Alerting ohne Lärm
Prinzipien: Symptomatische SLO-Alerts → kausale Ressourcen → Kontext.
Симптомы: `login_success_ratio↓`, `deposit_success_by_psp↓`, `ws_rtt_p95↑`, `game_launch_success↓`.
Причины: `db_conn_saturation↑`, `queue_lag↑`, `psp_timeout↑`, `provider_launch_latency↑`.
Lärmschutz: Erforderliche Consecutive Violations ≥ 3, Auto-Supress bei Veröffentlichung, Deduplizierung und Gruppierung.
Diensthabendes Set: kritisch - PagerDuty/Opsgenie; der Rest ist Slack/Mail.
Alert-Text: „Was/Wo/Wie viel/Aktion“. Beispiel:5) Runbook 'und Eskalationen
Mini-Runbook-Vorlage
1. Detect: Links zu Dashboards (SLO, kausal), Trace, Logs.
2. Quick Checks: Gesundheit PSP/Provider, DR-Region synthetisch, DB/Cache-Status.
3. Temporäre Maßnahmen: Ficha-Flags/Kill-Switch, Rate-Limits, PSP/Provider-Switching, Degradation schwerer Fichas.
4. Eskalationen: Wer L2/L3, Kontakte 24 × 7 Anbieter.
5. Grüne Zonenkriterien: SLO normal N Minuten, Warteschlangen  6. Comms: Statusvorlage, affected markets/brands, ETA/next update. T0-5 min: L1 akzeptiert, weist IC zu, startet Runbook. T5-10 min: Wir nennen das Profil L2 + Comms Officer. T10-15 min: Duty Manager/Produkt, ggf. Legal/Compliance. Extern: PSP/Game Provider - gemäß den Vorschriften (SLA-Kanal, Ticket, Anruf). 6) Kommunikation und Status-Seite Interne Updates alle 10-15 Minuten für SEV-1/2 (Kanal # war-room, Nachrichtenvorlage). Status-Seite: Aktueller Status, betroffene Märkte, temporäre Maßnahmen, nächste Aktualisierung nach X Min. Post-Incident-Note für Sapport/Affiliates/Partner: Was war, wie kompensieren wir. Vorlagen vorab: kurz, ohne „Innenküche“, ohne Schuld. 7) Umgang mit externen Abhängigkeiten (PSP/Spiele/CDN) Kontaktverzeichnis 24 × 7: PSP A/B, Spieleanbieter, CDN/WAF, Cloud. SLA-Monitoring: Synthetik bei Einzahlungen/Spielstart, automatische Ticket-Trigger. Fehlgeschlagene Richtlinien: Route auf PSP-B bei „Erfolg <99% 10 min“, Umschalten des Spieleanbieters bei „TTFS> 800ms“. Inbox-Webhooks: HMAC-Signatur, Idempotenz, Re-Play aus der Warteschlange nach der Degradierung des Anbieters. 8) GameDay und Training Wöchentliche Tabletop-Übungen (30-45 min): Zeitpläne lesen, Entscheidungen treffen. Monatliche technische DR-Drives (60-90 min): PSP-Ausfall, Provider-Lag, DB/WS-Cluster-Drop. KPI der Übung: Zeitpunkt der Ursachenerkennung, Qualität der Kommunikation, Korrektheit der Entscheidungen zu den Ficheflagen. 9) Handover und Dokumentation 10) On-Call Gesundheit und Nachhaltigkeit 8/8/8-Regel: Arbeit/Schlaf/privat. Nachtschicht → Auszeit. Buddy-System für Anfänger, Schattendienst 2-3 Wochen. Psychologische Sicherheit: „blameless“ retro, Unterstützung bei schweren Zwischenfällen. Lastaudit: ≤ 2 „Aufwachen“ pro Nacht im Durchschnitt pro Ingenieur - das Ziel; oben → Verarbeitung von Alerting/Architektur. 11) Kennzahlen zur betrieblichen Effizienz MTTD/MTTR nach Domains (Login/Einzahlung/WS/Spiele). Alarmqualität:% laut/geschlossen ohne Aktion, durchschnittliche Anzahl der Alert/Schicht. Änderungsfehlerrate:% der Incidents, die durch Releases verursacht werden; mean time between failures. Toil: Anteil wiederholbarer manueller Aufgaben → Automatisierungsplan. Provider impact: Anteil der SEV-2/1 aufgrund externer Partner (Argument für SLA/Migration). 12) Werkzeuge und Panels „im Dienst“ „Red“ SLO Dashboard: Login/Einzahlung/Wetten/Spiele starten, 5xx/429, p95, Regionen. Kausale Panels: DB/Warteschlangen/Cache, PSP/Provider, CDN/WAF. On-Call-Manager: aktive Vorfälle, Timer-Updates, One-Click-Links zu Runbook ™ und Ficheflags. Aktivitätsprotokoll (Timeline) - wer wann was gemacht hat, mit Bezug zum SLO. 13) Typische Szenarien und schnelle Lösungen Aktionen: Kanarienvogel marshrut→ PSP-B 50%; erhöhen Sie die Zeitüberschreitung von Webhooks; JS-Challenge in WAF von Bots aktivieren. Comms: Statusseite „Degradation DE deposits via PSP-A“. Ertrag: Erfolg ≥ 99% 15 min, Retracement-Warteschlange  B. Wachstum von p95 WS in APAC-Live-Spielen Aktionen: WS-Gateway-Repliken vergrößern, Warm-Pool-Knoten einschließen; Rate-Limit der Broadcast-Nachrichten; Anbieter - RTT-Ticket. Ausgang: p95 WS RTT ≤ 120 ms 20 min. C. Lag des Spieleanbieters (TTFS> 1. 2 c) Aktionen: Wechseln Sie die Lobby zu alternativen Tischen/Studios, aktivieren Sie den Metadaten-Cache; Status-Update. Ausgang: TTFS <800 ms, Beschwerden ↓. 14) Checkliste bereit für 24/7 15) Post-Mortem-Vorlage (blameless) 1. Kurz: Was wann passiert ist, welcher SEV, Einfluss und Umfang. 2. Zeitlinie: Ein Detail → Eskalation → Aktion → Stabilisierung. 3. Wurzelursachen: diejenigen/Prozesse/Personen/Lieferanten (5 Warum). 4. Was hat funktioniert/was nicht: Alerts, Ranbooks, Kommunikation. 5. Aktionselemente: technisch, prozessual, partnerschaftlich - verantwortlich und deadlines. 6. Prävention: Tests/Monitoring/Übungen, SLO/Alert-Änderungen. Erfolgreiche 24/7-Casino-Operationen sind eine SLO-Disziplin, richtig gestaltete Alarmierung ohne Lärm, klare Runbooks und Eskalationen, regelmäßige Übungen und ein sorgfältiger Umgang mit On-Call-Menschen. Verbinden Sie SLO-Panels mit schnellen Hebeln (Ficheflags, PSP/Provider-Switching, Heavy-Fit-Degradation), pflegen Sie die Kommunikation mit Spielern und Partnern, messen Sie die Effizienz (MTTD/MTTR/Alert Quality) - und Ihre Plattform ist rund um die Uhr stabil und das Team produktiv und nachhaltig.Eskalationsleiter
A. Einlagen fallen in DE bei PSP-A
Zusammenfassung
