Pratiques 24/7-exploitation et on-call au casino
1) Objectifs 24/7-opérations
Business SLO : login ≥ 99. 9 %, dépôt ≥ 99. 85 %, taux/settlement ≥ 99. 9 %, p95 WS RTT ≤ 120 ms.
Cibles d'incident : MTTD ≤ 1 min (synthétique), MTTR ≤ 15-30 min pour les flocons d'argent.
Qualité du support : <3 % des tiquets partent le deuxième jour sans réponse, CSAT saphport ≥ 90 %.
2) Organisation de l'appel : modèles et horaires
Modèles
Follow-the-sun : 3 équipes géo (Europe/Amériques/APAC), charge minimale de nuit.
Rotation nocturne dans la région : une semaine de travail nocturne par personne toutes les N semaines (compensation/congés).
Cellules (cell-based) : service par cellules de produits (marques/marchés) + total L1.
Rôles dans le changement
L1 On-call (Commandant d'incident par défaut) : Prend un alert, coordonne, communique avec le saphport.
L2 Ingénieurs de domaine - paiements, game-gateway/WS, OBD/portefeuille, plate-forme SRE.
L'officier Comms est une page de statut, des partenaires/fournisseurs, des apdates internes.
Duty Manager - escalade des affaires, hiérarchisation, exceptions (VIP/régulateur).
Modèle de poste (12 × 7 ou 8 × 5 + service)
Changement : 8/10/12 heures. Changement de 15-30 min « warm handover ».
Respecter la règle de 2 nuits consécutives maximum et pas plus de 7 jours d'appel dans la fenêtre de 14 jours.
Chaque équipe a un Roster : garde, réserve, gestionnaire d'appel, contact L2.
3) Classification des incidents et SLA
4) Alerting sans bruit
Principes : les alertes SLO symptomatiques → le contexte → causal des ressources.
Симптомы: `login_success_ratio↓`, `deposit_success_by_psp↓`, `ws_rtt_p95↑`, `game_launch_success↓`.
Причины: `db_conn_saturation↑`, `queue_lag↑`, `psp_timeout↑`, `provider_launch_latency↑`.
Protection contre le bruit : required consecutive violations ≥ 3, auto-suppress à la sortie, déduplication et regroupement.
Recrutement de garde : critique - PagerDuty/Opsgenie ; le reste est Slack/mail.
Texte alert : « Quoi/Où/Combien/Action ». Exemple :5) Runbook 'et escalade
Mini modèle runbook
1. Detect : liens vers les dashboards (SLO, causal), la trace, les logs.
2. Contrôles rapides : PSP santé/fournisseurs, DR région synthétique, statut OBD/cache.
3. Mesures temporaires : drapeaux de ficha/kill-switch, limites de taux, changement de PSP/fournisseur, dégradation des fiches lourdes.
4. Escalade : qui L2/L3, contacts 24 × 7 fournisseurs.
5. Critères de la zone verte : SLO en règle N minutes, file d'attente  6. Comms : modèle de statut, marchés associés/marques, ETA/next update. T0-5 min : L1 accepte, nomme IC, lance le runbook. T5-10 min : Nous appelons le profil L2 + Comms Officier. T10-15 min : Duty Manager/produit, si nécessaire légal/conformité. Externe : PSP/Game provider - par règlement (canal SLA, ticket, appel). 6) Communications et status page Apdates internes toutes les 10-15 min pour les SEV-1/2 (# war-room, modèle de message). Page de statut : situation actuelle, marchés touchés, mesures provisoires, prochaine mise à jour dans X min. Note post-incident pour le sappport/affiliés/partenaires : ce qui était, comment nous compensons. Modèles à l'avance : court, pas de « cuisine intérieure », pas de faute. 7) Travailler avec des dépendances externes (PSP/jeux/CDN) Répertoire des contacts 24 × 7 : PSP A/B, fournisseurs de jeux, CDN/WAF, cloud. Surveillance SLA : synthétique pour les dépôts/lancement de jeux, déclencheurs de tickets automatiques. Politiques d'échec : itinéraire sur PSP-B à « success <99 % 10 min », changement de fournisseur de jeux à « TTFS> 800ms ». Inbox webhooks : signature HMAC, idempotence, re-play de la file après dégradation du fournisseur. 8) GameDay et entraînement Exercices de tabletop hebdomadaires (30-45 min) : lecture des graphiques, prise de décision. Drive RD technique mensuelle (60-90 min) : panne PSP, lag fournisseur, chute OBD/cluster WS. Exercices KPI : temps de reconnaissance des causes, qualité des communications, exactitude des décisions sur les ficheflags. 9) Hendover et documentation 10) Santé et durabilité sur appel Règle 8/8/8 : travail/sommeil/personnel. Heures de nuit → congés. Système Buddy pour les débutants, service shadow 2-3 semaines. Sécurité psychologique : « blameless » rétro, soutien en cas d'incidents graves. Audit de charge : ≤ 2 « réveils » par nuit en moyenne par ingénieur - objectif ; ci-dessus → le recyclage de l'alerting/architecture. 11) Mesures de l'efficacité opérationnelle MTTD/MTTR par domaine (login/dépôt/WS/jeux). Qualité d'alerte :% bruyants/fermés sans action, nombre moyen d'alertes/changements. Taux d'échec du changement :% des incidents causés par les versions ; mean time between failures. Toil : proportion de tâches manuelles répétables → plan d'automatisation. Provider impact : part de SEV-2/1 due à des partenaires externes (argument pour SLA/migration). 12) Outils et panneaux « de garde » SLO « rouge » : login/dépôt/paris/lancement de jeux, 5xx/429, p95, régions. Panneaux de causalité : Bases de données/files d'attente/cache, PSP/fournisseurs, CDN/WAF. Gestionnaire d'appels : incidents actifs, minuteries d'update, liens one-click vers runbook 'et ficheflags. Journal des actions (timeline) - qui a fait quoi quand, avec un lien vers SLO. 13) Scénarios types et solutions rapides Actions : Canaries marshrut→ PSP-B 50 %; Lever le délai des webhooks ; inclure le défi JS dans le WAF des bots. Comms : page de statut « Degradation DE deposits via PSP-A ». Rendement : success ≥ 99 % 15 min, file de retraits  B. Croissance p95 WS dans les jeux vie APAC Actions : augmenter les répliques de passerelles WS, activer le pool warm nod ; les messages de diffusion rate-limit ; le fournisseur est un ticket RTT. Sortie : p95 WS RTT ≤ 120 ms 20 min. C. Lag fournisseur de jeux (TTFS> 1. 2 c) Actions : Passer du lobby aux tables/studios alternatifs, activer le cache de métadonnées ; statut d'apdate. Sortie : TTFS <800 ms, plaintes ↓. 14) Chèque de préparation 24/7 15) Modèle de post-mortem (blameless) 1. Bref : ce qui s'est passé, quand, quel SEV, l'impact et la portée. 2. Timline : un détail → l'escalade → l'action → la stabilisation. 3. Causes racines : ceux/processus/personnes/fournisseurs (5 Why). 4. Ce qui a fonctionné/ce qui n'a pas fonctionné : alertes, rabooks, communications. 5. Actions items : Techniques, processeurs, partenaires - responsables et dédoublés. 6. Prévention : tests/surveillance/exercices, changements de SLO/alerts. Les opérations réussies 24/7 au casino sont une discipline SLO, un alarming correctement conçu sans bruit, un runbook clair et des escalades, des exercices réguliers et une attitude prudente envers les gens. Connectez les panneaux SLO à des leviers rapides (ficheflags, PSP/fournisseurs, dégradation des fiches lourdes), maintenez les communications avec les joueurs et partenaires, mesurez l'efficacité (MTTD/MTTR/alert quality) - et votre plate-forme sera stable 24 heures sur 24 et votre équipe sera productive et durable.Escalier d'escalade
A. Les dépôts tombent en DE chez PSP-A
Résumé
