Pratiques 24/7-exploitation et on-call au casino

1) Objectifs 24/7-opérations

Business SLO : login ≥ 99. 9 %, dépôt ≥ 99. 85 %, taux/settlement ≥ 99. 9 %, p95 WS RTT ≤ 120 ms.

Cibles d'incident : MTTD ≤ 1 min (synthétique), MTTR ≤ 15-30 min pour les flocons d'argent.

Qualité du support : <3 % des tiquets partent le deuxième jour sans réponse, CSAT saphport ≥ 90 %.

2) Organisation de l'appel : modèles et horaires

Modèles

Follow-the-sun : 3 équipes géo (Europe/Amériques/APAC), charge minimale de nuit.

Rotation nocturne dans la région : une semaine de travail nocturne par personne toutes les N semaines (compensation/congés).

Cellules (cell-based) : service par cellules de produits (marques/marchés) + total L1.

Rôles dans le changement

L1 On-call (Commandant d'incident par défaut) : Prend un alert, coordonne, communique avec le saphport.

L2 Ingénieurs de domaine - paiements, game-gateway/WS, OBD/portefeuille, plate-forme SRE.

L'officier Comms est une page de statut, des partenaires/fournisseurs, des apdates internes.

Duty Manager - escalade des affaires, hiérarchisation, exceptions (VIP/régulateur).

Modèle de poste (12 × 7 ou 8 × 5 + service)

Changement : 8/10/12 heures. Changement de 15-30 min « warm handover ».

Respecter la règle de 2 nuits consécutives maximum et pas plus de 7 jours d'appel dans la fenêtre de 14 jours.

Chaque équipe a un Roster : garde, réserve, gestionnaire d'appel, contact L2.

3) Classification des incidents et SLA

SEV	Exemple	Impact	Réactions SLA	Solutions SLA
SEV-1	Échec massif des dépôts, login indisponible	Perte de revenus/risque réglementaire	≤ 5 min	≤ 30 min avant stabilisation
SEV-2	Taux de retard élevé, fournisseur de jeux	Réduction de la conversion	≤ 10 min	≤ 2 h
SEV-3	Échec partiel des promotions/rapports	Impact limité	≤ 30 min	≤ 8 h
SEV-4	Bugs mineurs/alerts de qualité	Pas d'impact immédiat	Планово	Планово

4) Alerting sans bruit

Principes : les alertes SLO symptomatiques → le contexte → causal des ressources.

Симптомы: `login_success_ratio↓`, `deposit_success_by_psp↓`, `ws_rtt_p95↑`, `game_launch_success↓`.

Причины: `db_conn_saturation↑`, `queue_lag↑`, `psp_timeout↑`, `provider_launch_latency↑`.

Protection contre le bruit : required consecutive violations ≥ 3, auto-suppress à la sortie, déduplication et regroupement.

Recrutement de garde : critique - PagerDuty/Opsgenie ; le reste est Slack/mail.

Texte alert : « Quoi/Où/Combien/Action ». Exemple :

💡 SEV-2: deposit success DE/PSP-A 97. 1% < 99% 10m. Impact: EU. Probable cause: PSP timeout↑. Runbook: `PD-42`.

5) Runbook 'et escalade

Mini modèle runbook

1. Detect : liens vers les dashboards (SLO, causal), la trace, les logs.

2. Contrôles rapides : PSP santé/fournisseurs, DR région synthétique, statut OBD/cache.

3. Mesures temporaires : drapeaux de ficha/kill-switch, limites de taux, changement de PSP/fournisseur, dégradation des fiches lourdes.

4. Escalade : qui L2/L3, contacts 24 × 7 fournisseurs.

5. Critères de la zone verte : SLO en règle N minutes, file d'attente

6. Comms : modèle de statut, marchés associés/marques, ETA/next update.

Escalier d'escalade

T0-5 min : L1 accepte, nomme IC, lance le runbook.

T5-10 min : Nous appelons le profil L2 + Comms Officier.

T10-15 min : Duty Manager/produit, si nécessaire légal/conformité.

Externe : PSP/Game provider - par règlement (canal SLA, ticket, appel).

6) Communications et status page

Apdates internes toutes les 10-15 min pour les SEV-1/2 (# war-room, modèle de message).

Page de statut : situation actuelle, marchés touchés, mesures provisoires, prochaine mise à jour dans X min.

Note post-incident pour le sappport/affiliés/partenaires : ce qui était, comment nous compensons.

Modèles à l'avance : court, pas de « cuisine intérieure », pas de faute.

7) Travailler avec des dépendances externes (PSP/jeux/CDN)

Répertoire des contacts 24 × 7 : PSP A/B, fournisseurs de jeux, CDN/WAF, cloud.

Surveillance SLA : synthétique pour les dépôts/lancement de jeux, déclencheurs de tickets automatiques.

Politiques d'échec : itinéraire sur PSP-B à « success <99 % 10 min », changement de fournisseur de jeux à « TTFS> 800ms ».

Inbox webhooks : signature HMAC, idempotence, re-play de la file après dégradation du fournisseur.

8) GameDay et entraînement

Exercices de tabletop hebdomadaires (30-45 min) : lecture des graphiques, prise de décision.

Drive RD technique mensuelle (60-90 min) : panne PSP, lag fournisseur, chute OBD/cluster WS.

Exercices KPI : temps de reconnaissance des causes, qualité des communications, exactitude des décisions sur les ficheflags.

9) Hendover et documentation

Warm handover checklist (15-20 min) :

Risques actuels (augmentation des lagunes, limites de PSP, communiqués à chaud).
Tiquets/escalades non remplis.
Ficheflagi/limites temporaires et quand retirer.
Résumé des incidents par poste (SEV/temps/actions/risques résiduels).
Documentation : base de données en direct runbook's, contacts, schémas, « carte flow » argent/jeux.

10) Santé et durabilité sur appel

Règle 8/8/8 : travail/sommeil/personnel. Heures de nuit → congés.

Système Buddy pour les débutants, service shadow 2-3 semaines.

Sécurité psychologique : « blameless » rétro, soutien en cas d'incidents graves.

Audit de charge : ≤ 2 « réveils » par nuit en moyenne par ingénieur - objectif ; ci-dessus → le recyclage de l'alerting/architecture.

11) Mesures de l'efficacité opérationnelle

MTTD/MTTR par domaine (login/dépôt/WS/jeux).

Qualité d'alerte :% bruyants/fermés sans action, nombre moyen d'alertes/changements.

Taux d'échec du changement :% des incidents causés par les versions ; mean time between failures.

Toil : proportion de tâches manuelles répétables → plan d'automatisation.

Provider impact : part de SEV-2/1 due à des partenaires externes (argument pour SLA/migration).

12) Outils et panneaux « de garde »

SLO « rouge » : login/dépôt/paris/lancement de jeux, 5xx/429, p95, régions.

Panneaux de causalité : Bases de données/files d'attente/cache, PSP/fournisseurs, CDN/WAF.

Gestionnaire d'appels : incidents actifs, minuteries d'update, liens one-click vers runbook 'et ficheflags.

Journal des actions (timeline) - qui a fait quoi quand, avec un lien vers SLO.

13) Scénarios types et solutions rapides

A. Les dépôts tombent en DE chez PSP-A

Actions : Canaries marshrut→ PSP-B 50 %; Lever le délai des webhooks ; inclure le défi JS dans le WAF des bots.

Comms : page de statut « Degradation DE deposits via PSP-A ».

Rendement : success ≥ 99 % 15 min, file de retraits

B. Croissance p95 WS dans les jeux vie APAC

Actions : augmenter les répliques de passerelles WS, activer le pool warm nod ; les messages de diffusion rate-limit ; le fournisseur est un ticket RTT.

Sortie : p95 WS RTT ≤ 120 ms 20 min.

C. Lag fournisseur de jeux (TTFS> 1. 2 c)

Actions : Passer du lobby aux tables/studios alternatifs, activer le cache de métadonnées ; statut d'apdate.

Sortie : TTFS <800 ms, plaintes ↓.

14) Chèque de préparation 24/7

Rotation et service approuvé, « numéro deux » à chaque poste.
SLO-alertes + causales, anti-bruit, modèles de messages uniques.
Runbook complet 'et avec des « leviers rapides » (ficheflags, PSP/fournisseurs, limites).
Contacts 24 × 7 partenaires externes, test d'appel une fois par trimestre.
Statut de page et modèles d'updates externes.
GameDay/DR exercice horaire, rétrospective sans charges.
Outils d'appel : dashboards, timing, journal de solutions.
Politique de compensation/congé, limite de réveil nocturne, soutien à la santé.
Processus post-incident : RCA à 48 h, tâches de correction avec les propriétaires et délais.

15) Modèle de post-mortem (blameless)

1. Bref : ce qui s'est passé, quand, quel SEV, l'impact et la portée.

2. Timline : un détail → l'escalade → l'action → la stabilisation.

3. Causes racines : ceux/processus/personnes/fournisseurs (5 Why).

4. Ce qui a fonctionné/ce qui n'a pas fonctionné : alertes, rabooks, communications.

5. Actions items : Techniques, processeurs, partenaires - responsables et dédoublés.

6. Prévention : tests/surveillance/exercices, changements de SLO/alerts.

Résumé

Les opérations réussies 24/7 au casino sont une discipline SLO, un alarming correctement conçu sans bruit, un runbook clair et des escalades, des exercices réguliers et une attitude prudente envers les gens. Connectez les panneaux SLO à des leviers rapides (ficheflags, PSP/fournisseurs, dégradation des fiches lourdes), maintenez les communications avec les joueurs et partenaires, mesurez l'efficacité (MTTD/MTTR/alert quality) - et votre plate-forme sera stable 24 heures sur 24 et votre équipe sera productive et durable.