SLA entre l'opérateur et les fournisseurs : métriques et pénalités
1) Pourquoi SLA et comment le gérer
La SLA enregistre la qualité attendue du service (objectifs SLO, fenêtres de support) telle que nous la mesurons et ce qui se passe en cas d'irrégularités (services-crédits/pénalités, escalades, options de sortie). Pour iGaming, c'est essentiel : argent en temps réel, régulateurs, pics de trafic et dépendances multicouches (jeux → portefeuille → PSP → KYC → CDN/WAF).
Principes :- Mesurable et sans ambiguïté (qui, où et ce qui mesure).
- Proximité avec l'entreprise (métriques par login/dépôts/lancement de jeux, pas seulement CPU).
- Incitations économiques (prêts-services liés aux dommages).
- Bureau (comité de qualité, rapports mensuels QBR, rapports PoP).
2) Ensemble de métriques par domaine
2. 1 Fournisseurs de paiement (PSP)
Deposit Success Ratio (DSR) : nombre de dépôts réussis/toutes les tentatives, par pays/méthode/BIN. Objectif ≥ 99. 0%.
Autorité/Settlement Latency p95 : objectif ≤ 400-600 ms.
Webhook Delivery Delay p95 : objectif ≤ 60 s (T + 60).
Availability (API/Callbacks): ≥ 99. 9 %/mois (à l'exclusion des fenêtres convenues).
2. 2 Fournisseurs de jeux/agrégateurs
TTFS (Time-to-First-Spin) p95 : ≤ 800 ms (du lobby au premier dos).
Game Launch Success: ≥ 99. 5%.
Round Result Callback Success: ≥ 99. 9 %, délai p95 ≤ 5 s.
Content Availability: ≥ 99. 95 % par catalogue (proportion de jeux disponibles).
2. 3 fournisseurs KYC/AML
Verification API Availability: ≥ 99. 9%.
Median Time-to-Decision: ≤ 60 c (auto), ≤ 15 мин (manual queue).
False Negative/Positive Boundaries : corridors ciblés le long des marchés (selon l'échantillon convenu).
2. 4 Edge/CDN/WAF
TTFB p95 : ≤ 200 ms (régional).
Cache Hit Ratio : ≥ 85 % d'assets statiques.
Bot-challenge pass-through: FP ≤ 0. 5 % sur login/dépôt.
2. 5 Hébergement/cloud/réseau
Availability (region/zone): ≥ 99. 95 % (zone), RTO ≤ 30 min, RPO ≤ 5 min pour le portefeuille.
Ingress/Load Balancer Latitude p95 : ≤ 100 ms dans la région.
3) Formules et mesures
Règles générales de mesure
Fuseau horaire de calcul : Europe/Kyiv. Le mois de compte est un mois civil.
L'horloge est comptée par UTC dans la télémétrie avec conversion en Kyiv pour les rapports.
Synchronisation temporelle : NTP ; marge d'erreur ≤ 100 ms.
Source de vérité : opérateur synthétique + logs serveur + fournisseur. En cas de divergence, le pire des deux est utilisé, sauf preuve contraire.
Exemples de formules
text
Availability = 1 - (Σ Downtime_min) / (Total_min_in_period)
Downtime_min sont les minutes où> = X % d'erreurs/temporisation et/ou d'indisponibilité totale.
Le seuil X est fixé (par exemple error_rate ≥ 5 % ou p95_latency ≥ SLO × 2).
Deposit Success Ratio = success_count / (success_count + failure_count)
Latency p95 = histogram_quantile(0. 95, rate(latency_bucket[5m]))
TTFS p95 = p95(time(game_open → first_spin_callback))
Webhook Delay p95 = p95(time(webhook_received – event_time))Fenêtres de maintenance planifiée
Les fenêtres s'accordent en 7 jours, pas plus de 1 ×/mois de 60 min, tombent du calcul de la SLA. Fenêtres d'urgence (Security) - pour 24 heures de notification.
4) Classification des incidents et des réactions
Communications : Page de statut/canal, post-mortem ≤ 5 jours ouvrables.
5) Services-crédits et pénalités
5. 1 Ligne de crédit (exemple)
Disponibilité en un mois :99. 9%–99. 5 % de crédit → 5 % de frais mensuels/frais du fournisseur.
99. 5%–99. 0% → 10%.
Violation du DSR PSP : tous les 0. 5 pp en dessous de 99. 0 % → crédit 2 %, cap 20 %.
Webhook Delay p95> SLO × 2 plus de 60 min total → 5 %.
TTFS p95> 800 ms plus de 120 min → 5 %.
Échec chronique : 3 mois consécutifs avec des prêts de 10 % ≥ → droit à une résiliation anticipée sans pénalité + aide à la migration (prix fixe/limite horaire).
5. 2 Logique économique
Les crédits sont nets (réduisent les comptes du fournisseur).
Avec RevShare - crédits bruts de la charge du fournisseur (sa part), pas de GGR/NGR en général.
Monthly cap sur les prêts : généralement 100 % des frais mensuels, sauf fraud/données.
5. 3 Earn-back (option)
Le fournisseur peut « gagner » une partie du crédit si le mois suivant atteint un SLO renforcé (par exemple, Availability ≥ 99. 99 % tout le mois).
6) Modèle de pondération par KPI (pour les bonus trimestriels/malus)
'QuarterScore = Σ (Poids × Point/5) '→ bonus/malus ± X % au tarif.
7) Exemple de rapport de synthèse (CSV-poisson)
Provider,Month,Availability,DSR,TTFS_p95_ms,Webhook_p95_s,Credits%
PSP-A,2025-09,99. 62%,98. 8%,--,45,12
Games-X,2025-09,99. 97%,--,780,3,0
KYC-Z,2025-09,99. 91%,--,--,--,0
CDN-W,2025-09,99. 99%,--,120,--,08) Règles d'exclusion et de force majeure
Exceptions : accidents chez des tiers qui ne font pas partie du périmètre du fournisseur, s'il est prouvé et documenté, et s'il existe des itinéraires corrects de tolérance aux pannes.
Force majeure : seulement les événements de la liste standard (éléments/guerre/blocage réglementaire), avec une communication opportune et des tentatives d'atténuation des dommages (DR).
Shared-fault (vin divisé) : les prêts sont répartis proportionnellement à la contribution confirmée.
9) Contrôle et vérification de la qualité
Accès de l'opérateur aux métriques/logs/remorques (read-only).
Un rapport trimestriel sur la sécurité et les vulnérabilités.
Exercice DR : 1 ×/trimestre, rapport avec RTO/RPO.
Reconciliation des rapports PSP/jeux avec divergence ≤ 0. 5%.
10) Escalade et gestion
Liste de contact 24/7 (L1/L2, gestionnaire partenaire).
War-room à l' SEV-1.
QBR : analyse trimestrielle des KPI, crédits/earn-backs, roadmap.
Plan d'amélioration (PAC) avec dates et propriétaires.
11) Modèles de cluses (fragments)
SLO et mesure
Services-crédits
Chronic failure & Termination
Données et webhooks
Fenêtres de planification
12) Pièges fréquents et comment les éviter
Les définitions floues d'indisponibilité → fixer des seuils d'erreur/latence.
Sans tenir compte de la géographie, les objectifs → par région plutôt que la moyenne mondiale.
Pas de SLO selon les données → ajoutez un SLA sur les webhooks/exportations, sinon les rapports sont « en retard ».
Pénalités sans cap/earn-back → faites de manière prévisible et équitable.
En l'absence d'exigences en matière de RD, → propulser le RTO/RPO et la fréquence des exercices.
13) Chèque d'implémentation SLA (prod-ready)
- Finalisé KPI par domaine : PSP, jeux, KYC, CDN/WAF, cloud.
- Les sources de mesure et les formules sont décrites ; le fuseau horaire et les fenêtres ont été confirmés.
- Les guichets de signification et la procédure de notification sont harmonisés.
- Service-Credit Table, Cap et Chronic-failure Clouse.
- les Procédures SEV-eskalatsy, war-room, le poste-mortem ≤ 5 дн.
- L'accès à la télémétrie (métriques/logs/trajets) est émis, le test de connexion est passé.
- Les exigences en matière de RD (RTO/RPO) et le calendrier des exercices sont fixés.
- Rythme QBR, scorecard et objectifs annuels sont convenus.
- Les exceptions légales/force majeure sont clairement décrites.
- Rapport d'essai pour le mois pilote avec calcul des crédits.
Résumé
Les SLA de travail sont des métriques d'affaires claires, des règles de mesure transparentes, une gamme de crédit bien conçue et une gestion de la qualité en direct (QBR, CAP, exercice). Fixez les KPI par domaine (PSP, jeux, KYC, edge/cloud), négociez les sources de vérité et les exceptions, entrez le modèle de poids et earn-back - et votre relation avec les fournisseurs deviendra prévisible, et le risque pour l'argent et l'UX du joueur diminuera considérablement.
