SLA entre el operador y los proveedores: métricas y multas
1) Por qué el SLA y cómo administrarlo
El SLA registra la calidad esperada del servicio (objetivos SLO, ventanas de soporte) tal y como lo medimos, y lo que sucede en las infracciones (créditos/multas de servicio, escaladas, opciones de fin de semana). Para iGaming, esto es crítico: dinero en tiempo real, reguladores, picos de tráfico y dependencias multicapa (juegos → billetera → PSP → KYC → CDN/WAF).
Principios:- Medida e inequívoco (quién, dónde y qué mide).
- Proximidad al negocio (métricas de inicio de sesión/depósitos/lanzamiento de juegos, no solo CPU).
- Estímulo económico (los préstamos de servicios están comprometidos por daños).
- Gestión (comité de calidad, QBR mensuales, informes PoP).
2) Conjunto de métricas por dominio
2. 1 Proveedores de pago (PSP)
Deposit Success Ratio (DSR): número de depósitos exitosos/todos los intentos, por país/método/BIN. Objetivo ≥ 99. 0%.
Autorization/Settlement Latency p95: objetivo ≤ 400-600 ms.
Webhook Delivery Delay p95: objetivo ≤ 60 s (T + 60).
Availability (API/Callbacks): ≥ 99. 9 %/mes (excluyendo las ventanas acordadas).
2. 2 Proveedores/agregadores de juegos
TTFS (Time-to-First-Spin) p95: ≤ 800 ms (desde el lobby hasta el primer giro).
Game Launch Success: ≥ 99. 5%.
Round Result Callback Success: ≥ 99. 9%, retraso p95 ≤ 5 s.
Content Availability: ≥ 99. 95% por catálogo (proporción de juegos disponibles).
2. 3 proveedores KYC/AML
Verification API Availability: ≥ 99. 9%.
Median Time-to-Decision: ≤ 60 c (auto), ≤ 15 мин (manual queue).
False Negative/Positive Boundaries: corredores orientados a los mercados (por muestreo acordado).
2. 4 Edge/CDN/WAF
TTFB p95: ≤ 200 ms (regional).
Cache Hit Ratio: ≥ el 85% de los assets estáticos.
Bot-challenge pass-through: FP ≤ 0. 5% en inicio de sesión/depósito.
2. 5 Alojamiento/nube/red
Availability (region/zone): ≥ 99. 95% (zona), RTO ≤ 30 min, RPO ≤ 5 min para billetera.
Ingress/Load Balancer Latency p95: ≤ 100 ms en la región.
3) Fórmulas y medición
Reglas generales de medición
Zona horaria de cálculo: Europe/Kyiv. El mes del informe es calendario.
Los relojes se cuentan por UTC en telemetría con conversión a Kyiv para informes.
Sincronización de tiempo: NTP; error ≤ 100 ms.
Fuente de la verdad: sintética del operador + registros del servidor + proveedor. En caso de discrepancia, se utiliza el peor de los dos, a menos que se demuestre lo contrario.
Ejemplos de fórmulas
text
Availability = 1 - (Σ Downtime_min) / (Total_min_in_period)
Downtime_min - minutos cuando> = X% de errores/temporizaciones y/o inaccesibilidad total.
El umbral X se fija (por ejemplo, error_rate ≥ 5% o p95_latency ≥ SLO × 2).
Deposit Success Ratio = success_count / (success_count + failure_count)
Latency p95 = histogram_quantile(0. 95, rate(latency_bucket[5m]))
TTFS p95 = p95(time(game_open → first_spin_callback))
Webhook Delay p95 = p95(time(webhook_received – event_time))Ventanas de mantenimiento (Planned Maintenance)
Las ventanas son consistentes en 7 días, no más de 1 ×/mes de 60 min, caen del cálculo SLA. Ventanas de emergencia (Security) - 24 horas de aviso.
4) Clasificación de incidentes y reacciones
Comunicaciones: status-page/canal, post-mortem ≤ 5 días hábiles.
5) Préstamos de servicio y multas
5. 1 Línea de créditos (ejemplo)
Disponibilidad en un mes:99. 9%–99. 5% → crédito del 5% de la cuota/comisión mensual del proveedor.
99. 5%–99. 0% → 10%.
Violación de DSR PSP: cada 0 completo. 5 p.p. por debajo de 99. 0% → crédito 2%, cap 20%.
Webhook Delay p95> SLO × 2 más de 60 min en total → 5%.
TTFS p95> 800 ms más de 120 min → 5%.
Falta crónica: 3 meses consecutivos con préstamos ≥ 10% → derecho a terminación anticipada sin penalización + ayuda a la migración (límite de precios/hora).
5. 2 Lógica económica
Los créditos son netos (reducen las cuentas del proveedor).
Con RevShare - préstamos brutos de la tarifa del proveedor (su participación), no de GGR/NGR en general.
Monthly cap por préstamos: normalmente el 100% de la cuota mensual, excepto fraud/datos.
5. 3 Earn-back (opción)
El proveedor puede «ganar» una parte del crédito si alcanza un SLO reforzado (por ejemplo, Availability ≥ 99 el próximo mes. 99% un mes entero).
6) Modelo de ponderación por KPI (para bonificaciones trimestrales/malus)
'QuarterScore = Σ (Peso × Puntuación/5)' → bonus/malus ± X% a la tarifa.
7) Ejemplo de informe de resumen (peces CSV)
Provider,Month,Availability,DSR,TTFS_p95_ms,Webhook_p95_s,Credits%
PSP-A,2025-09,99. 62%,98. 8%,--,45,12
Games-X,2025-09,99. 97%,--,780,3,0
KYC-Z,2025-09,99. 91%,--,--,--,0
CDN-W,2025-09,99. 99%,--,120,--,08) Reglas de excepción y fuerza mayor
Excepciones: accidentes en terceros que no forman parte del perímetro del proveedor, si se demuestra y documenta, y si hay rutas correctas de tolerancia a fallas.
Fuerza mayor: sólo eventos de la lista estándar (elementos/guerra/bloqueo regulatorio), con comunicación oportuna e intentos de mitigar daños (DR).
Shared-fault (vino dividido): los préstamos se dividen proporcionalmente a la contribución confirmada.
9) Control de calidad y auditoría
Acceso del operador a métricas/logs/trays (sólo lectura).
Security-scan trimestral e informe de resolución de vulnerabilidades.
Ejercicios de DR: 1 ×/trimestre, informe con RTO/RPO.
Reconciliación de informes PSP/juegos con discrepancia ≤ 0. 5%.
10) Escalaciones y administración
Lista de contacto 24/7 (L1/L2, gestor de socios).
War-room cuando se SEV-1.
QBR: análisis trimestral de KPI, créditos/earn-backs, roadmap.
Plan de mejoras (CAP) con fechas y propietarios.
11) Plantillas de cláusula (fragmentos)
SLO y medición
Préstamos de servicios
Chronic failure & Termination
Datos y webhooks
Ventanas programadas
12) Trampas frecuentes y cómo evitarlas
Las definiciones de «inaccesibilidad» borrosas → fijar los umbrales de error/latencia.
Sin tener en cuenta la geografía → objetivos por región, no la media a nivel mundial.
No hay SLO según los datos → agregue SLA a webhooks/exportaciones, de lo contrario, los informes «se retrasan».
Multas sin cap/earn-back → hacer previsible y justo.
Sin requisitos de DR, → impregne de RTO/RPO y frecuencia de ejercicio.
13) Lista de comprobación de implementación de SLA (prod-ready)
- KPI finalizados por dominios: PSP, juegos, KYC, CDN/WAF, nube.
- Se describen las fuentes de medición y las fórmulas; Se ha confirmado la zona horaria y las ventanas.
- Se han acordado las ventanas de servicio y el procedimiento de notificación.
- Tabla de servicios-créditos, cap y cláusula de falla crónica.
- Procedimientos de escalamiento SEV, sala de guerra, post mortem ≤ 5 días.
- Acceso a telemetría (métricas/logs/tracks) emitido, prueba de conexión superada.
- se fijan los requisitos de DR (RTO/RPO) y el calendario de ejercicios.
- Se acuerdan el ritmo QBR, el scorecard y los objetivos anuales.
- Las excepciones legales/fuerza mayor se describen claramente.
- Informe de prueba del mes piloto con el cálculo de los créditos.
Resumen
Los SLA de trabajo son métricas de negocio claras, reglas de medición transparentes, una línea de crédito bien pensada y una gestión de calidad en vivo (QBR, CAP, enseñanzas). Ancla los KPI por dominios (PSP, juegos, KYC, edge/cloud), negocia fuentes de verdad y excepciones, introduce un modelo de peso y earn-back - y tu relación con los proveedores será predecible y el riesgo para el dinero y la UX del jugador disminuirá considerablemente.
