Prácticas 24/7-operación y on-call en el casino

1) Objetivos 24/7-operaciones

SLO Business: login ≥ 99. 9%, depósito ≥ 99. 85%, tasa/settlment ≥ 99. 9%, p95 WS RTT ≤ 120 ms.

Objetivos de incidente: MTTD ≤ 1 min (sintético), MTTR ≤ 15-30 min para flow en efectivo.

Calidad de soporte: <3% de los tickets salen en el segundo día sin respuesta, CSAT sapport ≥ 90%.

2) Organización on-call: modelos y horarios

Modelos

Follow-the-sun: 3 equipos geo (Europa/América/APAC), carga nocturna mínima.

Rotación nocturna en la región: semana de turnos nocturnos por persona una vez cada N semanas (compensación/tiempo libre libre).

Celdas (cell-based): servicio de celdas de productos (marcas/mercados) + L1 general.

Roles de cambio

L1 On-call (Detectent Commander por defecto): acepta alertas, coordina, mantiene la comunicación con el sapport.

L2 Ingenieros de dominio - pagos, game-gateway/WS, DB/monedero, SRE de plataforma.

Oficial de Commes - status page, socios/proveedores, apdates internos.

Duty Manager - Escalamiento empresarial, priorización, excepciones (VIP/regulador).

Plantilla de turno (12 × 7 u 8 × 5 + servicio)

Cambio: 8/10/12 horas. Cambio de 15-30 min «warm handover».

Siga la regla de 2 noches consecutivas como máximo y no más de 7 días en la ventana de 14 días.

Cada turno tiene Roster: servicio, reserva, gestor de llamadas, L2 de contacto.

3) Clasificación de incidentes y SLA

SEV	Ejemplo	Impacto	Reacción SLA	Soluciones SLA
SEV-1	Fracaso masivo de los depósitos, inicio de sesión no disponible	Pérdida de ingresos/riesgo regulatorio	≤ 5 minas	≤ 30 minutos antes de la estabilización
SEV-2	Alto retraso en las apuestas, el valor del proveedor de juegos	Reducción de la conversión	≤ 10 minas	≤ 2 h
SEV-3	Fallo parcial de los informes/promociones	Impacto limitado	≤ de 30 minas	≤ 8 h
SEV-4	Errores menores/alertas de calidad	No hay efecto inmediato	Según el plan	Según el plan

4) Alerting sin ruido

Principios: SLO-alertas sintomáticas → recursos causales → contexto.

Симптомы: `login_success_ratio↓`, `deposit_success_by_psp↓`, `ws_rtt_p95↑`, `game_launch_success↓`.

Причины: `db_conn_saturation↑`, `queue_lag↑`, `psp_timeout↑`, `provider_launch_latency↑`.

Protección contra el ruido: violaciones consecutivas requeridas ≥ 3, supresas automáticas al lanzamiento, deduplicación y agrupación.

Set de servicio: crítico - PagerDuty/Opsgenie; el resto es Slack/mail.

Texto de alerta: «Qué/Dónde/Cuánto/Acción». Ejemplo:

💡 SEV-2: deposit success DE/PSP-A 97. 1% < 99% 10m. Impact: EU. Probable cause: PSP timeout↑. Runbook: `PD-42`.

5) Runbook 'y y escalada

Mini plantilla runbook

1. Detect: referencias a dashboards (SLO, causales), trace, logs.

2. Comprobaciones rápidas: PSP/proveedores de salud, región DR sintética, estado DB/caché.

3. Medidas temporales: flags de ficha/kill-switch, rate-limits, cambio de proveedor/PSP, degradación de los fiches pesados.

4. Escaladas: quién L2/L3, contactos 24 × 7 proveedores.

5. Criterios de zona verde: SLO en la norma N minutos, colas

6. Commes: plantilla de estado, mercados afectados/marcas, actualización de ETA/siguiente.

Escaleras de escalada

T0-5 min: L1 acepta, asigna IC, inicia el runbook.

T5-10 min: llamamos al L2 + Oficial de Commes.

T10-15 min: Duty Manager/producto, si es necesario legal/cumplimiento.

Externo: Proveedor de PSP/Juego - por reglamento (canal SLA, ticket, llamada).

6) Comunicaciones y status page

Actualizaciones internas cada 10-15 min para SEV-1/2 (canal # war-room, plantilla de mensajes).

Status page: estado actual, mercados afectados, medidas temporales, siguiente apdate a través de X min.

Nota posterior para el sapport/afiliados/socios: qué era, cómo compensar.

Plantillas de antemano: corto, sin «cocina interior», sin culpa.

7) Trabajar con dependencias externas (PSP/juegos/CDN)

Directorio de contactos 24 × 7: PSP A/B, proveedores de juegos, CDN/WAF, nube.

Monitoreo de SLA: sintéticos para depósitos/lanzamiento de juegos, disparadores automáticos de tickets.

Políticas fallidas: ruta a PSP-B en 'success <99% 10 min', cambio de proveedor de juegos en 'TTFS> 800ms'.

Inbox-webhooks: firma HMAC, idempotencia, re-play de la cola después de la degradación del proveedor.

8) GameDay y entrenamiento

Ejercicios semanales de tabletop (30-45 min): lectura de horarios, toma de decisiones.

Controladores de DR técnicos mensuales (60-90 min): fallo de PSP, servidor del proveedor, caída de DB/clúster de WS.

KPI de ejercicios: tiempo de reconocimiento de causa, calidad de las comunicaciones, corrección de las soluciones de flagelación.

9) Hendover y documentación

Warm handover check-list (15-20 min):

Riesgos actuales (aumento de los retrasos, límites de PSP, liberaciones en caliente).
Tickets/escalaciones en blanco.
Fichflags/límites temporales y cuándo retirar.
Resumen de incidentes de turnos (SEV/tiempo/acción/riesgos residuales).
Documentación: base de datos en vivo runbook's, contactos, esquemas, «tarjeta flow» dinero/juegos.

10) Salud y sostenibilidad On-call

Regla 8/8/8: trabajo/sueño/personal. Turnos de noche → tiempo libre.

Sistema de buddy para principiantes, servicio de sombras 2-3 semanas.

Seguridad psicológica: retro «blameless», apoyo en incidentes graves.

Auditoría de carga: ≤ 2 «despertar» por noche en promedio por ingeniero - objetivo; arriba → reciclaje de alerting/arquitectura.

11) Métricas de eficacia operativa

MTTD/MTTR por dominios (inicio de sesión/depósito/WS/juegos).

Calidad de alerta:% ruidoso/cerrado sin acción, número medio de alertas/turno.

Change failure rate:% de los incidentes causados por lanzamientos; mean time between failures.

Toil: porcentaje de tareas manuales repetibles → plan de automatización.

Provider impact: proporción de SEV-2/1 debido a socios externos (argumento para SLA/migración).

12) Herramientas y paneles «de guardia»

SLO dashboard «rojo»: inicio de sesión/depósito/apuestas/lanzamiento de juegos, 5xx/429, p95, regiones.

Paneles causales: BD/colas/caché, PSP/proveedores, CDN/WAF.

Administrador de llamadas: incidentes activos, temporizadores de apdate, enlaces de un solo clic a runbook 'y fichflags.

Registro de actividades (timeline) - quién hizo qué, cuándo, con referencia a SLO.

13) Escenarios estándar y soluciones rápidas

A. Caen los depósitos en DE por el PSP-A

Acciones: canario marshrut→ PSP-B 50%; elevar el tiempo de espera de los webhooks; incluir el desafío JS en WAF de los bots.

Commes: página de estado «Degradation DE deposits via PSP-A».

Salida: éxito ≥ 99% 15 min, cola de retrés

B. Crecimiento de p95 WS en juegos en vivo APAC

Acciones: aumentamos las réplicas de las gateways WS, incluimos el pool de nodos warm; rate-limit de los mensajes de difusión; al proveedor de tickets de RTT.

Salida: P95 WS RTT ≤ 120 ms 20 min.

C. Lag proveedor de juegos (TTFS> 1. 2 c)

Acciones: cambiar el lobby a mesas/estudios alternativos, activar el caché de metadatos; status-update.

Salida: TTFS <800 ms, quejas ↓.

14) Lista de verificación de preparación para 24/7

Se aprueban las rotaciones y los turnos, «número dos» en cada turno.
SLO-alertas + causales, anti-ruido, patrones de mensajes unificados.
Runbook completo 'y con «palancas rápidas» (fichflags, PSP/proveedores, límites).
Contactos 24 × 7 socios externos, prueba de llamada trimestral.
Status page y plantillas de apdates externos.
GameDay/DR ejercicios programados, retrospectivas sin cargos.
Herramientas on-call: dashboards, timeline, registro de soluciones.
Política de compensación/tiempo libre libre, límite de despertares nocturnos, apoyo a la salud.
Proceso post-incidente: RCA a las 48 h, tareas de corrección con los propietarios y plazos.

15) Plantilla post-mortem (sin blameless)

1. Breve: qué pasó cuando, qué SEV, el impacto y la escala.

2. Timeline: detalle de la escalada → de la acción → → estabilización.

3. Causas raíz: esas/procesos/personas/proveedores (5 por qué).

4. Lo que funcionó/lo que no: alertas, ranbooks, comunicaciones.

5. Action items: técnicos, procesadores, partners - responsables y deadline.

6. Prevención: pruebas/monitoreo/simulacros, cambios de SLO/alertas.

Resumen

Las exitosas operaciones 24/7 en el casino son una disciplina de SLO, alarming correctamente diseñado sin ruido, runbook claro 'y escaladas, ejercicios regulares y una actitud cuidadosa hacia las personas on-call. Conecte los paneles SLO con palancas rápidas (flagelaciones, conmutación de proveedores/PSP, degradación de fichas pesadas), mantenga comunicaciones con jugadores y socios, mida la eficiencia (MTTD/MTTR/calidad de alerta) - y su plataforma será estable 24 horas al día y el equipo es productivo y sostenible