Prácticas 24/7-operación y on-call en el casino
1) Objetivos 24/7-operaciones
SLO Business: login ≥ 99. 9%, depósito ≥ 99. 85%, tasa/settlment ≥ 99. 9%, p95 WS RTT ≤ 120 ms.
Objetivos de incidente: MTTD ≤ 1 min (sintético), MTTR ≤ 15-30 min para flow en efectivo.
Calidad de soporte: <3% de los tickets salen en el segundo día sin respuesta, CSAT sapport ≥ 90%.
2) Organización on-call: modelos y horarios
Modelos
Follow-the-sun: 3 equipos geo (Europa/América/APAC), carga nocturna mínima.
Rotación nocturna en la región: semana de turnos nocturnos por persona una vez cada N semanas (compensación/tiempo libre libre).
Celdas (cell-based): servicio de celdas de productos (marcas/mercados) + L1 general.
Roles de cambio
L1 On-call (Detectent Commander por defecto): acepta alertas, coordina, mantiene la comunicación con el sapport.
L2 Ingenieros de dominio - pagos, game-gateway/WS, DB/monedero, SRE de plataforma.
Oficial de Commes - status page, socios/proveedores, apdates internos.
Duty Manager - Escalamiento empresarial, priorización, excepciones (VIP/regulador).
Plantilla de turno (12 × 7 u 8 × 5 + servicio)
Cambio: 8/10/12 horas. Cambio de 15-30 min «warm handover».
Siga la regla de 2 noches consecutivas como máximo y no más de 7 días en la ventana de 14 días.
Cada turno tiene Roster: servicio, reserva, gestor de llamadas, L2 de contacto.
3) Clasificación de incidentes y SLA
4) Alerting sin ruido
Principios: SLO-alertas sintomáticas → recursos causales → contexto.
Симптомы: `login_success_ratio↓`, `deposit_success_by_psp↓`, `ws_rtt_p95↑`, `game_launch_success↓`.
Причины: `db_conn_saturation↑`, `queue_lag↑`, `psp_timeout↑`, `provider_launch_latency↑`.
Protección contra el ruido: violaciones consecutivas requeridas ≥ 3, supresas automáticas al lanzamiento, deduplicación y agrupación.
Set de servicio: crítico - PagerDuty/Opsgenie; el resto es Slack/mail.
Texto de alerta: «Qué/Dónde/Cuánto/Acción». Ejemplo:5) Runbook 'y y escalada
Mini plantilla runbook
1. Detect: referencias a dashboards (SLO, causales), trace, logs.
2. Comprobaciones rápidas: PSP/proveedores de salud, región DR sintética, estado DB/caché.
3. Medidas temporales: flags de ficha/kill-switch, rate-limits, cambio de proveedor/PSP, degradación de los fiches pesados.
4. Escaladas: quién L2/L3, contactos 24 × 7 proveedores.
5. Criterios de zona verde: SLO en la norma N minutos, colas  6. Commes: plantilla de estado, mercados afectados/marcas, actualización de ETA/siguiente. T0-5 min: L1 acepta, asigna IC, inicia el runbook. T5-10 min: llamamos al L2 + Oficial de Commes. T10-15 min: Duty Manager/producto, si es necesario legal/cumplimiento. Externo: Proveedor de PSP/Juego - por reglamento (canal SLA, ticket, llamada). 6) Comunicaciones y status page Actualizaciones internas cada 10-15 min para SEV-1/2 (canal # war-room, plantilla de mensajes). Status page: estado actual, mercados afectados, medidas temporales, siguiente apdate a través de X min. Nota posterior para el sapport/afiliados/socios: qué era, cómo compensar. Plantillas de antemano: corto, sin «cocina interior», sin culpa. 7) Trabajar con dependencias externas (PSP/juegos/CDN) Directorio de contactos 24 × 7: PSP A/B, proveedores de juegos, CDN/WAF, nube. Monitoreo de SLA: sintéticos para depósitos/lanzamiento de juegos, disparadores automáticos de tickets. Políticas fallidas: ruta a PSP-B en 'success <99% 10 min', cambio de proveedor de juegos en 'TTFS> 800ms'. Inbox-webhooks: firma HMAC, idempotencia, re-play de la cola después de la degradación del proveedor. 8) GameDay y entrenamiento Ejercicios semanales de tabletop (30-45 min): lectura de horarios, toma de decisiones. Controladores de DR técnicos mensuales (60-90 min): fallo de PSP, servidor del proveedor, caída de DB/clúster de WS. KPI de ejercicios: tiempo de reconocimiento de causa, calidad de las comunicaciones, corrección de las soluciones de flagelación. 9) Hendover y documentación 10) Salud y sostenibilidad On-call Regla 8/8/8: trabajo/sueño/personal. Turnos de noche → tiempo libre. Sistema de buddy para principiantes, servicio de sombras 2-3 semanas. Seguridad psicológica: retro «blameless», apoyo en incidentes graves. Auditoría de carga: ≤ 2 «despertar» por noche en promedio por ingeniero - objetivo; arriba → reciclaje de alerting/arquitectura. 11) Métricas de eficacia operativa MTTD/MTTR por dominios (inicio de sesión/depósito/WS/juegos). Calidad de alerta:% ruidoso/cerrado sin acción, número medio de alertas/turno. Change failure rate:% de los incidentes causados por lanzamientos; mean time between failures. Toil: porcentaje de tareas manuales repetibles → plan de automatización. Provider impact: proporción de SEV-2/1 debido a socios externos (argumento para SLA/migración). 12) Herramientas y paneles «de guardia» SLO dashboard «rojo»: inicio de sesión/depósito/apuestas/lanzamiento de juegos, 5xx/429, p95, regiones. Paneles causales: BD/colas/caché, PSP/proveedores, CDN/WAF. Administrador de llamadas: incidentes activos, temporizadores de apdate, enlaces de un solo clic a runbook 'y fichflags. Registro de actividades (timeline) - quién hizo qué, cuándo, con referencia a SLO. 13) Escenarios estándar y soluciones rápidas Acciones: canario marshrut→ PSP-B 50%; elevar el tiempo de espera de los webhooks; incluir el desafío JS en WAF de los bots. Commes: página de estado «Degradation DE deposits via PSP-A». Salida: éxito ≥ 99% 15 min, cola de retrés  B. Crecimiento de p95 WS en juegos en vivo APAC Acciones: aumentamos las réplicas de las gateways WS, incluimos el pool de nodos warm; rate-limit de los mensajes de difusión; al proveedor de tickets de RTT. Salida: P95 WS RTT ≤ 120 ms 20 min. C. Lag proveedor de juegos (TTFS> 1. 2 c) Acciones: cambiar el lobby a mesas/estudios alternativos, activar el caché de metadatos; status-update. Salida: TTFS <800 ms, quejas ↓. 14) Lista de verificación de preparación para 24/7 15) Plantilla post-mortem (sin blameless) 1. Breve: qué pasó cuando, qué SEV, el impacto y la escala. 2. Timeline: detalle de la escalada → de la acción → → estabilización. 3. Causas raíz: esas/procesos/personas/proveedores (5 por qué). 4. Lo que funcionó/lo que no: alertas, ranbooks, comunicaciones. 5. Action items: técnicos, procesadores, partners - responsables y deadline. 6. Prevención: pruebas/monitoreo/simulacros, cambios de SLO/alertas. Las exitosas operaciones 24/7 en el casino son una disciplina de SLO, alarming correctamente diseñado sin ruido, runbook claro 'y escaladas, ejercicios regulares y una actitud cuidadosa hacia las personas on-call. Conecte los paneles SLO con palancas rápidas (flagelaciones, conmutación de proveedores/PSP, degradación de fichas pesadas), mantenga comunicaciones con jugadores y socios, mida la eficiencia (MTTD/MTTR/calidad de alerta) - y su plataforma será estable 24 horas al día y el equipo es productivo y sostenibleEscaleras de escalada
A. Caen los depósitos en DE por el PSP-A
Resumen
