Práticas 24/7-operação e on-call no casino
1) Alvos 24/7-operações
Negócio SLO, login 99. 9%, depósito ≥ 99. 85%, taxa/setlent ≥ 99. 9%, p95 WS PTT ≤ 120 ms.
Alvos incidentes: MTTD ≤ 1 min (sintético), MTTR ≤ 15-30 min para flow em dinheiro.
Qualidade de suporte: <3% dos tíquetes vão para o segundo dia sem resposta; CSAT safort ≥ 90%.
2) Organização on-call: modelos e agendamentos
Modelos
Follow-the-sun: 3 equipes geo (Europa/América/APAC), carga mínima noturna.
Rotatividade noturna na região: semana de turnos noturnos por pessoa a cada N semanas (compensação/folga).
Celas (Cell-based): supervisão das células de alimentação (marcas/mercados) + L1 geral.
Papéis de turno
L1 On-call - aceita alert, coordena, mantém contato com a saforta.
L2 Engenheiros de domínio - pagamentos, game-gateway/WS, BD/carteira, plataforma SRE.
Oficial de Operações - Página de Status, Parceiros/Provedores, Updates Internos.
Duty Gerente - escalação de negócios, priorização, exclusão (VIP/regulador).
Modelo de turno (12 x 7 ou 8 x 5 + turno)
Turno: 8/10/12 horas. Mudança de 15-30 min «warm handover».
Cumpra a regra de 2 noites consecutivas no máximo e não mais de 7 on-call-dias em uma janela de 14 dias.
Cada turno tem um Roster, uma reserva, um gerente de chamadas, um contato L2.
3) Classificação de incidentes e SLA
4) Alerting sem ruídos
Princípios: alertas SLO sintomáticos → contextos → causais.
Симптомы: `login_success_ratio↓`, `deposit_success_by_psp↓`, `ws_rtt_p95↑`, `game_launch_success↓`.
Причины: `db_conn_saturation↑`, `queue_lag↑`, `psp_timeout↑`, `provider_launch_latency↑`.
Protecção contra ruídos: required consectiva violações 3, supress automático ao lançamento, dedução e agrupamento.
Conjunto de atendimento: crítico - PagerDuty/Opsgenie; o resto é Slack/correio.
O texto do alert é «O que/Onde/Quanto/Ação». Exemplo:5) Runbook 'e e escalar
Mini-modelo de runbook
1. Referências a dashboards (SLO, causais), trade, logs.
2. Verificações rápidas: health PSP/provedores, Dr. região sintética, status BD/cachê.
3. Medidas temporárias: flagra/kill-switch, rate-limits, mudança PSP/provedor, degradação de fichas pesadas.
4. Escalação: quem é L2/L3, contatos 24 x 7 provedor.
5. Critérios de área verde: SLO normal N minutos, filas  6. Coms: modelo de status, affected markets/brands, ETA/next update. T0-5 min: L1 aceita, atribui IC, executa runbook. T5-10 min, chamamos L2 de Perfil + Oficial de Comando. T10-15 min: Duty Gerente/produto, se necessário legal/complacência. Externo: PSP/Game provider - por regulamento (canal SLA, tíquete, chamada). 6) Comunicações e página de status Updates internos a cada 10-15 min para o V-1/2 (canal # war-room, modelo de mensagens). Status - Status atual, mercados afetados, medidas temporárias, próximo update em X min. Post-invent note para safort/afiliados/parceiros: O que foi, como compensamos. Os modelos são curtos, sem «cozinha interna», sem culpa. 7) Trabalhar com dependências externas (PSP/jogos/CDN) Catálogo de contatos 24 x 7: PSP A/B, provedores de jogos, CDN/WAF, nuvem. Monitoramento SLA: Sintético de depósito/lançamento de jogos, tíquetes de tíquetes automáticos. Políticas Failover: rota para PSP-B a 'sucess <99% 10 min', alternando provedor de jogos para 'TTFS> 800ms'. Inbox webhooks: assinatura HMAC, idempotidade, ré-play da fila após a degradação do provedor. 8) GameDay e treinos Ensinamentos tabletop semanais (30-45 min): leitura de gráficos, tomada de decisões. DR-drive mensal (60-90 min): falha do PSP, do provedor, queda do BB/cluster WS. KPI exercícios: tempo de reconhecimento de causa, qualidade das comunicações, correção das soluções de fichiflags. 9) Hendover e documentação 10) On-call saúde e sustentabilidade Regra 8/8/8: trabalho/sono/pessoal. Turnos noturnos → folgas. Sistema Buddy para novatos, serviço shadow 2-3 semanas. Segurança psicológica: «blameless» retrô, apoio para incidentes graves. Auditoria de carga: ≤ 2 «despertar» por noite em média por engenheiro - objetivo; acima → reciclagem de alerting/arquitetura. 11) Métricas de eficiência operacional MTTD/MTTR para domínios (login/depósito/WS/jogos). Alert quality:% ruído/fechado sem ação, média de alertas/turno. Mudar failure rate:% dos incidentes causados por lançamentos; mean time between failures. Toil: proporção de tarefas manuais repetidas → plano de automação. Provider impact: proporção de SEV-2/1 devido a parceiros externos (argumento para SLA/migração). 12) Ferramentas e painéis de serviço «Vermelho» dashboard SLO: login/depósito/apostas/lançamento de jogos, 5xx/429, p95, regiões. Painéis de causa: BD/filas/dinheiro, PSP/provedores, CDN/WAF. Central on-call: incidentes ativos, temporizadores de update, one-click links de runbook 'e e ficheflags. Registro de ação (timeline) - quem fez o quê, quando, com uma ligação SLO. 13) Cenários típicos e soluções rápidas Ações: canário PSP-B 50%; levantar o tempo dos webhooks; incluir o desafio JS no WAF dos bots. Coms: Página de status «Degradation DE deposits via PSP-A». Saída: sucess ≥ 99% 15 min, fila de retais  B. Crescimento de p95 WS em jogos de lave APAC Ações: Aumentamos as réplicas de passarelas WS, incluímos o wart pool nod; rate-limit mensagens de transmissão; O provedor é um tíquete de RPT. Saída: p95 WS PTT ≤ 120 ms 20 min C. O provedor de jogos (TTFS> 1. 2 c) Ações: mudar o lobby para mesas alternativas/estúdios, incluir kesh de metadados; status-update. Saída: TTFS <800 ms, queixas ↓. 14) Folha de cheque pronta para 24/7 15) Modelo pós-mortem (blameless) 1. Resumidamente, o que aconteceu quando, que tipo de SEC, influência e escala. 2. Timeline, detecção → escalar a → → estabilização. 3. Razões de raiz: aqueles/processos/pessoas/fornecedores (5 Why). 4. O que deu certo é que não, alertas, ranbooks, comunicações. 5. Action items: técnica, processual, parceira - responsável e deadline. 6. Prevenção: testes/monitoramento/exercício, alterações SLO/alertas. As operações bem sucedidas 24/7 no casino são uma disciplina SLO, alarming bem projetado sem ruídos, runbook nítido e escalação, ensinamentos regulares e cuidado com as pessoas on-call. Vincule painéis SLO com alavancas rápidas (ficheflags, mudança de PSP/provedores, degradação de fichas pesadas), mantenha comunicação com jogadores e parceiros, meda eficiência (MTTD/MTTR/alert quality) - e sua plataforma será estável 24 horas por dia e sua equipe, produtiva e sustentável.Escada escalante
A. Os depósitos caem em DE no PSP-A
Currículos
