SLA entre o operador e os provedores: métricas e multas
1) Porquê o SLA e como controlá-lo
A SLA registra a qualidade prevista do serviço (metas SLO, janelas de suporte), como medimos, e o que acontece em casos de violações (serviços-crédito/multas, escalação, opções de saída). Isso é crítico para iGaming: dinheiro em tempo real, reguladores, picos de tráfego e dependências de camadas (jogos → carteira → PSP → KYC → CDN/WAF).
Princípios:- Dimensibilidade e inequívocos (quem, onde e o que mede).
- Proximidade com o negócio (métricas por login/depósito/lançamento de jogos, não apenas CPU).
- Estímulo econômico (prestações de serviços para danos).
- Gerenciamento (Comitê de Qualidade, QBR mensal, PoP).
2) Conjunto de métricas por domínio
2. 1 Provedores de Pagamento (PSP)
Deposit Sucess Ratio (DSR): número de depósitos de sucesso/todas as tentativas, por país/método/BIN. Alvo ≥ 99. 0%.
Autorization/Masslement Latency p95: alvo ≤ 400-600 ms.
Webhook Delivery Delay p95: alvo ≤ 60 s (T + 60).
Availability (API/Callbacks): ≥ 99. 9 %/m (excluindo as janelas acordadas).
2. 2 Provedores de jogos/agregadores
TTFS (Time-to-First-Spin) p95: ≤ 800 ms (do lobby até às primeiras costas).
Game Launch Success: ≥ 99. 5%.
Round Result Callback Success: ≥ 99. 9%, atraso de p95 ≤ 5 s.
Content Availability: ≥ 99. 95% por catálogo (proporção de jogos disponíveis).
2. provedores 3 KYC/AML
Verification API Availability: ≥ 99. 9%.
Median Time-to-Decision: ≤ 60 c (auto), ≤ 15 мин (manual queue).
False Negative/Positivo Boundaries: Corredores de mercado de destino (por amostra concordada).
2. 4 Edge/CDN/WAF
TTFB p95: ≤ 200 ms (regional).
Cachê Hit Ratio: ≥ 85% das assetas estáticas.
Bot-challenge pass-through: FP ≤ 0. 5% no login/depósito.
2. 5 Hospedagem/nuvem/rede
Availability (region/zone): ≥ 99. 95% (zona), RTO ≤ 30 min, RPO ≤ 5 min para carteira.
Origins/Load Balancer Latency p95: ≤ 100 ms na região.
3) Fórmulas e medição
Regras gerais de medição
Fuso horário do cálculo: Europe/Kyiv. O mês relatado é calendário.
O relógio é considerado UTC em telemetria com conversão para Kyiv para relatórios.
Sincronizar tempo: NTP; margem de erro ≤ 100 ms.
Origem da verdade: operador sintético + logs de servidor + fornecedor. A discrepância usa o pior dos dois, a menos que seja provado o contrário.
Exemplos de fórmulas
text
Availability = 1 - (Σ Downtime_min) / (Total_min_in_period)
Downtime _ min - minutos em que> = X% de erros/temporizações e/ou indisponibilidade total.
O limite X é fixado (por exemplo, erro _ rate ≥ 5% ou p95 _ latency ≥ SLO x 2).
Deposit Success Ratio = success_count / (success_count + failure_count)
Latency p95 = histogram_quantile(0. 95, rate(latency_bucket[5m]))
TTFS p95 = p95(time(game_open → first_spin_callback))
Webhook Delay p95 = p95(time(webhook_received – event_time))Janelas de serviço (Planned Maintenance)
As janelas são alinhadas em 7 dias, não mais de 1 x/m de 60 min, e caem do cálculo da SLA. Janelas de emergência (Security) - 24 horas de notificação.
4) Classificação de incidentes e reações
Comunicações: status-página/canal, pós-mortem ≤ 5 dias úteis.
5) Prestações de serviço e multas
5. 1 Linha de crédito (exemplo)
Availability para um mês:99. 9%–99. 5% → crédito de 5% da taxa mensal/comissão do provedor.
99. 5%–99. 0% → 10%.
Violação DSR PSP: cada 0 completo. 5 p.p. abaixo de 99. 0% → crédito 2%, cap 20%.
Webhook Delay p95> SLO x 2 mais de 60 min total → 5%.
TTFF p95> 800 ms mais de 120 min → 5%.
Cronic failure: 3 meses consecutivos com crédito ≥ 10% → direito a cancelamento antecipado sem multa + ajuda para migração (fix price/limite horário).
5. 2 Lógica econômica
Os créditos são netos (reduzindo as contas do provedor).
Em RevShare, créditos brutos do provedor (sua parte), não da GGR/NGR em geral.
Monthly cap em empréstimos: normalmente 100% da taxa mensal, exceto fraud/dados.
5. 3 Earn-back (opção)
O provedor pode «ganhar» parte do crédito de volta se atingir um SLO reforçado no próximo mês (por exemplo, Availability ≥ 99. 99% um mês inteiro).
6) Modelo de avaliação de peso sobre KPI (para bônus/malus trimestrais)
' = (Peso x Pontuação/5)' um bônus/malus para a tarifa.
7) Exemplo de relatório resumido (peixe CSV)
Provider,Month,Availability,DSR,TTFS_p95_ms,Webhook_p95_s,Credits%
PSP-A,2025-09,99. 62%,98. 8%,--,45,12
Games-X,2025-09,99. 97%,--,780,3,0
KYC-Z,2025-09,99. 91%,--,--,--,0
CDN-W,2025-09,99. 99%,--,120,--,08) Regras de exceção e força maior
Exceções: acidentes com terceiros que não pertencem ao perímetro do provedor, se comprovado e documentado, e com rotas de resistência corretas.
Força Maior: Apenas eventos da lista padrão (elementos/guerra/bloqueio regulatório), com comunicação oportuna e tentativas de mitigação de danos (DR.).
Shared-fault (vinho dividido): os créditos são divididos proporcionalmente ao aporte confirmado.
9) Verificação de qualidade e auditoria
Acesso do operador a métricas/logs/trens (read-only).
Segurança-scan Trimestral e Relatório de Recuperação de Vulnerabilidades.
Ensinamentos DR: 1 x/trimestre, relatório RTO/RPO.
Reconciação de relatórios PSP/jogos com variação ≤ 0. 5%.
10) Escalonamento e controle
Contato-folha 24/7 (L1/L2, gerente de parceiro).
O War-Room para o SEC-1.
QBR: revisão trimestral de KPI, créditos/earn-backs, roadmap.
Plano de melhorias (CAP) com datas e proprietários.
11) Modelos de klauss (fatias)
SLO e medição
Créditos de serviço
Chronic failure & Termination
Dados e webhooks
Janelas programadas
12) Armadilhas frequentes e como evitá-las
Definições de indisponibilidade desfocadas → construa liminares de erro/latência.
Sem considerar a geografia → os objetivos por região, não a média global.
Não há SLO de dados → adicione SLA para webhooks/exportação, senão os relatórios são atrasados.
Multas sem cap/earn-back → faça previsível e justo.
Sem requisitos de DR., faça RTO/RPO e a frequência dos exercícios.
13) Folha de cheque de implementação do SLA (prod-ready)
- KPI finalizados em domínios PSP, jogos, KYC, CDN/WAF, nuvem.
- Fontes de medição e fórmulas são descritas; fuso horário e janelas confirmadas.
- As janelas de atendimento e o processo de notificação foram negociados.
- Tabela de prestações de serviço, cap e cronic-failure klauss.
- Procedimentos de escalações de SEV, war-room, pós-mortem ≤ 5 dígitos.
- O acesso à telemetria (métricas/logs/trailers) foi emitido e as conexões foram testadas.
- Os requisitos DR. (RTO/RPO) e a programação do exercício estão fixados.
- Ritmo QBR, scorecard e metas anuais estão alinhados.
- As exceções legais/força maior são claramente descritas.
- Relatório de teste de um mês piloto com pagamento de crédito.
Currículos
O SLA de trabalho é uma métrica de negócios clara, regras de medição transparentes, uma linha de crédito elaborada e gestão de qualidade viva (QBR, CAP, exercício). Fixe o KPI sobre domínios (PSP, jogos, KYC, edge/nuvem), chegue a um acordo sobre fontes de verdade e exceções, digite um modelo de peso e um earn-back - e sua relação com os provedores se tornará previsível e o risco para o dinheiro e para o jogador ux diminuirá significativamente.
