SLA между оператором и провайдерами: метрики и штрафы
1) Зачем SLA и как им управлять
SLA фиксирует ожидаемое качество сервиса (SLO-цели, окна поддержки), как мы это измеряем, и что происходит при нарушениях (сервис-кредиты/штрафы, эскалации, выходные опции). Для iGaming это критично: деньги в реальном времени, регуляторы, пики трафика и многослойные зависимости (игры → кошелёк → PSP → KYC → CDN/WAF).
Принципы:- Измеримость и однозначность (кто, где и чем меряет).
- Близость к бизнесу (метрики по логину/депозитам/запуску игр, а не только CPU).
- Экономический стимул (сервис-кредиты завязаны на ущерб).
- Управление (комитет качества, ежемесячные QBR, PoP-отчёты).
2) Набор метрик по доменам
2.1 Платёжные провайдеры (PSP)
Deposit Success Ratio (DSR): число успешных депозитов / всех попыток, по стране/методу/BIN. Цель ≥ 99.0%.
Authorization/Settlement Latency p95: цель ≤ 400–600 мс.
Webhook Delivery Delay p95: цель ≤ 60 с (T+60).
Availability (API/Callbacks): ≥ 99.9%/мес (исключая согласованные окна).
2.2 Игровые провайдеры/агрегаторы
TTFS (Time-to-First-Spin) p95: ≤ 800 мс (из лобби до первого спина).
Game Launch Success: ≥ 99.5%.
Round Result Callback Success: ≥ 99.9%, задержка p95 ≤ 5 с.
Content Availability: ≥ 99.95% по каталогу (доля доступных игр).
2.3 KYC/AML провайдеры
Verification API Availability: ≥ 99.9%.
Median Time-to-Decision: ≤ 60 c (auto), ≤ 15 мин (manual queue).
False Negative/Positive Boundaries: таргетные коридоры по рынкам (по согласованной выборке).
2.4 Edge/CDN/WAF
TTFB p95: ≤ 200 мс (регионально).
Cache Hit Ratio: ≥ 85% статических ассетов.
Bot-challenge pass-through: FP ≤ 0.5% на логине/депозите.
2.5 Хостинг/облако/сеть
Availability (region/zone): ≥ 99.95% (zone), RTO ≤ 30 мин, RPO ≤ 5 мин для кошелька.
Ingress/Load Balancer Latency p95: ≤ 100 мс в регионе.
3) Формулы и измерение
Общие правила измерения
Часовой пояс расчёта: Europe/Kyiv. Отчётный месяц — календарный.
Часы считаются по UTC в телеметрии с конвертацией в Kyiv для отчётов.
Синхронизация времени: NTP; погрешность ≤ 100 мс.
Источник истины: синтетика оператора + серверные логи + поставщик. При расхождении используется худшее из двух, если не доказано обратное.
Примеры формул
text
Availability = 1 - (Σ Downtime_min) / (Total_min_in_period)
Downtime_min — минуты, когда >= X% ошибок/таймаутов и/или полная недоступность.
Порог X фиксируется (например, error_rate ≥ 5% или p95_latency ≥ SLO×2).
Deposit Success Ratio = success_count / (success_count + failure_count)
Latency p95 = histogram_quantile(0.95, rate(latency_bucket[5m]))
TTFS p95 = p95(time(game_open → first_spin_callback))
Webhook Delay p95 = p95(time(webhook_received – event_time))Окна обслуживания (Planned Maintenance)
Окна согласуются за 7 дней, не чаще 1×/мес по 60 мин, выпадают из расчёта SLA. Экстренные окна (Security) — за 24 ч уведомления.
4) Классификация инцидентов и реакции
Коммуникации: статус-страница/канал, пост-мортем ≤ 5 рабочих дней.
5) Сервис-кредиты и штрафы
5.1 Линейка кредитов (пример)
Availability за месяц:99.9%–99.5% → кредит 5% месячной платы/комиссии провайдера.
99.5%–99.0% → 10%.
Нарушение DSR PSP: каждые полные 0.5 п.п. ниже 99.0% → кредит 2%, cap 20%.
Webhook Delay p95 > SLO × 2 более 60 мин суммарно → 5%.
TTFS p95 > 800 мс более 120 мин → 5%.
Chronic failure: 3 месяца подряд с кредитами ≥ 10% → право на досрочное расторжение без штрафа + помощь в миграции (фикс-прайс/часовой лимит).
5.2 Экономическая логика
Кредиты нетто-зачётные (уменьшают счета провайдера).
При RevShare — кредиты брутто от платы провайдера (его доли), не от GGR/NGR в целом.
Monthly cap по кредитам: обычно 100% месячной платы, кроме fraud/данные.
5.3 Earn-back (опция)
Провайдер может «заработать» часть кредита обратно, если в следующем месяце достигает усиленного SLO (например, Availability ≥ 99.99% целый месяц).
6) Весовая модель оценки по KPI (для квартальных бонусов/малусов)
`QuarterScore = Σ(Вес × Балл/5)` → бонус/малус ±X% к тарифу.
7) Пример сводного отчёта (CSV-рыба)
Provider,Month,Availability,DSR,TTFS_p95_ms,Webhook_p95_s,Credits%
PSP-A,2025-09,99.62%,98.8%,--,45,12
Games-X,2025-09,99.97%,--,780,3,0
KYC-Z,2025-09,99.91%,--,--,--,0
CDN-W,2025-09,99.99%,--,120,--,08) Правила исключений и форс-мажор
Исключения: аварии у третьих сторон, не входящих в периметр провайдера, если доказуемо и задокументировано, и при наличии корректных маршрутов отказоустойчивости.
Форс-мажор: только события из стандартного перечня (стихии/война/регуляторная блокировка), при своевременной коммуникации и попытках смягчить ущерб (DR).
Shared-fault (разделённая вина): кредиты делятся пропорционально подтверждённому вкладу.
9) Проверка качества и аудит
Доступ оператора к метрикам/логам/трейсам (read-only).
Ежеквартальный security-scan и отчёт по устранению уязвимостей.
DR-учения: 1×/квартал, отчёт с RTO/RPO.
Reconciliation отчётов PSP/игр с расхождением ≤ 0.5%.
10) Эскалации и управление
Контакт-лист 24/7 (L1/L2, менеджер партнёра).
War-room при SEV-1.
QBR: квартальный разбор KPI, кредиты/earn-backs, roadmap.
План улучшений (CAP) с датами и владельцами.
11) Шаблоны клауза (фрагменты)
SLO и измерение
Сервис-кредиты
Chronic failure & Termination
Данные и вебхуки
Плановые окна
12) Частые ловушки и как их избегать
Размытые определения «недоступности» → фиксируйте пороги ошибок/латентности.
Без учёта географии → цели по регионам, а не среднее глобально.
Нет SLO по данным → добавьте SLA на вебхуки/экспорты, иначе отчёты «запаздывают».
Штрафы без cap/earn-back → делайте предсказуемо и справедливо.
Без DR-требований → пропишите RTO/RPO и частоту учений.
13) Чек-лист внедрения SLA (prod-ready)
- Финализированы KPI по доменам: PSP, игры, KYC, CDN/WAF, облако.
- Описаны источники измерений и формулы; подтверждён часовой пояс и окна.
- Согласованы окна обслуживания и процедура уведомлений.
- Таблица сервис-кредитов, cap и chronic-failure клауза.
- Процедуры SEV-эскалаций, war-room, пост-мортем ≤ 5 дн.
- Доступ к телеметрии (метрики/логи/трейсы) выдан, тест подключений пройден.
- DR-требования (RTO/RPO) и расписание учений закреплены.
- QBR-ритм, scorecard и годовые цели согласованы.
- Юридические исключения/форс-мажор описаны чётко.
- Тестовый отчёт за пилотный месяц с расчётом кредитов.
Резюме
Рабочий SLA — это чёткие бизнес-метрики, прозрачные правила измерения, продуманная линейка кредитов и живое управление качеством (QBR, CAP, учения). Закрепите KPI по доменам (PSP, игры, KYC, edge/облако), договоритесь об источниках истины и исключениях, введите весовую модель и earn-back — и ваши отношения с провайдерами станут предсказуемыми, а риск для денег и UX игрока значительно снизится.
