SLA між оператором і провайдерами: метрики та штрафи
1) Навіщо SLA і як ним управляти
SLA фіксує очікувану якість сервісу (SLO-цілі, вікна підтримки), як ми це вимірюємо, і що відбувається при порушеннях (сервіс-кредити/штрафи, ескалації, вихідні опції). Для iGaming це критично: гроші в реальному часі, регулятори, піки трафіку і багатошарові залежності (ігри → гаманець → PSP → KYC → CDN/WAF).
Принципи:- Вимірюваність і однозначність (хто, де і чим міряє).
- Близькість до бізнесу (метрики за логіном/депозитами/запуску ігор, а не тільки CPU).
- Економічний стимул (сервіс-кредити зав'язані на шкоду).
- Управління (комітет якості, щомісячні QBR, PoP-звіти).
2) Набір метрик по доменах
2. 1 Платіжні провайдери (PSP)
Deposit Success Ratio (DSR): число успішних депозитів/всіх спроб, по країні/методу/BIN. Мета ≥ 99. 0%.
Authorization/Settlement Latency p95: мета ≤ 400-600 мс.
Webhook Delivery Delay p95: ціль ≤ 60 с (T + 60).
Availability (API/Callbacks): ≥ 99. 9 %/міс (виключаючи узгоджені вікна).
2. 2 Ігрові провайдери/агрегатори
TTFS (Time-to-First-Spin) p95: ≤ 800 мс (з лобі до першого спина).
Game Launch Success: ≥ 99. 5%.
Round Result Callback Success: ≥ 99. 9%, затримка p95 ≤ 5 с.
Content Availability: ≥ 99. 95% за каталогом (частка доступних ігор).
2. 3 KYC/AML провайдери
Verification API Availability: ≥ 99. 9%.
Median Time-to-Decision: ≤ 60 c (auto), ≤ 15 мин (manual queue).
False Negative/Positive Boundaries: таргетні коридори по ринках (за узгодженою вибіркою).
2. 4 Edge/CDN/WAF
TTFB p95: ≤ 200 мс (регіонально).
Cache Hit Ratio: ≥ 85% статичних асетів.
Bot-challenge pass-through: FP ≤ 0. 5% на логіні/депозиті.
2. 5 Хостинг/хмара/мережа
Availability (region/zone): ≥ 99. 95% (zone), RTO ≤ 30 хв, RPO ≤ 5 хв для гаманця.
Ingress/Load Balancer Latency p95: ≤ 100 мс в регіоні.
3) Формули і вимір
Загальні правила вимірювання
Часовий пояс розрахунку: Europe/Kyiv. Звітний місяць - календарний.
Годинник рахується за UTC в телеметрії з конвертацією в Kyiv для звітів.
Синхронізація часу: NTP; похибка ≤ 100 мс.
Джерело істини: синтетика оператора + серверні логи + постачальник. При розбіжності використовується найгірше з двох, якщо не доведено зворотне.
Приклади формул
text
Availability = 1 - (Σ Downtime_min) / (Total_min_in_period)
Downtime_min - хвилини, коли> = X% помилок/таймаутів і/або повна недоступність.
Поріг X фіксується (наприклад, error_rate ≥ 5% або p95_latency ≥ SLO × 2).
Deposit Success Ratio = success_count / (success_count + failure_count)
Latency p95 = histogram_quantile(0. 95, rate(latency_bucket[5m]))
TTFS p95 = p95(time(game_open → first_spin_callback))
Webhook Delay p95 = p95(time(webhook_received – event_time))Вікна обслуговування (Planned Maintenance)
Вікна узгоджуються за 7 днів, не частіше 1 ×/міс по 60 хв, випадають з розрахунку SLA. Екстрені вікна (Security) - за 24 год повідомлення.
4) Класифікація інцидентів і реакції
Комунікації: статус-сторінка/канал, пост-мортем ≤ 5 робочих днів.
5) Сервіс-кредити та штрафи
5. 1 Лінійка кредитів (приклад)
Availability за місяць:99. 9%–99. 5% → кредит 5% місячної плати/комісії провайдера.
99. 5%–99. 0% → 10%.
Порушення DSR PSP: кожні повні 0. 5 п. п. нижче 99. 0% → кредит 2%, cap 20%.
Webhook Delay p95> SLO × 2 більше 60 хв сумарно → 5%.
TTFS p95> 800 мс більше 120 хв → 5%.
Chronic failure: 3 місяці поспіль з кредитами ≥ 10% → право на дострокове розірвання без штрафу + допомога в міграції (фікс-прайс/годинний ліміт).
5. 2 Економічна логіка
Кредити нетто-залікові (зменшують рахунки провайдера).
При RevShare - кредити брутто від плати провайдера (його частки), не від GGR/NGR в цілому.
Monthly cap за кредитами: зазвичай 100% місячної плати, крім fraud/дані.
5. 3 Earn-back (опція)
Провайдер може «заробити» частину кредиту назад, якщо в наступному місяці досягає посиленого SLO (наприклад, Availability ≥ 99. 99% цілий місяць).
6) Вагова модель оцінки по KPI (для квартальних бонусів/малусів)
'QuarterScore = Σ (Вага × Бал/5)'→ бонус/малус ± X% до тарифу.
7) Приклад зведеного звіту (CSV-риба)
Provider,Month,Availability,DSR,TTFS_p95_ms,Webhook_p95_s,Credits%
PSP-A,2025-09,99. 62%,98. 8%,--,45,12
Games-X,2025-09,99. 97%,--,780,3,0
KYC-Z,2025-09,99. 91%,--,--,--,0
CDN-W,2025-09,99. 99%,--,120,--,08) Правила винятків і форс-мажор
Винятки: аварії у третіх сторін, що не входять в периметр провайдера, якщо доведено і задокументовано, і при наявності коректних маршрутів відмовостійкості.
Форс-мажор: тільки події зі стандартного переліку (стихії/війна/регуляторне блокування), при своєчасній комунікації і спробах пом'якшити збиток (DR).
Shared-fault (розділена вина): кредити діляться пропорційно підтвердженому вкладу.
9) Перевірка якості та аудит
Доступ оператора до метриків/логів/трейсів (read-only).
Щоквартальний security-scan і звіт щодо усунення вразливостей.
DR-навчання: 1 ×/квартал, звіт з RTO/RPO.
Reconciliation звітів PSP/ігор з розбіжністю ≤ 0. 5%.
10) Ескалації та управління
Контакт-лист 24/7 (L1/L2, менеджер партнера).
War-room при SEV-1.
QBR: квартальний розбір KPI, кредити/earn-backs, roadmap.
План поліпшень (CAP) з датами і власниками.
11) Шаблони клауза (фрагменти)
SLO та вимірювання
Сервіс-кредити
Chronic failure & Termination
Дані та вебхуки
Планові вікна
12) Часті пастки і як їх уникати
Розмиті визначення «недоступності» → фіксуйте пороги помилок/латентності.
Без урахування географії → цілі по регіонах, а не середнє глобально.
Немає SLO за даними → додайте SLA на вебхуки/експорти, інакше звіти «запізнюються».
Штрафи без cap/earn-back → робіть передбачувано і справедливо.
Без DR-вимог → пропишіть RTO/RPO і частоту навчань.
13) Чек-лист впровадження SLA (prod-ready)
- Фіналізовані KPI по доменах: PSP, ігри, KYC, CDN/WAF, хмара.
- Описані джерела вимірювань і формули; підтверджений часовий пояс і вікна.
- Узгоджені вікна обслуговування і процедура повідомлень.
- Таблиця сервіс-кредитів, cap і chronic-failure клауза.
- Процедури SEV-ескалацій, war-room, пост-мортем ≤ 5 дн.
- Доступ до телеметрії (метрики/логи/трейси) виданий, тест підключень пройдено.
- DR-вимоги (RTO/RPO) і розклад навчань закріплені.
- QBR-ритм, scorecard і річні цілі узгоджені.
- Юридичні винятки/форс-мажор описані чітко.
- Тестовий звіт за пілотний місяць з розрахунком кредитів.
Резюме
Робочий SLA - це чіткі бізнес-метрики, прозорі правила вимірювання, продумана лінійка кредитів і живе управління якістю (QBR, CAP, навчання). Закріпіть KPI по доменах (PSP, ігри, KYC, edge/хмара), домовтеся про джерела істини і винятках, введіть вагову модель і earn-back - і ваші відносини з провайдерами стануть передбачуваними, а ризик для грошей і UX гравця значно знизиться
