Як Data Science допомагає виявляти залежності гравців

1) Навіщо це потрібно

Ігрова залежність проявляється не за один день: спочатку зростають депозити і частота сесій, потім змінюється стиль гри (догон, зростання ставок, гра вночі), з'являється ігнорування лімітів. Завдання Data Science - помітити патерни ризику раніше, ніж вони призводять до фінансової та психологічної шкоди, і запропонувати персональні інтервенції, зберігаючи баланс між відповідальністю бізнесу і автономією гравця.

2) Які дані використовувати (і як їх готувати)

Джерела:

Логи сесій: частота входів, тривалість, перерви, час доби, пристрої.
Транзакції: депозити/висновки, методи оплати, відміни, chargeback-тригери.
Ігрова телеметрія: ставки, волатильність слотів, типи ігор, переходи між іграми.
Сигнали RG (Responsible Gaming): установки/зміни лімітів, real-time нагадування, самовиключення.
Служба підтримки: звернення, тригери «втратив контроль», тональність (якщо гравець дав згоду на аналіз).
Контекст: гео/часовий пояс, сезонність, вихідні/свята.

Фічі (приклади):

Швидкість наростання депозитів і середньої ставки (градієнти, експоненціальне згладжування).
Ритм сесій: хронопідпис (feature hashing по годинах тижня), нічні піки.
Патерни догон-ставок: збільшення після програшу N раз поспіль.
Зниження різноманітності (entropy of game choice): зациклювання на одна-двох ризикованих іграх.
Фрикція/втома: зростання частоти маленьких депозитів, ігнор пауз, скасування висновків.
Тригери RG: встановлення ліміту відразу після великих програшів, часті зміни лімітів.

Якість даних:

Сурогатні унікальні ID, мінімізація PII.
Фічестор (feature store) з версіонуванням і SLA затримок.
Наскрізна валідація: check-лист аномалій, дедуплікації, межі (e. g., негативні депозити).

3) Як розмітити «залежність», якщо немає ідеального ярлика

Proxy-labeling: самовиключення, тривалі «тайм-аути», поводження на підтримку з ключовими фразами, перевиконання лімітів - не ідеал, але корисні проксі.

Слабоспостережувані події: рідкісні, тому придатні semi-supervised і PU-learning (positive & unlabeled).

Експертна шкала ризику: клінічні анкети (якщо гравець дав згоду), агреговані до рівня бінарного/мультикласового таргету.

4) Моделі та підходи

Класика супервізії:

Градієнтний бустинг, логістична регресія для базового скорингу (інтерпретованість, швидкий прод).
Калібрування ймовірностей (Platt/Isotonic) для коректних порогів інтервенцій.

Послідовності та час:

RNN/Transformer/Temporal CNN для тимчасових рядів сесій і ставок.
Ковзні вікна, rolling features і attention до «гострих» епізодів (нічні догон-серії).
Survival-analysis (Cox, RSF): час до небажаної події (самовиключення) як таргет.

Без вчителя:

Кластеризація поведінкових ролей (k-means, HDBSCAN).
Виявлення аномалій: Isolation Forest, One-Class SVM, Autoencoder.

Причинність і uplift:

Causal-методи (DID, Causal Forest) і uplift-моделі для вибору інтервенцій, які реально зменшують ризик для конкретного гравця.

Інтерпретованість:

SHAP/Permutation importance + стабілізація ознак, звіти для RG-команди.

5) Метрики якості та продукти

Модельні (off-line):

AUC-PR (важливіше, ніж ROC при рідкісних подіях), F1/Recall @Precision, calibration error.
Time-to-event concordance для survival-моделей.

Бізнес- і RG-метрики (on-line):

Time-to-intervention: наскільки раніше система втрутилася до «поганої» події.
Зниження частки гравців з самовиключенням в горизонті 30/60/90 днів.
Зниження відмін висновків після програшів, зменшення нічних сесій 00:00–05:00.
Harm-reduction KPI: частка встановили ліміти і утрималися їх.
Cost of false positives: «не дратувати здорових» - частка ескалацій без підтвердженого ризику.
Задоволеність гравців інтервенціями (CSAT після м'яких нотифікацій).

6) Інтервенції: що саме робити

М'які, безшовні (по наростаючій):

1. Інформаційні «реаліті-чеки» в потрібний момент (частота, втрати за сесію, пауза 3-5 хвилин).

2. Пропозиції встановити/знизити ліміти (депозити, втрати, сесії).

3. «Тертя у справі»: приховані затримки перед депозицією при нічних сплесках, обов'язкова пауза.

4. Персональні поради та навчальні підказки (якщо гравець погодився).

5. Ескалація до людини (RG-офіцер, чат підтримки), а потім - тимчасові обмеження або самовиключення.

Правило сходів: чим вище модельний ризик і впевненість, тим «жорсткіше» набір інструментів - з обов'язковою переоцінкою після інтервенції.

7) Архітектура і MLOps

Стрімінг: збір подій через брокер (наприклад, Kafka/аналоги), вікна 1-5 хвилин для фічів.

Real-time скоринг: онлайнова модель валідації/серва (REST/gRPC), бюджет затримки ≤ 100-300 мс.

Фідбек-луп: лог дій моделі і результат гравця → дообучение.

Фічестор: online/offline паритет, контроль дрейфу (PSI/KS), автоалерти.

AB-платформа: рандомізація інтервенцій, bandits, CUPED/диф-ін-дифф.

Говернанс: катологи даних, lineage, RBAC, аудит застосованих правил.

8) Приватність і комплаєнс

Мінімізація PII, псевдонімізація, зберігання тільки потрібних полів.

Privacy-by-design: доступ за принципом «мінімально необхідного».

Federated learning і диференціальна приватність для чутливих сценаріїв.

Локальні вимоги: зберігання логів, прозорі RG-політики, журнал інтервенцій, зрозумілість рішень для аудиту.

9) Процес впровадження (покроково)

1. Визначити шкоду і проксі-ярлики: разом з RG-експертами.

2. Завести фічестор і потік: N ключових фіч, узгодити SLAs.

3. Зробити бейзлайн: логрег/бустинг + калібрування.

4. Додати час: послідовні моделі/виживаність.

5. Запустити пілот: 5-10% трафіку, м'які інтервенції.

6. Виміряти uplift harm-reduction і «вартість» помилкових спрацьовувань.

7. Розширити: персоналізація інтервенцій, каузальні моделі.

8. Операціоналізувати: моніторинг, ретрейнінг, дрейф, аудит.

10) Типові помилки і як їх уникнути

Один поріг для всіх. Потрібна стратифікація за сегментами і впевненості.

Опора лише на суму втрат. Важливо враховувати патерни поведінки і контекст.

Ігнор нічних/мобільних патернів. Хронопідпис обов'язковий.

Відсутність калібрування. Некалібрований ризик призводить до «жорстких» заходів.

Немає A/B-контролю інтервенцій. Складно довести користь.

«Чорний ящик» без пояснень. Потрібні пост-hoc пояснення і звіти.

11) Кейси (узагальнені)

Раннє попередження по ритму сесій: детектор ловить прискорення коротких сесій і скасування висновків → запропонований ліміт і 10-хвилинна пауза → зниження нічних поповнень на 18-25% в пілоті.

Uplift-таргетинг нагадувань: тільки тим, хто реагує на «реаліті-чек», - мінус 12-15% у ймовірності самовиключення в 60-денному горизонті.

Ескалація з людиною: поєднання авто-сигналу і дзвінка RG-офіцера дало кращий довготривалий ефект, ніж авто-блокування.

12) Вибір стека та інструментів (зразкові ролі)

Сировина і стримінг: брокер подій, CDC з БД, об'єктне сховище.

Фічестор і ноутбуки: централізований шар ознак, версіонування.

Моделювання: бустинги/логрег, бібліотеки для послідовних моделей, фреймворки каузального виводу.

Сервінг: низька затримка, A/B-і бендити, трекінг експериментів.

Моніторинг: дрейф фіч/таргета, SLO на затримки і на частку інтервенцій.

13) Етичні принципи

Прозорість: гравець знає про параметри RG-функцій і може керувати ними.

Пропорційність: заходи відповідають рівню ризику.

Неушкодження: мета - зниження шкоди, а не зростання сесій за будь-яку ціну.

Людина в контурі: право на перегляд рішень і допомогу оператора.

14) Чек-лист запуску

Визначені проксі-ярлики залежності та цільові RG-KPI.
Вибрані фічі з урахуванням приватності, підключений фічестор.
Зібрано бейзлайн-скорер, перевірено калібрування.
Налаштована A/B-платформа і план експериментів.
Розроблено «сходи інтервенцій» і сценарії ескалації.
Включено моніторинг дрейфу і ретрейнінг.
Підготовлені пояснення моделі та звітність для аудиту.

15) Підсумок

Data Science дозволяє перетворити розрізнені події - ставки, депозити, паузи, нічні сесії - в своєчасні і точні сигнали ризику. У зв'язці з продуманими інтервенціями, калібруванням і етичними правилами це знижує шкоду, підвищує довіру і робить ігрову екосистему стійкішою - без зайвого тиску на гравців, у яких все в порядку.