Як оцінити ефективність стратегії в довгостроковій грі
Ефективність стратегії на довгій дистанції - це не «пощастило/не пощастило за вечір», а стабільність показників на безлічі незалежних відрізків при незмінних правилах. Нижче - робоча рамка, яка переводить інтуїцію в вимірювані метрики, репліковані тести і чесні висновки.
1) Спочатку - мета і гіпотеза
Визначте конкретний критерій успіху і горизонт:- Мета: «мінімізувати 90-й перцентиль осідання», «максимізувати медіанний підсумок на 1000 спинів», «підвищити шанс фінішу ≥0%».
- Гіпотеза: «Стратегія А дає меданний підсумок вище на ≥3 п. п. щодо стратегії Б на батчі 1000 спінів».
- Горизонт: довжина батча (наприклад, 1000 спінів) і число батчів (мінімум 30-50 для стійких виводів).
Важливо: якщо RTP <100% і зовнішньої переваги немає, «ефективність» = більш прийнятний профіль ризику (осідання, квантилі, шанс цілей), а не чудова зміна маточікування.
2) Правильні метрики «боргу»
1. EV на батч (середній результат в ставках/%) - показує напрямок.
2. Медіана і квантилі результату (Q50/Q75/Q90) - як «зазвичай» і «погано» (гравець живе в медіані і хвостах).
3. Темп зростання банку:- лінійний: середній% за батч, лог-зростання (середній'ln (Bt/Bt−1)'), релевантний, якщо фракція ставки залежить від банку.
- 4. Ризик розорення: частка батчів з банкрутством/стоп-лоссом.
- 5. Max drawdown (глибина і тривалість) - медіана і 90-й перцентиль.
- 6. Частота «значущих подій» (≥×10, бонус) та інтервали очікування (медіана, 75-й перцентиль) - для планування.
- 7. Стабільність у часі: дисперсія метрик між батчами, коефіцієнт варіації.
- «Шарп-подібна» метрика: середній підсумок/стандартне відхилення підсумку на батч.
- Келлі-відповідність (якщо є edge): наскільки вибрана частка ставки відхиляється від Kelly; штраф за недо/перерозмір.
3) Дизайн експерименту: щоб висновки були чесними
Батчування: діліть гру на незалежні вікна однакової довжини (наприклад, по 1000 спінів).
A/A-тести: перед A/B переконайтеся, що при однаковій стратегії система не «бачить різниці» (помилкові аларми).
Out-of-sample: налаштування правил на одному наборі батчів, перевірка - на іншому (ніяких «правил, що з'явилися після перегляду всіх даних»).
Загальні випадкові числа (CRN) в симуляціях: стратегії порівнюються на одному і тому ж шумі.
Фіксовані правила виходу: тейк-профіт/стоп-лосс, тайм-аут після L-streak - прописані до початку тесту.
4) Похибка і обсяг: скільки «довжини» потрібно
Стандартна помилка середнього по батчу убуває як (1/\sqrt {M}), де (M) - число батчів. Орієнтири:- 30-50 батчів ≈ мінімально, щоб медіана/квантилі стали «впізнаваними».
- Для важких хвостів (висока волатильність, рідкісні великі виграші) - 100 + батчів.
- Для порівняння стратегій з різниці середніх/медіан використовуйте бутстреп або перестановочний тест, а не тільки t-тест.
5) Як порівнювати стратегії (А vs Б)
1. Метрика по батчу (підсумок%, max DD, шанс ≥0%).
2. Різниця (\Delta =\text {метрика} _ A -\text {метрика} _ B) по кожному батчу (попарно, якщо CRN/парні батчі).
3. Бутстреп 95% ДІ для (\Delta) і перестановочний тест (p-value) - стійка перевірка без припущень про нормальність.
4. Клінічно значуща дельта: заздалегідь задайте поріг, нижче якого різниця «не варта ускладнення стратегії».
6) Контроль зрушень і стабільності
Довгостроково середовище змінюється: версії RTP, пул провайдера, акції/кешбек, швидкість спінів.
CUSUM/контрольні карти: слідкуйте за кумулятивною сумою відхилень метрики від її довгострокового середнього, щоб помітити дрейф.
Ковзаючі вікна: звіти за останніми 20-30 батчами - раннє попередження.
Стратифікація: окремі ряди по слотах/волатильності/часу акції.
7) Грошова економіка: враховуйте все
Ефективність стратегії - не тільки «спини». Увімкніть:- Кешбек/рейк-бек/місії/турнірні бали: перераховуйте в «ставки» або%.
- Вартість часу/лімітів: довші сесії = вище експозиція до хвостів.
- Комісії/конвертація валюти/ліміти провайдера: впливають на реальний EV і ризик.
8) Келлі і темп зростання (коли є перевага)
Якщо у вас є зовнішній edge (реальний позитивний EV), цільова метрика - середній лог-ріст банку.
Частка по Келлі максимізує лог-зростання, але агресивна; часто використовують «половину Келлі» для зниження волатильності.
При негативному очікуванні оптимальна частка - 0: «ефективність» зводиться до управління ризиком/задоволенням, а не до прибуття.
9) Пастки довгосрока
Перенавчання («підігнали» правила під історію). Рішення: out-of-sample і фіксація протоколу заздалегідь.
Множинні порівняння (тестуєте десятки стратегій і вибираєте «кращу»). Рішення: коригування (Bonferroni/FDR) або «ліга» з відбором і валідацією.
Зміщення вцілілого: бачите тільки «дожили» стратегії. Зберігайте історію і не приховуйте закриті.
Зміна ставки/слота в батчі: ламає порівнянність.
Зупинка «за удачею»: тест «до першого плюса» спотворює розподіл.
10) Міні-протокол оцінки (можна вставити в регламент)
1. До старту: мета, метрики, довжина батча, число батчів, правила входу/виходу, критерій значущості, що вважається успіхом.
2. Збір: логи спінів (ставка, виплата, прапори ≥×10/bonus), підсумки по батчу, max DD, тривалість.
3. Аналітика: медіана і квантилі підсумків, ризик розорення, інтервали очікування, бутстреп ДІ, перестановочні тести для A/B.
4. Стабільність: CUSUM, ковзні вікна, стратифікація.
5. Звіт: таблиця метрик, ДІ, висновок «чи достатньо значуща дельта», рекомендації по ставці і лімітам.
6. Рішення: «У продуктив »/« Ще 30 батчів даних »/« Архів».
11) «Паспорт стратегії (лонг-ран)» - готовий шаблон
Стратегія/версія правил: … / …
Слот/портфель і RTP-пул: …
Батч: 1000 спінів; батчей: …
EV (середній по батчах): ...% [95% ДІ... -...]
Медіанний підсумок (Q50 )/IQR: …% / …–…%
Шанс цілей: ≥0% …%; ≥+20% …%
Max drawdown: медіана... ставок; 90-й перцентиль...
Інтервали до ≥×10: медіана... спінів; 75-й перцентиль...
Ризик розорення на батч: …%
Порівняння з базою (флет): (\Delta)EV … п.п. [бутстреп ДІ... -...; p-перестановки =...]
Стабільність: CUSUM - дрейф/ні; ковзне вікно - бл.
Економіка з кешбеком: +… п. п. до EV (метод розрахунку -...).
Рішення: впровадити/донабрать/відхилити.
Примітки: обмеження даних, зміни середовища.
12) Короткий чек-лист перед виведенням «стратегія ефективна»
Чи є out-of-sample підтвердження?
Чи показані ДІ/квантилі/осідання, а не тільки середнє?
Чи враховуються зовнішні бонуси/кешбек?
Чи пройдено A/A-тест (система не «бачить» фантомних дельт)?
Чи немає множинного тестування без коригувань?
Чи живе стратегія на однакових умовах (RTP, ставки, ліміти)?
Підсумок: довгострокова ефективність - це про дисципліну вимірювань. Фіксуйте мету, тестуйте на батчах, порівнюйте стратегії коректно (бутстреп, перестановки, CRN), показуйте не тільки середнє, але і квантилі, осідання і ризик. Враховуйте кешбек і дрейф середовища, тримайте протокол незмінним. Так стратегія перестає бути набором відчуттів і стає керованим інструментом зі зрозумілим профілем ризику на довгій дистанції.
