Як оцінити ефективність стратегії в довгостроковій грі

Ефективність стратегії на довгій дистанції - це не «пощастило/не пощастило за вечір», а стабільність показників на безлічі незалежних відрізків при незмінних правилах. Нижче - робоча рамка, яка переводить інтуїцію в вимірювані метрики, репліковані тести і чесні висновки.

1) Спочатку - мета і гіпотеза

Визначте конкретний критерій успіху і горизонт:

Мета: «мінімізувати 90-й перцентиль осідання», «максимізувати медіанний підсумок на 1000 спинів», «підвищити шанс фінішу ≥0%».
Гіпотеза: «Стратегія А дає меданний підсумок вище на ≥3 п. п. щодо стратегії Б на батчі 1000 спінів».
Горизонт: довжина батча (наприклад, 1000 спінів) і число батчів (мінімум 30-50 для стійких виводів).

Важливо: якщо RTP <100% і зовнішньої переваги немає, «ефективність» = більш прийнятний профіль ризику (осідання, квантилі, шанс цілей), а не чудова зміна маточікування.

2) Правильні метрики «боргу»

1. EV на батч (середній результат в ставках/%) - показує напрямок.

2. Медіана і квантилі результату (Q50/Q75/Q90) - як «зазвичай» і «погано» (гравець живе в медіані і хвостах).

3. Темп зростання банку:

лінійний: середній% за батч, лог-зростання (середній'ln (Bt/Bt−1)'), релевантний, якщо фракція ставки залежить від банку.
4. Ризик розорення: частка батчів з банкрутством/стоп-лоссом.
5. Max drawdown (глибина і тривалість) - медіана і 90-й перцентиль.
6. Частота «значущих подій» (≥×10, бонус) та інтервали очікування (медіана, 75-й перцентиль) - для планування.
7. Стабільність у часі: дисперсія метрик між батчами, коефіцієнт варіації.

Додатково для порівняння стратегій:

«Шарп-подібна» метрика: середній підсумок/стандартне відхилення підсумку на батч.
Келлі-відповідність (якщо є edge): наскільки вибрана частка ставки відхиляється від Kelly; штраф за недо/перерозмір.

3) Дизайн експерименту: щоб висновки були чесними

Батчування: діліть гру на незалежні вікна однакової довжини (наприклад, по 1000 спінів).

A/A-тести: перед A/B переконайтеся, що при однаковій стратегії система не «бачить різниці» (помилкові аларми).

Out-of-sample: налаштування правил на одному наборі батчів, перевірка - на іншому (ніяких «правил, що з'явилися після перегляду всіх даних»).

Загальні випадкові числа (CRN) в симуляціях: стратегії порівнюються на одному і тому ж шумі.

Фіксовані правила виходу: тейк-профіт/стоп-лосс, тайм-аут після L-streak - прописані до початку тесту.

4) Похибка і обсяг: скільки «довжини» потрібно

Стандартна помилка середнього по батчу убуває як (1/\sqrt {M}), де (M) - число батчів. Орієнтири:

30-50 батчів ≈ мінімально, щоб медіана/квантилі стали «впізнаваними».
Для важких хвостів (висока волатильність, рідкісні великі виграші) - 100 + батчів.
Для порівняння стратегій з різниці середніх/медіан використовуйте бутстреп або перестановочний тест, а не тільки t-тест.

5) Як порівнювати стратегії (А vs Б)

1. Метрика по батчу (підсумок%, max DD, шанс ≥0%).

2. Різниця (\Delta =\text {метрика} _ A -\text {метрика} _ B) по кожному батчу (попарно, якщо CRN/парні батчі).

3. Бутстреп 95% ДІ для (\Delta) і перестановочний тест (p-value) - стійка перевірка без припущень про нормальність.

4. Клінічно значуща дельта: заздалегідь задайте поріг, нижче якого різниця «не варта ускладнення стратегії».

6) Контроль зрушень і стабільності

Довгостроково середовище змінюється: версії RTP, пул провайдера, акції/кешбек, швидкість спінів.

CUSUM/контрольні карти: слідкуйте за кумулятивною сумою відхилень метрики від її довгострокового середнього, щоб помітити дрейф.

Ковзаючі вікна: звіти за останніми 20-30 батчами - раннє попередження.

Стратифікація: окремі ряди по слотах/волатильності/часу акції.

7) Грошова економіка: враховуйте все

Ефективність стратегії - не тільки «спини». Увімкніть:

Кешбек/рейк-бек/місії/турнірні бали: перераховуйте в «ставки» або%.
Вартість часу/лімітів: довші сесії = вище експозиція до хвостів.
Комісії/конвертація валюти/ліміти провайдера: впливають на реальний EV і ризик.

8) Келлі і темп зростання (коли є перевага)

Якщо у вас є зовнішній edge (реальний позитивний EV), цільова метрика - середній лог-ріст банку.

Частка по Келлі максимізує лог-зростання, але агресивна; часто використовують «половину Келлі» для зниження волатильності.

При негативному очікуванні оптимальна частка - 0: «ефективність» зводиться до управління ризиком/задоволенням, а не до прибуття.

9) Пастки довгосрока

Перенавчання («підігнали» правила під історію). Рішення: out-of-sample і фіксація протоколу заздалегідь.

Множинні порівняння (тестуєте десятки стратегій і вибираєте «кращу»). Рішення: коригування (Bonferroni/FDR) або «ліга» з відбором і валідацією.

Зміщення вцілілого: бачите тільки «дожили» стратегії. Зберігайте історію і не приховуйте закриті.

Зміна ставки/слота в батчі: ламає порівнянність.

Зупинка «за удачею»: тест «до першого плюса» спотворює розподіл.

10) Міні-протокол оцінки (можна вставити в регламент)

1. До старту: мета, метрики, довжина батча, число батчів, правила входу/виходу, критерій значущості, що вважається успіхом.

2. Збір: логи спінів (ставка, виплата, прапори ≥×10/bonus), підсумки по батчу, max DD, тривалість.

3. Аналітика: медіана і квантилі підсумків, ризик розорення, інтервали очікування, бутстреп ДІ, перестановочні тести для A/B.

4. Стабільність: CUSUM, ковзні вікна, стратифікація.

5. Звіт: таблиця метрик, ДІ, висновок «чи достатньо значуща дельта», рекомендації по ставці і лімітам.

6. Рішення: «У продуктив »/« Ще 30 батчів даних »/« Архів».

11) «Паспорт стратегії (лонг-ран)» - готовий шаблон

Стратегія/версія правил: … / …

Слот/портфель і RTP-пул: …

Батч: 1000 спінів; батчей: …

EV (середній по батчах): ...% [95% ДІ... -...]

Медіанний підсумок (Q50 )/IQR: …% / …–…%

Шанс цілей: ≥0% …%; ≥+20% …%

Max drawdown: медіана... ставок; 90-й перцентиль...

Інтервали до ≥×10: медіана... спінів; 75-й перцентиль...

Ризик розорення на батч: …%

Порівняння з базою (флет): (\Delta)EV … п.п. [бутстреп ДІ... -...; p-перестановки =...]

Стабільність: CUSUM - дрейф/ні; ковзне вікно - бл.

Економіка з кешбеком: +… п. п. до EV (метод розрахунку -...).

Рішення: впровадити/донабрать/відхилити.

Примітки: обмеження даних, зміни середовища.

12) Короткий чек-лист перед виведенням «стратегія ефективна»

Чи є out-of-sample підтвердження?

Чи показані ДІ/квантилі/осідання, а не тільки середнє?

Чи враховуються зовнішні бонуси/кешбек?

Чи пройдено A/A-тест (система не «бачить» фантомних дельт)?

Чи немає множинного тестування без коригувань?

Чи живе стратегія на однакових умовах (RTP, ставки, ліміти)?

Підсумок: довгострокова ефективність - це про дисципліну вимірювань. Фіксуйте мету, тестуйте на батчах, порівнюйте стратегії коректно (бутстреп, перестановки, CRN), показуйте не тільки середнє, але і квантилі, осідання і ризик. Враховуйте кешбек і дрейф середовища, тримайте протокол незмінним. Так стратегія перестає бути набором відчуттів і стає керованим інструментом зі зрозумілим профілем ризику на довгій дистанції.