Как оценить эффективность стратегии в долгосрочной игре

Эффективность стратегии на длинной дистанции — это не «повезло/не повезло за вечер», а стабильность показателей на множестве независимых отрезков при неизменных правилах. Ниже — рабочая рамка, которая переводит интуицию в измеримые метрики, реплицируемые тесты и честные выводы.

1) Сначала — цель и гипотеза

Определите конкретный критерий успеха и горизонт:

Цель: «минимизировать 90-й перцентиль просадки», «максимизировать медианный итог на 1000 спинов», «повысить шанс финиша ≥0%».
Гипотеза: «Стратегия А даёт меданный итог выше на ≥3 п.п. относительно стратегии Б на батче 1000 спинов».
Горизонт: длина батча (например, 1000 спинов) и число батчей (минимум 30–50 для устойчивых выводов).

Важно: если RTP<100% и внешнего преимущества нет, «эффективность» = более приемлемый профиль риска (просадки, квантили, шанс целей), а не чудесное изменение матожидания.

2) Правильные метрики «долга»

1. EV на батч (средний результат в ставках/%) — показывает направление.

2. Медиана и квантили результата (Q50/Q75/Q90) — как «обычно» и «плохо» (игрок живёт в медиане и хвостах).

3. Темп роста банка:

линейный: средний % за батч, лог-рост (средний `ln(Bt/Bt−1)`), релевантен, если фракция ставки зависит от банка.
4. Риск разорения: доля батчей с банкротством/стоп-лоссом.
5. Max drawdown (глубина и длительность) — медиана и 90-й перцентиль.
6. Частота «значимых событий» (≥×10, бонус) и интервалы ожидания (медиана, 75-й перцентиль) — для планирования.
7. Стабильность во времени: дисперсия метрик между батчами, коэффициент вариации.

Дополнительно для сравнения стратегий:

«Шарп-подобная» метрика: средний итог / стандартное отклонение итога на батч.
Келли-соответствие (если есть edge): насколько выбранная доля ставки отклоняется от Kelly; штраф за недо/переразмер.

3) Дизайн эксперимента: чтобы выводы были честными

Батчирование: делите игру на независимые окна одинаковой длины (например, по 1000 спинов).

A/A-тесты: перед A/B убедитесь, что при одинаковой стратегии система не «видит разницы» (ложные алармы).

Out-of-sample: настройка правил на одном наборе батчей, проверка — на другом (никаких «правил, появившихся после просмотра всех данных»).

Общие случайные числа (CRN) в симуляциях: стратегии сравниваются на одном и том же шуме.

Фиксированные правила выхода: тейк-профит/стоп-лосс, тайм-аут после L-streak — прописаны до начала теста.

4) Погрешность и объём: сколько «длины» нужно

Стандартная ошибка среднего по батчу убывает как (1/\sqrt{M}), где (M) — число батчей. Ориентиры:

30–50 батчей ≈ минимально, чтобы медиана/квантили стали «узнаваемыми».
Для тяжёлых хвостов (высокая волатильность, редкие крупные выигрыши) — 100+ батчей.
Для сравнения стратегий по разнице средних/медиан используйте бутстрэп или перестановочный тест, а не только t-тест.

5) Как сравнивать стратегии (А vs Б)

1. Метрика по батчу (итог %, max DD, шанс ≥0%).

2. Разница (\Delta = \text{метрика}_A - \text{метрика}_B) по каждому батчу (попарно, если CRN/парные батчи).

3. Бутстрэп 95% ДИ для (\Delta) и перестановочный тест (p-value) — устойчивая проверка без предположений о нормальности.

4. Клинически значимая дельта: заранее задайте порог, ниже которого разница «не стоит усложнения стратегии».

6) Контроль сдвигов и стабильности

Долгосрочно среда меняется: версии RTP, пул провайдера, акции/кешбэк, скорость спинов.

CUSUM/контрольные карты: следите за кумулятивной суммой отклонений метрики от её долгосрочного среднего, чтобы заметить дрейф.

Скользящие окна: отчёты по последним 20–30 батчам — раннее предупреждение.

Стратификация: отдельные ряды по слотам/волатильности/времени акции.

7) Денежная экономика: учитывайте всё

Эффективность стратегии — не только «спины». Включите:

Кешбэк/рейк-бек/миссии/турнирные баллы: пересчитывайте в «ставки» или %.
Стоимость времени/лимитов: более длинные сессии = выше экспозиция к хвостам.
Комиссии/конвертация валюты/лимиты провайдера: влияют на реальный EV и риск.

8) Келли и темп роста (когда есть преимущество)

Если у вас есть внешний edge (реальный положительный EV), целевая метрика — средний лог-рост банка.

Доля по Келли максимизирует лог-рост, но агрессивна; часто используют «половину Келли» для снижения волатильности.

При отрицательном ожидании оптимальная доля — 0: «эффективность» сводится к управлению риском/удовольствием, а не к прибыле.

9) Ловушки долгосрока

Переобучение («подогнали» правила под историю). Решение: out-of-sample и фиксация протокола заранее.

Множественные сравнения (тестируете десятки стратегий и выбираете «лучшую»). Решение: корректировки (Bonferroni/FDR) или «лига» с отбором и валидацией.

Смещение выжившего: видите только «дожившие» стратегии. Храните историю и не скрывайте закрытые.

Смена ставки/слота в батче: ломает сопоставимость.

Остановка «по удаче»: тест «до первого плюса» искажает распределение.

10) Мини-протокол оценки (можно вставить в регламент)

1. До старта: цель, метрики, длина батча, число батчей, правила входа/выхода, критерий значимости, что считается успехом.

2. Сбор: логи спинов (ставка, выплата, флаги ≥×10/бонус), итоги по батчу, max DD, длительность.

3. Аналитика: медиана и квантили итогов, риск разорения, интервалы ожидания, бутстрэп ДИ, перестановочные тесты для A/B.

4. Стабильность: CUSUM, скользящие окна, стратификация.

5. Отчёт: таблица метрик, ДИ, вывод «достаточно ли значима дельта», рекомендации по ставке и лимитам.

6. Решение: «В продуктив» / «Ещё 30 батчей данных» / «Архив».

11) «Паспорт стратегии (лонг-ран)» — готовый шаблон

Стратегия/версия правил: … / …

Слот/портфель и RTP-пул: …

Батч: 1000 спинов; батчей: …

EV (средний по батчам): …% [95% ДИ …–…]

Медианный итог (Q50) / IQR: …% / …–…%

Шанс целей: ≥0% …%; ≥+20% …%

Max drawdown: медиана … ставок; 90-й перцентиль …

Интервалы до ≥×10: медиана … спинов; 75-й перцентиль …

Риск разорения на батч: …%

Сравнение с базой (флэт): (\Delta)EV … п.п. [бутстрэп ДИ …–…; p-перестановки = …]

Стабильность: CUSUM — дрейф/нет; скользящее окно — ок.

Экономика с кешбэком: +… п.п. к EV (метод расчёта — …).

Решение: внедрить / донабрать / отклонить.

Примечания: ограничения данных, изменения среды.

12) Короткий чек-лист перед выводом «стратегия эффективна»

Есть ли out-of-sample подтверждение?

Показаны ли ДИ/квантили/просадки, а не только среднее?

Учитываются ли внешние бонусы/кешбэк?

Пройден ли A/A-тест (система не «видит» фантомных дельт)?

Нет ли множественного тестирования без корректировок?

Живёт ли стратегия на одинаковых условиях (RTP, ставки, лимиты)?

Итог: долгосрочная эффективность — это про дисциплину измерений. Фиксируйте цель, тестируйте на батчах, сравнивайте стратегии корректно (бутстрэп, перестановки, CRN), показывайте не только среднее, но и квантили, просадки и риск. Учитывайте кешбэк и дрейф среды, держите протокол неизменным. Так стратегия перестаёт быть набором ощущений и становится управляемым инструментом с понятным профилем риска на длинной дистанции.