Как оценить эффективность стратегии в долгосрочной игре
Эффективность стратегии на длинной дистанции — это не «повезло/не повезло за вечер», а стабильность показателей на множестве независимых отрезков при неизменных правилах. Ниже — рабочая рамка, которая переводит интуицию в измеримые метрики, реплицируемые тесты и честные выводы.
1) Сначала — цель и гипотеза
Определите конкретный критерий успеха и горизонт:- Цель: «минимизировать 90-й перцентиль просадки», «максимизировать медианный итог на 1000 спинов», «повысить шанс финиша ≥0%».
- Гипотеза: «Стратегия А даёт меданный итог выше на ≥3 п.п. относительно стратегии Б на батче 1000 спинов».
- Горизонт: длина батча (например, 1000 спинов) и число батчей (минимум 30–50 для устойчивых выводов).
Важно: если RTP<100% и внешнего преимущества нет, «эффективность» = более приемлемый профиль риска (просадки, квантили, шанс целей), а не чудесное изменение матожидания.
2) Правильные метрики «долга»
1. EV на батч (средний результат в ставках/%) — показывает направление.
2. Медиана и квантили результата (Q50/Q75/Q90) — как «обычно» и «плохо» (игрок живёт в медиане и хвостах).
3. Темп роста банка:- линейный: средний % за батч, лог-рост (средний `ln(Bt/Bt−1)`), релевантен, если фракция ставки зависит от банка.
- 4. Риск разорения: доля батчей с банкротством/стоп-лоссом.
- 5. Max drawdown (глубина и длительность) — медиана и 90-й перцентиль.
- 6. Частота «значимых событий» (≥×10, бонус) и интервалы ожидания (медиана, 75-й перцентиль) — для планирования.
- 7. Стабильность во времени: дисперсия метрик между батчами, коэффициент вариации.
- «Шарп-подобная» метрика: средний итог / стандартное отклонение итога на батч.
- Келли-соответствие (если есть edge): насколько выбранная доля ставки отклоняется от Kelly; штраф за недо/переразмер.
3) Дизайн эксперимента: чтобы выводы были честными
Батчирование: делите игру на независимые окна одинаковой длины (например, по 1000 спинов).
A/A-тесты: перед A/B убедитесь, что при одинаковой стратегии система не «видит разницы» (ложные алармы).
Out-of-sample: настройка правил на одном наборе батчей, проверка — на другом (никаких «правил, появившихся после просмотра всех данных»).
Общие случайные числа (CRN) в симуляциях: стратегии сравниваются на одном и том же шуме.
Фиксированные правила выхода: тейк-профит/стоп-лосс, тайм-аут после L-streak — прописаны до начала теста.
4) Погрешность и объём: сколько «длины» нужно
Стандартная ошибка среднего по батчу убывает как (1/\sqrt{M}), где (M) — число батчей. Ориентиры:- 30–50 батчей ≈ минимально, чтобы медиана/квантили стали «узнаваемыми».
- Для тяжёлых хвостов (высокая волатильность, редкие крупные выигрыши) — 100+ батчей.
- Для сравнения стратегий по разнице средних/медиан используйте бутстрэп или перестановочный тест, а не только t-тест.
5) Как сравнивать стратегии (А vs Б)
1. Метрика по батчу (итог %, max DD, шанс ≥0%).
2. Разница (\Delta = \text{метрика}_A - \text{метрика}_B) по каждому батчу (попарно, если CRN/парные батчи).
3. Бутстрэп 95% ДИ для (\Delta) и перестановочный тест (p-value) — устойчивая проверка без предположений о нормальности.
4. Клинически значимая дельта: заранее задайте порог, ниже которого разница «не стоит усложнения стратегии».
6) Контроль сдвигов и стабильности
Долгосрочно среда меняется: версии RTP, пул провайдера, акции/кешбэк, скорость спинов.
CUSUM/контрольные карты: следите за кумулятивной суммой отклонений метрики от её долгосрочного среднего, чтобы заметить дрейф.
Скользящие окна: отчёты по последним 20–30 батчам — раннее предупреждение.
Стратификация: отдельные ряды по слотам/волатильности/времени акции.
7) Денежная экономика: учитывайте всё
Эффективность стратегии — не только «спины». Включите:- Кешбэк/рейк-бек/миссии/турнирные баллы: пересчитывайте в «ставки» или %.
- Стоимость времени/лимитов: более длинные сессии = выше экспозиция к хвостам.
- Комиссии/конвертация валюты/лимиты провайдера: влияют на реальный EV и риск.
8) Келли и темп роста (когда есть преимущество)
Если у вас есть внешний edge (реальный положительный EV), целевая метрика — средний лог-рост банка.
Доля по Келли максимизирует лог-рост, но агрессивна; часто используют «половину Келли» для снижения волатильности.
При отрицательном ожидании оптимальная доля — 0: «эффективность» сводится к управлению риском/удовольствием, а не к прибыле.
9) Ловушки долгосрока
Переобучение («подогнали» правила под историю). Решение: out-of-sample и фиксация протокола заранее.
Множественные сравнения (тестируете десятки стратегий и выбираете «лучшую»). Решение: корректировки (Bonferroni/FDR) или «лига» с отбором и валидацией.
Смещение выжившего: видите только «дожившие» стратегии. Храните историю и не скрывайте закрытые.
Смена ставки/слота в батче: ломает сопоставимость.
Остановка «по удаче»: тест «до первого плюса» искажает распределение.
10) Мини-протокол оценки (можно вставить в регламент)
1. До старта: цель, метрики, длина батча, число батчей, правила входа/выхода, критерий значимости, что считается успехом.
2. Сбор: логи спинов (ставка, выплата, флаги ≥×10/бонус), итоги по батчу, max DD, длительность.
3. Аналитика: медиана и квантили итогов, риск разорения, интервалы ожидания, бутстрэп ДИ, перестановочные тесты для A/B.
4. Стабильность: CUSUM, скользящие окна, стратификация.
5. Отчёт: таблица метрик, ДИ, вывод «достаточно ли значима дельта», рекомендации по ставке и лимитам.
6. Решение: «В продуктив» / «Ещё 30 батчей данных» / «Архив».
11) «Паспорт стратегии (лонг-ран)» — готовый шаблон
Стратегия/версия правил: … / …
Слот/портфель и RTP-пул: …
Батч: 1000 спинов; батчей: …
EV (средний по батчам): …% [95% ДИ …–…]
Медианный итог (Q50) / IQR: …% / …–…%
Шанс целей: ≥0% …%; ≥+20% …%
Max drawdown: медиана … ставок; 90-й перцентиль …
Интервалы до ≥×10: медиана … спинов; 75-й перцентиль …
Риск разорения на батч: …%
Сравнение с базой (флэт): (\Delta)EV … п.п. [бутстрэп ДИ …–…; p-перестановки = …]
Стабильность: CUSUM — дрейф/нет; скользящее окно — ок.
Экономика с кешбэком: +… п.п. к EV (метод расчёта — …).
Решение: внедрить / донабрать / отклонить.
Примечания: ограничения данных, изменения среды.
12) Короткий чек-лист перед выводом «стратегия эффективна»
Есть ли out-of-sample подтверждение?
Показаны ли ДИ/квантили/просадки, а не только среднее?
Учитываются ли внешние бонусы/кешбэк?
Пройден ли A/A-тест (система не «видит» фантомных дельт)?
Нет ли множественного тестирования без корректировок?
Живёт ли стратегия на одинаковых условиях (RTP, ставки, лимиты)?
Итог: долгосрочная эффективность — это про дисциплину измерений. Фиксируйте цель, тестируйте на батчах, сравнивайте стратегии корректно (бутстрэп, перестановки, CRN), показывайте не только среднее, но и квантили, просадки и риск. Учитывайте кешбэк и дрейф среды, держите протокол неизменным. Так стратегия перестаёт быть набором ощущений и становится управляемым инструментом с понятным профилем риска на длинной дистанции.
