چگونگی ارزیابی اثربخشی یک استراتژی در یک بازی بلند مدت

اثربخشی استراتژی در یک فاصله طولانی «خوش شانسی/بدبختی در شب» نیست، بلکه ثبات شاخص ها در بسیاری از بخش های مستقل با قوانین بدون تغییر است. در زیر یک چارچوب کاری است که شهود را به معیارهای قابل اندازه گیری، تست های قابل تکرار و نتیجه گیری صادقانه ترجمه می کند.

1) اول - هدف و فرضیه

تعریف معیارهای خاص موفقیت و افق:

هدف: «به حداقل رساندن درصد 90 از افت»، «به حداکثر رساندن نتیجه متوسط در هر 1000 چرخش»، «افزایش احتمال به پایان رساندن ≥0٪».
فرضیه: «استراتژی A با ≥3 pp نسبت به استراتژی B در یک دسته از 1000 چرخش، نتیجه کندتر می دهد».
افق: طول بوچ (به عنوان مثال 1000 چرخش) و تعداد دسته (حداقل 30-50 برای منجر پایدار).

مهم: اگر RTP است <100% و هیچ مزیت خارجی وجود دارد, «بهره وری» = مشخصات خطر قابل قبول تر (drawdown, چندک, احتمال اهداف), به جای یک تغییر معجزه آسا در انتظار.

2) معیارهای «بدهی» صحیح

1. EV در هر دسته (نتیجه متوسط در شرط/٪) - جهت را نشان می دهد.

2. میانه و چندک از نتیجه (Q50/Q75/Q90) به عنوان «معمول» و «بد» (بازیکن در میانه و دم زندگی می کند).

3. نرخ رشد بانکی:

خطی: به طور متوسط٪ در هر دسته، ورود به سیستم رشد (به طور متوسط 'ln (Bt/Bt − 1)')، مربوط به اگر کسری نرخ بستگی به بانک.
4. خطر خراب شدن: سهم دسته با ورشکستگی/توقف ضرر.
5. حداکثر افت - متوسط و 90 درصد.
6. فراوانی «رویدادهای مهم» (≥×10، پاداش) و فواصل انتظار (متوسط، صدک 75) - برای برنامه ریزی.
7. پایداری در طول زمان: واریانس معیارهای بین دسته ها، ضریب تنوع.

برای مقایسه استراتژی ها:

متریک شارپ مانند: میانگین انحراف کل/استاندارد کل در هر دسته.
Kelly-matching (اگر یک لبه وجود دارد): چقدر سهم پیشنهاد انتخاب شده از Kelly منحرف می شود ؛ مجازات برای زیر/بیش از اندازه گیری.

3) طراحی آزمایش: نتیجه گیری صادقانه

Butching: بازی را به پنجره های مستقل با طول برابر تقسیم کنید (به عنوان مثال 1000 تومان برای هر نفر)

تست A/A: قبل از A/B مطمئن شوید که با همان استراتژی سیستم «تفاوت را نمی بیند» (آلارم کاذب).

خارج از نمونه: تنظیم قوانین در یک مجموعه از دسته ها، چک کردن دیگر (بدون «قوانین که پس از مشاهده تمام داده ها ظاهر شد»).

اعداد تصادفی رایج (CRNs) در شبیه سازی ها: استراتژی ها با همان نویز مقایسه می شوند.

قوانین خروج ثابت: سود teik/توقف از دست دادن، زمان پس از L-رگه - قبل از آزمون تجویز می شود.

4) خطا و حجم: چقدر «طول» مورد نیاز است

خطای متوسط دسته استاندارد به عنوان (1/\sqrt {M}) کاهش می یابد، جایی که (M) تعداد دسته ها است. نشانه ها:

30-50 دسته ≈ حداقل به طوری که متوسط/چندک تبدیل به «قابل تشخیص».
برای دم های سنگین (نوسانات بالا، برنده های بزرگ نادر) - 100 + دسته.
برای مقایسه استراتژی ها با تفاوت میانگین/متوسط، از یک آزمون بوت استرپ یا جایگشت استفاده کنید، نه فقط یک آزمون t.

5) چگونه استراتژی ها را مقایسه کنید (A در مقابل B)

1. متریک دسته (کل٪، حداکثر DD، شانس ≥0٪).

2. تفاوت (\Delta =\text {metric} _ A -\text {metric} _ B) برای هر دسته (در جفت اگر دسته CRN/زوج).

3. Bootstrap 95% CI برای (\Delta) و آزمون جایگشت (p-value) - بررسی پایدار بدون فرض در مورد نرمال بودن.

4. دلتا بالینی مرتبط: از پیش تعیین شده آستانه زیر که تفاوت است «ارزش پیچیدگی استراتژی نیست».

6) کنترل برشی و پایداری

تغییرات محیطی بلند مدت: نسخه های RTP، استخر ارائه دهنده، سهام/بازپرداخت، سرعت چرخش.

کارت های CUSUM/کنترل: مجموع تجمعی انحراف متریک از میانگین بلند مدت خود را برای توجه به رانش.

پنجره های کشویی: گزارش در آخرین 20-30 دسته - هشدار زود هنگام.

طبقه بندی: سری های فردی توسط اسلات/نوسانات/زمان سهام.

7) اقتصاد پولی: همه را در نظر بگیرید

اثربخشی استراتژی نه تنها «پشت» است. "شامل:

نقاط Cashback/rake-back/missions/tournament: محاسبه مجدد به «شرط» یا٪.
هزینه زمان/محدودیت: جلسات طولانی تر = قرار گرفتن در معرض بیشتر دم.
هزینه/تبدیل ارز/محدودیت ارائه دهنده: بر EV واقعی و خطر تاثیر می گذارد.

8) کلی و نرخ رشد (زمانی که یک مزیت وجود دارد)

اگر شما یک لبه خارجی (EV مثبت واقعی) داشته باشید، متریک هدف، میانگین رشد ورودی بانک است.

سهم کلی حداکثر رشد ورود به سیستم، اما تهاجمی است ؛ اغلب از «نیمه کلی» برای کاهش نوسانات استفاده می شود.

با انتظارات منفی، سهم بهینه 0 است: «بهره وری» به مدیریت ریسک/لذت کاهش می یابد، نه سود.

9) تله های بلند مدت

بازآموزی («تنظیم» قوانین به تاریخ). راه حل: خارج از نمونه و رفع پروتکل در پیشبرد.

مقایسه های چندگانه (آزمایش ده ها استراتژی و انتخاب «بهترین»). راه حل: تنظیمات (Bonferroni/FDR) یا «لیگ» با انتخاب و اعتبار سنجی.

جابجایی بازماندگان: فقط استراتژی های «زنده ماندن» را ببینید. تاریخ را نگه دارید و موارد بسته را پنهان نکنید.

تغییر نرخ/اسلات در دسته: قابل مقایسه است.

توقف «با شانس»: آزمون «به اول به علاوه» تحریف توزیع.

10) پروتکل ارزیابی کوتاه (می تواند به مقررات وارد شود)

1. قبل از شروع: هدف، معیارها، طول دسته، تعداد دسته ها، قوانین ورود/خروج، معیار اهمیت، که موفقیت در نظر گرفته می شود.

2. مجموعه: سیاهههای مربوط چرخش (شرط بندی، پرداخت، پرچم های ≥×10/bonus)، نتایج دسته ای، حداکثر DD، مدت زمان.

3. تجزیه و تحلیل: متوسط و چندتایی از کل، خطر خراب شدن، فواصل انتظار، CI های بوت استرپ، آزمون های جایگشت برای A/B.

4. پایداری: CUSUM، پنجره های کشویی، طبقه بندی.

5. گزارش: جدول معیارها، CI، نتیجه گیری «آیا دلتا به اندازه کافی قابل توجه است»، توصیه هایی در مورد نرخ و محدودیت ها.

6. راه حل: «در تولید «/» 30 دسته دیگر از داده ها «/» بایگانی ».

11) «گذرنامه استراتژی (بلند مدت)» - قالب آماده

نسخه استراتژی/قانون: .../...

اسلات/کیف و استخر RTP:...

دسته: 1000 چرخش ؛ بوته ها:...

EV (میانگین ضربه زنی): ...٪ [95٪ CI... -...]

میانگین کل (Q50 )/IQR: ... ٪/... -...%

شانس هدف: ≥0٪...٪ ؛ ≥+20٪...٪

حداکثر افت: متوسط... نرخ ها ؛ 90 درصد...

فواصل قبل از ≥×10: متوسط... می چرخد ؛ 75 درصد...

خطر خراب شدن در هر دسته: ...٪

مقایسه پایه (تخت): (\دلتا) EV... pp [بوت استرپ DI... -...; p-permutations =...]

پایداری: CUSUM - رانش/نه ؛ پنجره کشویی - تقریبا.

اقتصاد نقدی: +... PP به EV (روش محاسبه -...).

راه حل: پیاده سازی/اضافه کردن/رد.

یادداشت: محدودیت داده ها، تغییرات محیطی.

12) یک چک لیست کوتاه قبل از نتیجه گیری «استراتژی موثر است»

آیا تایید خارج از نمونه وجود دارد ؟

آیا CIs/چندها/drawdowns نشان داده شده است، نه فقط به طور متوسط ؟

آیا پاداش های خارجی/cashback شمارش?

آیا آزمون A/A گذرانده شده است (سیستم دلتای فانتوم را نمی بیند) ؟

آیا آزمایش های متعدد بدون تنظیمات وجود دارد ؟
آیا استراتژی در شرایط مشابه (RTP، نرخ ها، محدودیت ها) زندگی می کند ؟

خط پایین: بهره وری دراز مدت در مورد نظم و انضباط اندازه گیری است. ثابت هدف، تست بر روی دسته، مقایسه استراتژی به درستی (خود راه انداز، جایگشت، CRN)، نشان می دهد نه تنها به طور متوسط، بلکه quantles، drawdowns و خطر است. پول نقد و رانش محیط را در نظر بگیرید، پروتکل را بدون تغییر نگه دارید. بنابراین استراتژی متوقف می شود مجموعه ای از احساسات و تبدیل به یک ابزار قابل کنترل با مشخصات ریسک قابل درک در طول راه طولانی است.