如何评估策略在长期游戏中的有效性
长距离策略的有效性不是"晚上运气/运气不好",而是在不变的规则下在许多独立拉伸上的指标稳定性。下方是一个工作框架,可将直觉转化为可测量的度量,可复制的测试和诚实的结论。
1)首先是目标和假设
定义特定的成功标准和视野:- 目标:"最大程度地减少第90次沉降","最大化每1000次旋转的中位数总数","提高≥0%的完成机会"。
- 假设:"策略A相对于1000个自旋的战斗B策略,给出较慢的总数≥3个百分点。"
- 地平线:batch的长度(例如1000个自旋)和batch的数量(稳定引线的最小30-50)。
重要的是:如果RTP <100%,并且没有外部优势,则"效率"=更可接受的风险特征(缩小,分量,目标概率),而不是奇迹般的改变。
2)正确的"债务"指标"
1.EV at butch(平均费率/%)-显示方向。
2.结果的中位数和分数(Q50/Q75/Q90)与"正常"和"不良"(玩家生活在中位数和尾巴)一样。
3.银行的增长率为:- 线性:平均每桶百分比、日志增长(平均'ln (Bt/Bt − 1))',如果利率分数取决于银行,则相关。
- 4.破产风险:破产战/停止麋鹿的份额。
- 5.Max drawdown(深度和持续时间)是中位数和第90 percentile。
- 6."重大事件"(≥×10,奖金)的频率和等待间隔(中位数,第75 percentil)用于计划。
- 7.时间稳定性:蝙蝠之间的度量方差,变异系数。
- "类似夏普"的度量:平均总和/标准差每个战斗。
- 凯利合规性(如果有边缘):选择的投注份额与凯利的偏差程度;罚款/重复罚款。
3)实验设计: 使结论诚实
战斗:将游戏分为相同长度的独立窗口(例如,1000个旋转)。
A/A测试:在A/B之前,确保在相同的策略下,系统没有"看到差异"(假警报)。
示例外:在单个战斗集上设置规则,在其他战斗集上进行验证(查看所有数据后未出现任何规则)。
模拟中的通用随机数(CRN):策略在相同的噪音上进行比较。
固定的退出规则:take-profit/停止麋鹿,L-streak后超时-在测试开始之前规定。
4)误差和体积: 需要多少"长度"
标准的batch平均误差为(1/\sqrt {M}),其中(M)为batch数。地标:- 30-50的战斗≈最小的,因此中位/分位数变得"可识别"。
- 对于沉重的尾巴(高波动,罕见的重大胜利)是100多次战斗。
- 要比较中位数/中位数差异策略,请使用bootstrap或排列测试,而不仅仅是t测试。
5)如何比较策略(A vs B)
1.Batch度量(总数%,max DD,机会≥0%)。
2.差值(\Delta =\text {m度量}_A -\text {m度量}_B)适用于每个butch(如果CRN/成对的 butch)。
3.Butstrap 95%的DI for (\Delta)和重新排列测试(p-value)是无常态假设的持续验证。
4.临床上重要的三角洲:提前设定一个阈值,低于该阈值,差值"不值得使策略复杂化"。
6)剪切和稳定控制
从长远来看,环境正在发生变化:RTP版本,提供商池,股票/现金返还,旋转速度。
CUSUM/控制卡:观察指标与其长期平均值的累积偏差总和,以发现漂移。
滑动窗口:关于最后20-30个蹦床的报告是预警。
分层:按插槽/波动/股票时间划分的单独行。
7)货币经济: 考虑一切
该策略的有效性不仅仅是"背部"。包括:- Keshback/rake back/mission/锦标赛积分:重新计算为"下注"或百分比。
- 时间/限制成本:较长的会话=上面的曝光到尾巴。
- 费用/货币转换/供应商限额:影响实际电动汽车和风险。
8)凯利和增长速度(当有优势时)
如果您有一个外部边缘(真正的正电动汽车),目标指标是银行的平均日志增长。
凯利(Kelly)的股份最大化了日志增长,但具有侵略性。经常使用"一半凯利"来降低波动性。
在负预期中,最佳份额-0:"效率"归结为风险/愉悦管理而不是利润。
9)长岩陷阱
再培训(将规则"加固"为历史)。解决方案:标示出来并提前提交协议。
多重比较(测试数十种策略并选择"最佳")。解决方案:调整(Bonferroni/FDR)或具有选择和验证的"联赛"。
幸存者转移:只看到"活着"的策略。保存故事,不要隐藏封闭的故事。
在战斗中改变投注/插槽:打破可比性。
停止"运气":测试"到第一个加分"会扭曲分布。
10)小型评估协议(可插入法规)
1.开始之前:目标,度量,蹦床长度,蹦床数,进出/退出规则,重要性标准,这被认为是成功的。
2.收集:旋转记录(投注,付款,≥×10/bonus标志),batch总数,max DD,持续时间。
3.分析:结果中位数和分数,破坏风险,等待间隔,计量吸入器,A/B排列测试。
4.稳定性:CUSUM,滑动窗口,分层。
5.报告:度量表,计量,"三角洲是否足够重要"的结论,关于利率和限制的建议。
6.解决方桉:"; B";/"另外 30个数据战"/"档桉"。
11)"策略护照(long-run)"-现成的模板
策略/规则版本: ……/……
插槽/产品组合和RTP池: Butch:1000个旋转;战斗:- EV(蹦床平均值):%[95% DI……-]
- 中位数(Q 50 )/IQR:……%/……-……%
- 目标机会:≥0%……%;≥+20%……%
- Max drawdown:中位数……费率;90年代的 percentil……
- 间隔到≥×10:中位数……自旋;第75 percentil……
- 每场战斗的破坏风险:……%
- 与底座的比较(flat): (\Delta) EV……pp. [butstrap DI…….;p排列=……]
- 稳定性:CUSUM-漂移/否;滑动窗口-c。
- 腰包经济:+……EV(计算方法-……)。
- 决定:实施/删除/拒绝。
- 注意:数据限制,环境变化。
12)提前短支票清单"策略有效"
是否有标示确认?
是否显示了DI/分数/缩写,而不仅仅是平均值?
是否考虑了外部奖金/奖金?
A/A测试(系统没有"看到"幻影三角洲)是否通过?
没有多重测试没有调整?
策略是否生活在相同的条件下(RTP、投注、限制)?
结果:长期效率是关于测量学科的。锁定目标,在蹦床上测试,对策略进行正确比较(butstrap,排列,CRN),不仅显示平均值,还显示分位数,缩减和风险。考虑腰包和介质漂移,保持协议不变。因此,该策略不再是一组感觉,并成为具有可理解的长距离风险特征的可控工具。
