如何評估策略在長期遊戲中的有效性
長距離策略的有效性不是「晚上運氣/運氣不好」,而是在不變的規則下在許多獨立拉伸上的指標穩定性。下方是一個工作框架,可將直覺轉化為可測量的度量,可復制的測試和誠實的結論。
1)首先是目標和假設
定義特定的成功標準和視野:- 目標:「最大程度地減少第90次沈降」,「最大化每1000次旋轉的中位數總數」,「提高≥0%的完成機會」。
- 假設:「策略A相對於1000個自旋的戰鬥B策略,給出較慢的總數≥3個百分點。」
- 地平線:batch的長度(例如1000個自旋)和batch的數量(穩定引線的最小30-50)。
重要的是:如果RTP <100%,並且沒有外部優勢,則「效率」=更可接受的風險特征(縮小,分量,目標概率),而不是奇跡般的改變。
2)正確的「債務」指標"
1.EV at butch(平均費率/%)-顯示方向。
2.結果的中位數和分數(Q50/Q75/Q90)與「正常」和「不良」(玩家生活在中位數和尾巴)一樣。
3.銀行的增長率為:- 線性:平均每桶百分比、日誌增長(平均'ln (Bt/Bt − 1))',如果利率分數取決於銀行,則相關。
- 4.破產風險:破產戰/停止麋鹿的份額。
- 5.Max drawdown(深度和持續時間)是中位數和第90 percentile。
- 6.「重大事件」(≥×10,獎金)的頻率和等待間隔(中位數,第75 percentil)用於計劃。
- 7.時間穩定性:蝙蝠之間的度量方差,變異系數。
- 「類似夏普」的度量:平均總和/標準差每個戰鬥。
- 凱利合規性(如果有邊緣):選擇的投註份額與凱利的偏差程度;罰款/重復罰款。
3)實驗設計: 使結論誠實
戰鬥:將遊戲分為相同長度的獨立窗口(例如,1000個旋轉)。
A/A測試:在A/B之前,確保在相同的策略下,系統沒有「看到差異」(假警報)。
示例外:在單個戰鬥集上設置規則,在其他戰鬥集上進行驗證(查看所有數據後未出現任何規則)。
模擬中的通用隨機數(CRN):策略在相同的噪音上進行比較。
固定的退出規則:take-profit/停止麋鹿,L-streak後超時-在測試開始之前規定。
4)誤差和體積: 需要多少「長度」
標準的batch平均誤差為(1/\sqrt {M}),其中(M)為batch數。地標:- 30-50的戰鬥≈最小的,因此中位/分位數變得「可識別」。
- 對於沈重的尾巴(高波動,罕見的重大勝利)是100多次戰鬥。
- 要比較中位數/中位數差異策略,請使用bootstrap或排列測試,而不僅僅是t測試。
5)如何比較策略(A vs B)
1.Batch度量(總數%,max DD,機會≥0%)。
2.差值(\Delta =\text {m度量}_A -\text {m度量}_B)適用於每個butch(如果CRN/成對的 butch)。
3.Butstrap 95%的DI for (\Delta)和重新排列測試(p-value)是無常態假設的持續驗證。
4.臨床上重要的三角洲:提前設定一個閾值,低於該閾值,差值「不值得使策略復雜化」。
6)剪切和穩定控制
從長遠來看,環境正在發生變化:RTP版本,提供商池,股票/現金返還,旋轉速度。
CUSUM/控制卡:觀察指標與其長期平均值的累積偏差總和,以發現漂移。
滑動窗口:關於最後20-30個蹦床的報告是預警。
分層:按插槽/波動/股票時間劃分的單獨行。
7)貨幣經濟: 考慮一切
該策略的有效性不僅僅是「背部」。包括:- Keshback/rake back/mission/錦標賽積分:重新計算為「下註」或百分比。
- 時間/限制成本:較長的會話=上面的曝光到尾巴。
- 費用/貨幣轉換/供應商限額:影響實際電動汽車和風險。
8)凱利和增長速度(當有優勢時)
如果您有一個外部邊緣(真正的正電動汽車),目標指標是銀行的平均日誌增長。
凱利(Kelly)的股份最大化了日誌增長,但具有侵略性。經常使用「一半凱利」來降低波動性。
在負預期中,最佳份額-0:「效率」歸結為風險/愉悅管理而不是利潤。
9)長巖陷阱
再培訓(將規則「加固」為歷史)。解決方案:標示出來並提前提交協議。
多重比較(測試數十種策略並選擇「最佳」)。解決方案:調整(Bonferroni/FDR)或具有選擇和驗證的「聯賽」。
幸存者轉移:只看到「活著」的策略。保存故事,不要隱藏封閉的故事。
在戰鬥中改變投註/插槽:打破可比性。
停止「運氣」:測試「到第一個加分」會扭曲分布。
10)小型評估協議(可插入法規)
1.開始之前:目標,度量,蹦床長度,蹦床數,進出/退出規則,重要性標準,這被認為是成功的。
2.收集:旋轉記錄(投註,付款,≥×10/bonus標誌),batch總數,max DD,持續時間。
3.分析:結果中位數和分數,破壞風險,等待間隔,計量吸入器,A/B排列測試。
4.穩定性:CUSUM,滑動窗口,分層。
5.報告:度量表,計量,「三角洲是否足夠重要」的結論,關於利率和限制的建議。
6.解決方案:"; B";/「另外 30個數據戰」/「檔案」。
11)「策略護照(long-run)」-現成的模板
策略/規則版本: ……/……
插槽/產品組合和RTP池: Butch:1000個旋轉;戰鬥:- EV(蹦床平均值):%[95% DI……-]
- 中位數(Q 50 )/IQR:……%/……-……%
- 目標機會:≥0%……%;≥+20%……%
- Max drawdown:中位數……費率;90年代的 percentil……
- 間隔到≥×10:中位數……自旋;第75 percentil……
- 每場戰鬥的破壞風險:……%
- 與底座的比較(flat): (\Delta) EV……pp. [butstrap DI…….;p排列=……]
- 穩定性:CUSUM-漂移/否;滑動窗口-c。
- 腰包經濟:+……EV(計算方法-……)。
- 決定:實施/刪除/拒絕。
- 註意:數據限制,環境變化。
12)提前短支票清單「策略有效」
是否有標示確認?
是否顯示了DI/分數/縮寫,而不僅僅是平均值?
是否考慮了外部獎金/獎金?
A/A測試(系統沒有「看到」幻影三角洲)是否通過?
沒有多重測試沒有調整?
策略是否生活在相同的條件下(RTP、投註、限制)?
結果:長期效率是關於測量學科的。鎖定目標,在蹦床上測試,對策略進行正確比較(butstrap,排列,CRN),不僅顯示平均值,還顯示分位數,縮減和風險。考慮腰包和介質漂移,保持協議不變。因此,該策略不再是一組感覺,並成為具有可理解的長距離風險特征的可控工具。
