如何使用統計數據和匹配歷史記錄進行預測
篇幅較大的文章
統計是概率語言。她不是「猜測」未來,而是比直覺更好地評估機會。比賽歷史是數據的重要組成部分,但很容易被誤解:小樣本,「面對面會議的魔力」,日歷效果和團隊形式扭曲了圖片。下面-如何收集,清理和應用統計數據以獲得合理的系數並找到價值的實用指南。
1)哪些數據真正有用
基本團隊指標
結果:勝利/平局/失敗,進球/分數差異。
「時刻質量」:足球中的xG/xGA,曲棍球中的Shot Quality/Expected Goals,籃球中的Offensive/Defensive Rating。
節奏/風格:擁有權,攻擊節奏,過渡階段,壓力,3PA/pace(NBA)。
標準位置,角球,罰球(足球):經常被低估的得分機會來源。
個別因素
陣容:傷病,停賽,輪換,分鐘限制,領隊回歸。
協同作用和作用:誰創造時刻,誰轉換,誰拉保護。
上下文
房子/退房,飛行,日歷密度(NBA背靠背,足球7天內進行3場比賽)。
天氣/覆蓋/海拔高度(風和雨會降低速度和準確性)。
裁判/裁判(哨聲風格會影響犯規和點球)。
動機/比賽位置(但要註意沒有數字的「敘述」)。
2)面對面會議的歷史: 當它很重要時,何時是陷阱
如果:- 樣式「不匹配」:A隊在高壓力下分崩離析,而競爭對手B是PPDA的領導者之一。
- 穩定的教練和陣容的核心,戰術變化不大,比賽是最近(≤ 12-18個月)。
- 有可重復的模式(例如,競爭對手的高標準量系統地創建了針對特定防禦的xG)。
- 古代比賽和其他教練/陣容=垃圾。
- 小樣本:2-4場比賽是噪音。
- 「德比心理學」未經指標確認。
實踐:如果頭對頭與新鮮數據(形式、xG趨勢、組成)相抵觸,則信任新鮮的處理指標而不是舊結果。
3)如何權衡長期和新鮮的數據
滑動窗口:將最後的10-15場比賽作為形式基礎。
體重下降: 最近的比賽-體重增加(例如1。0 → 0.9 → 0.8…).
Ajast對手:調整有關對手實力的統計數據(對陣前5名和局外人的比賽不能平均為「原樣」)。
4)實力評級(Elo/地標)
想法:每個團隊都獲得排名;比賽結束後,考慮到比賽結果的驚喜和比賽的重要性,他被晉升/降級。
優點:多功能性,很少參數,很好地給出了基線「線」。
如何應用:1.構建/使用現成的Elo。
2.調整主場因素(在足球比賽中通常≈+0。20–0.模型中的30個進球;在籃球中-積分的單獨偏移)。
3.通過物流功能將評級差異轉換→獲勝的可能性。
4.與市場核對:你的概率>隱含是潛在的價值。
5)簡單概率模型: 足球的例子(泊松)
任務:評估準確計數和結果的幾率。
步驟:1.評估球隊的預期進球(\lambda_A)和(\lambda_B)(例如,從xG調整為防守/攻擊強度和主場因素)。
2.假設頭部分布的獨立性(簡化,但起點有效)。
3.球隊得分(k)進球的可能性:- (P(K=k) = e^{-\lambda}\frac{\lambda^k}{k!}).
- 4.折叠分布以獲得「P1/X/P2」,總和和精確計數的概率。
- 令(\lambda_A=1{,}55),(\lambda_B=1{,}10)。
- (P_A(0)=e^{-1.55}\approx 0{,}212), (P_A(1)\approx 0{,}329), (P_A(2)\approx 0{,}255).
- (P_B(0)=e^{-1.10}\approx 0{,}333), (P_B(1)\approx 0{,}366), (P_B(2)\approx 0{,}201).
- 折疊(對所有k進行折疊和求和)將獲得結果和總數的概率(例如(P (\text {TB} 2{,}5)-所有對的總和(k_A+k_B\ge3)))。
- 「0-0」和平局(得分的相關性降低了幹凈泊松的平局頻率-可以引入平局因子)。
- 紅牌,後期進球,比賽風格(節奏和標準影響分配)。
6)構建「流程」評分而不是「可計數」
為什麼「xG優於計數」:計數是離散的總數,xG是矩質量之和。團隊可以「加油」2。0 xG不得分不是「壞形狀」,而是差異。
方法是:- 以減小的重量構建xG差速器(xG For − xG Against)的趨勢。
- 調整對手的力量(對手ajast)。
- 與「原始」計數匹配,以識別市場對團隊的過度購買/轉售。
7)從數據到費率: 回合制框架
1.收集和清潔
最近10-15場比賽+賽季平均水平。
陣容,受傷,裁判,天氣,日歷。
刪除顯而易見的排放(少數60分鐘等)或標記它們。
2.實力評估
Elo/Power Rating+家庭因素。
xG趨勢(或體育運動的類似指標)與對手ajast。
3.比賽模型
對於足球:(\lambda_A ,\lambda_B)→泊松;對於籃球-速度+eFG%+ORB/TO →積分預測;網球-抽簽/遊戲/設置概率模型。
建模10-50,000 Monte Carlo叠代(如果能夠)並獲得結果/總數/球面分布。
4.與線的比較
系數→隱式概率(p_\text{imp}=1/k)。
如果(p_\text{vasha}> p_\text{imp})是價值候選者。
估算邊緣大小:(\text {edge}=p_\text{vasha}-p_\text{imp})。
5.費率規模和風險
新來者:flat利率0.5-1.5%的銀行。
半凱利,如果你有信心校準概率。
6.學習和驗證
雜誌:日期,市場,koef,(p_\text{vasha}),金額,結果,評論。
每周:概率校準(罐子10%:從60%的評分率中應該有≈60%)。
A/B測試: 比較xG模型的"vs"得分結果。"
8)改變數字的定性因素
比賽和風格。快速側翼對抗慢速後衛,尖峰滾動對抗弱弧防守,給對手很多3PA的球隊。
高估的「連勝」。通常是+運氣(PDO/轉換/保存)日歷。通過流程指標驗證可持續性。
輪換和疲勞。背靠背和遠距離郊遊會降低攻擊效率和防禦力。
9)迷你支票單
比賽前
- 更新的陣容和領導地位
- 澄清了家庭因素,天氣/覆蓋/裁判
- 重新計算(\lambda)/評級/概率
- 與博彩公司的生產線和利潤率的比較
- 有可解釋的價值(為什麼市場出錯?)
比賽結束後
- 更新日誌(koef, (p),結果,xG/process)
- 記錄了偏差的原因(第15次受傷,紅色,點球,「垃圾時間」)
- 校準:我55%的人實際進入≈55%?
10)經常出錯以及如何避免出錯
頭對頭再培訓。解決方案:H2H權重限額和時效。
忽略利潤和市場。解決方案:總是計算(p_\text{imp}),尋找邊緣而不是「預測贏家」。
小樣本。解決方案:支撐季節性平均+減重。
沒有驗證。解決方案:校準曲線,backtest,日誌。
統計數據和比賽歷史記錄的工作原理是:(1)依靠流程指標(xG,質量等級),(2)將數據調整為上下文(房屋/出口,日歷,裁判,天氣),(3)將預測轉化為概率,然後將其與線條和利潤率進行比較,以及(4)有紀律地管理風險並保存日誌。然後,「比賽歷史」不再是一組神話,而是變成了尋找真實價值的工具。