如何使用统计数据和匹配历史记录进行预测
篇幅较大的文章
统计是概率语言。她不是"猜测"未来,而是比直觉更好地评估机会。比赛历史是数据的重要组成部分,但很容易被误解:小样本,"面对面会议的魔力",日历效果和团队形式扭曲了图片。下面-如何收集,清理和应用统计数据以获得合理的系数并找到价值的实用指南。
1)哪些数据真正有用
基本团队指标
结果:胜利/平局/失败,进球/分数差异。
"时刻质量":足球中的xG/xGA,曲棍球中的Shot Quality/Expected Goals,篮球中的Offensive/Defensive Rating。
节奏/风格:拥有权,攻击节奏,过渡阶段,压力,3PA/pace(NBA)。
标准位置,角球,罚球(足球):经常被低估的得分机会来源。
个别因素
阵容:伤病,停赛,轮换,分钟限制,领队回归。
协同作用和作用:谁创造时刻,谁转换,谁拉保护。
上下文
房子/退房,飞行,日历密度(NBA背靠背,足球7天内进行3场比赛)。
天气/覆盖/海拔高度(风和雨会降低速度和准确性)。
裁判/裁判(哨声风格会影响犯规和点球)。
动机/比赛位置(但要注意没有数字的"叙述")。
2)面对面会议的历史: 当它很重要时,何时是陷阱
如果:- 样式"不匹配":A队在高压力下分崩离析,而竞争对手B是PPDA的领导者之一。
- 稳定的教练和阵容的核心,战术变化不大,比赛是最近(≤ 12-18个月)。
- 有可重复的模式(例如,竞争对手的高标准量系统地创建了针对特定防御的xG)。
- 古代比赛和其他教练/阵容=垃圾。
- 小样本:2-4场比赛是噪音。
- "德比心理学"未经指标确认。
实践:如果头对头与新鲜数据(形式、xG趋势、组成)相抵触,则信任新鲜的处理指标而不是旧结果。
3)如何权衡长期和新鲜的数据
滑动窗口:将最后的10-15场比赛作为形式基础。
体重下降: 最近的比赛-体重增加(例如1。0 → 0.9 → 0.8…).
Ajast对手:调整有关对手实力的统计数据(对阵前5名和局外人的比赛不能平均为"原样")。
4)实力评级(Elo/地标)
想法:每个团队都获得排名;比赛结束后,考虑到比赛结果的惊喜和比赛的重要性,他被晋升/降级。
优点:多功能性,很少参数,很好地给出了基线"线"。
如何应用:1.构建/使用现成的Elo。
2.调整主场因素(在足球比赛中通常≈+0。20–0.模型中的30个进球;在篮球中-积分的单独偏移)。
3.通过物流功能将评级差异转换→获胜的可能性。
4.与市场核对:你的概率>隐含是潜在的价值。
5)简单概率模型: 足球的例子(泊松)
任务:评估准确计数和结果的几率。
步骤:1.评估球队的预期进球(\lambda_A)和(\lambda_B)(例如,从xG调整为防守/攻击强度和主场因素)。
2.假设头部分布的独立性(简化,但起点有效)。
3.球队得分(k)进球的可能性:- (P(K=k) = e^{-\lambda}\frac{\lambda^k}{k!}).
- 4.折迭分布以获得"P1/X/P2",总和和精确计数的概率。
- 令(\lambda_A=1{,}55),(\lambda_B=1{,}10)。
- (P_A(0)=e^{-1.55}\approx 0{,}212), (P_A(1)\approx 0{,}329), (P_A(2)\approx 0{,}255).
- (P_B(0)=e^{-1.10}\approx 0{,}333), (P_B(1)\approx 0{,}366), (P_B(2)\approx 0{,}201).
- 折叠(对所有k进行折叠和求和)将获得结果和总数的概率(例如(P (\text {TB} 2{,}5)-所有对的总和(k_A+k_B\ge3)))。
- "0-0"和平局(得分的相关性降低了干净泊松的平局频率-可以引入平局因子)。
- 红牌,后期进球,比赛风格(节奏和标准影响分配)。
6)构建"流程"评分而不是"可计数"
为什么"xG优于计数":计数是离散的总数,xG是矩质量之和。团队可以"加油"2。0 xG不得分不是"坏形状",而是差异。
方法是:- 以减小的重量构建xG差速器(xG For − xG Against)的趋势。
- 调整对手的力量(对手ajast)。
- 与"原始"计数匹配,以识别市场对团队的过度购买/转售。
7)从数据到费率: 回合制框架
1.收集和清洁
最近10-15场比赛+赛季平均水平。
阵容,受伤,裁判,天气,日历。
删除显而易见的排放(少数60分钟等)或标记它们。
2.实力评估
Elo/Power Rating+家庭因素。
xG趋势(或体育运动的类似指标)与对手ajast。
3.比赛模型
对于足球:(\lambda_A ,\lambda_B)→泊松;对于篮球-速度+eFG%+ORB/TO →积分预测;网球-抽签/游戏/设置概率模型。
建模10-50,000 Monte Carlo迭代(如果能够)并获得结果/总数/球面分布。
4.与线的比较
系数→隐式概率(p_\text{imp}=1/k)。
如果(p_\text{vasha}> p_\text{imp})是价值候选者。
估算边缘大小:(\text {edge}=p_\text{vasha}-p_\text{imp})。
5.费率规模和风险
新来者:flat利率0.5-1.5%的银行。
半凯利,如果你有信心校准概率。
6.学习和验证
杂志:日期,市场,koef,(p_\text{vasha}),金额,结果,评论。
每周:概率校准(罐子10%:从60%的评分率中应该有≈60%)。
A/B测试: 比较xG模型的"vs"得分结果。"
8)改变数字的定性因素
比赛和风格。快速侧翼对抗慢速后卫,尖峰滚动对抗弱弧防守,给对手很多3PA的球队。
高估的"连胜"。通常是+运气(PDO/转换/保存)日历。通过流程指标验证可持续性。
轮换和疲劳。背靠背和远距离郊游会降低攻击效率和防御力。
9)迷你支票单
比赛前
- 更新的阵容和领导地位
- 澄清了家庭因素,天气/覆盖/裁判
- 重新计算(\lambda)/评级/概率
- 与博彩公司的生产线和利润率的比较
- 有可解释的价值(为什么市场出错?)
比赛结束后
- 更新日志(koef, (p),结果,xG/process)
- 记录了偏差的原因(第15次受伤,红色,点球,"垃圾时间")
- 校准:我55%的人实际进入≈55%?
10)经常出错以及如何避免出错
头对头再培训。解决方桉:H2H权重限额和时效。
忽略利润和市场。解决方桉:总是计算(p_\text{imp}),寻找边缘而不是"预测赢家"。
小样本。解决方桉:支撑季节性平均+减重。
没有验证。解决方桉:校准曲线,backtest,日志。
统计数据和比赛历史记录的工作原理是:(1)依靠流程指标(xG,质量等级),(2)将数据调整为上下文(房屋/出口,日历,裁判,天气),(3)将预测转化为概率,然后将其与线条和利润率进行比较,以及(4)有纪律地管理风险并保存日志。然后,"比赛历史"不再是一组神话,而是变成了寻找真实价值的工具。