Verilerle atletik performans nasıl tahmin edilir
Sporda tahmin bir "tahmin'değil, olasılıkların sistemik bir değerlendirmesidir. Kesin puanı tahmin etmek değil, sonuç için doğru fiyatı belirli bir belirsizlikle satın almak önemlidir. Aşağıda adım adım bir süreç var: veri toplama ve bina özelliklerinden kalibrasyon ve savaş operasyonuna.
1) Veri: model temeli
Kaynaklar
Maç: Dizilişler, yaralanmalar, diskalifiyeler, program (b2b/uçuşlar), ev/deplasman durumu, hava durumu/yüzey/arena, hakemler.
İzleme/oyun etkinlikleri: play-by-play, koordinatlar, olaylar (köşeler, fauller, atışlar, paslar).
Gelişmiş metrikler: xG/xA (futbol), eFG %/pace/ORB (basketbol), DVOA (Amerikan futbolu), bullpen/park faktörleri (beyzbol), harita havuzu/yamaları (espor).
Piyasa: Katsayıları (CL) kapatan çizgilerin hareketi, para miktarları - "referans" olasılığını işaretlemek için kullanışlıdır.
Takım/Oyuncu Hikayeleri: Son Maçlar Form N, Stil H2H, Dakika/Yükleme Modeli.
Kalite
Saat dilimlerini ve saat türlerini senkronize edin (olay zamanı ve işlem zamanı).
Kopyaları kaldırın, boşlukları belgelenmiş kurallarla doldurun.
Son istatistikler için "gerçek" kaynaklarını düzeltin (örneğin, resmi xG/grev olarak kabul edilir).
2) Sorunu formüle ediyoruz
Hedef türleri
Sınıflandırma: Galibiyet/beraberlik/mağlubiyet; "Her ikisi de gol atacak"; eşitlik bozulup bozulmayacağı.
Puan/yoğunluk: beklenen hedefler/puanlar (Poisson/negatif binom).
Dağıtım tahmini: toplamlar, bireysel göstergeler (kalite metriği olarak CRPS).
Oyuncu sahne: puan/asist/as/yard - hiyerarşik (karışık) etkileri ile regresyon.
Ufuk
Prematch (başlamak için T-dakika).
Canlı (etkinlik sırasında) - Akış özellikleri ve gecikme sınırları ekler.
3) Feechee: Sonucu gerçekten açıklayan şey
Takım seviyesi
Güç (Elo/PRI), hücum/savunma kalite farkı.
Tempo (tempo), stil (basma/düşük blok; 3PT oranı; acele/geçiş karışımı).
Form ve "yorgunluk" (dakika/yük, b2b, seyahat).
Özel takımlar: Hokeyde PP/PK, Amerikan futbolunda özel takımlar.
Oyuncu seviyesi
Dakika/katılım modeli, rol (kullanım), etkinlik (eFG %, OBP, xwOBA).
Kompozisyonlar: Beşlerin/bağlantıların belirli kombinasyonlarının etkisi.
Bağlam
Hava/yüzey/arena, hakem profili (faul/penaltı).
Turnuva motivasyonu (hayatta kalma, playofflar, Avrupa yarışmalarından önce rotasyon).
Market
Satırlar/toplamlar/oranlar, operatörler arasındaki spreadler, kapanmaya hareket (proxy bilgileri).
4) Modeller: klasiklerden sinir ağlarına
Sınıflandırma/olasılıklar
Lojistik regresyon (temel kalibre edilmiş benchmark).
Gradient boosting (XGBoost/CatBoost/LightGBM) güçlü bir tablo standardıdır.
Sinir ağları (MLP) - çok sayıda doğrusal olmayan ve etkileşimli.
Puan/yoğunluk
Poisson/iki boyutlu Poisson (futbol, hentbol).
Negatif binom (overdispersion).
Oyuncular/takımlar için hiyerarşik modeller (kısmi havuzlama).
Diziler/canlı
RNN/GRU/Temporal CNN ve play-by-play, momentum ve tempo değişiklikleri için transformatörler.
Bayesian gerçek zamanlı yoğunluk güncellemeleri.
Derecelendirmeler
Elo/Glicko dinamik olarak gücü yansıtır; istifleme ile birleştirilebilir.
5) Kalibrasyon ve yorumlanabilirlik
Neden kalibre? Olasılıklar gerçek frekanslarla çakışmalıdır.
Ham tahminler üzerinde Platt/İzotonik/Beta kalibrasyonu.
Kalibrasyon diyagramları, Brier skoru, LogLoss - temel metrikler.
Yorumlanabilirlik: değişimleri ve sağduyuyu kontrol etmek için permütasyon önemi/SHAP.
6) Dürüst doğrulama: Onsuz, diğer her şey anlamsız
İleri-geri (sürgülü pencere)
Zamana göre bölün: tren - validate - test. Geçmişe karışmak yok.
Stabiliteyi anlamak için pencerenin en az 3-5 "kiralanması".
Sızıntıları önleme
Fatura sonrası özellikleri kullanmayın (maçın başlangıcını tahmin ederken maçın son xG'si).
Canlı olarak - özellikler yalnızca geçerli saate kadar kullanılabilir.
Ayrı "kompozisyonların duyurulmasından önce've" sonra ": bunlar farklı modlardır.
Metrikler
Olasılıklar: Brier/LogLoss + kalibrasyonu.
Regresyonlar: MAE/RMSE/CRPS.
İş metrikleri: fiyat eşiklerine göre isabet oranı, lig/sezon kohortlarında istikrar.
7) Karar Verme Olasılığı: Fiyat ve Strateji
Açık kenar boşluğu (çevresinde)
1X2 piyasasında, "kirli" olasılıkların toplamı> %100'dür. "Dürüst" elde etmek için orantılı olarak normalleştirin (p ^ {fair}).
Değer и EV
Kenar: (\text {edge} = p\cdot d - 1).
Yalnızca kenar eşiği ≥ (örneğin, %3-5) ayarlayın.
Bahis boyutu
Düz 0. Bekarlar için %5-1; daha az - ekspres trenlerde.
Kelly kesri: (f =\frac {p d - 1} {d - 1}), daha sık kullanılan ¼ - ½ Kelly varyans ve hatalar nedeniyle (p).
Kalite kriteri olarak CLV
Fiyatınızı kapanış fiyatı ile karşılaştırın. Uzun süreli + CLV sağlıklı bir model ve zamanlamanın bir işaretidir.
8) Canlı tahmin: hız ve "pencereler"
Boru hattı
Olay> Güncelleme Özelliği> Online Çıkarım> Risk Kontrolü> Yayın.
Gecikme hedefleri: çıkarım <0. 8s, döngü 0'ı güncelle. 5-2 s.
Gerçek zamanlı özellikler
Tempo/sahiplik, fauller/kartlar, yorgunluk, özel takımlar, esporda ekonomik döngüler.
"Keskin" anlarda süspansiyon modları; Modeller "sessiz kalabilmelidir".
Uygulama
Mikro olaylardan hemen sonra "aşırı ısınma" çizgilerini arayın (10-0 sarsıntı, erken mola), ancak akış gecikmesini dikkate alın - bir resim değil mantık satın alın.
9) Spora göre mini kılıflar
Futbol (toplam/sonuç)
Fici: 8-12 maç için xG (ağırlıklı), çiftlerin temposu ve tarzı, hakem (penaltı/kartlar), rotasyonlar.
Model: Ev faktörü + kalibrasyonlu iki boyutlu Poisson.
Sonuç: hedeflerin dağılımının tahmini - toplamların fiyatı/Asya çizgileri.
Basketbol (toplam/sahne)
Özellikler: tempo, eFG %, ORB/DRB, fauller/bonus, dakika rutini.
Model: toplam için artırma; Aksesuarlar için - dakikaların × verimliliğin hiyerarşik gerilemesi.
Sonuç: Toplam bölge olasılığı, oyuncuların puanları için medyanlar/nicelikler.
Tenis (göç/oyunlar)
Özellikler: kapsama, hold/break %, ikinci servis kalitesi, yorgunluk.
Model: Markov puan/oyun + lojistik "katman" şeklinde; Kalibrasyon.
Sonuç: Zafer/tie-break olasılığı, oyunların toplamı, her servis için canlı güncellemeler.
E-Sporlar (Haritalar/Turlar)
Özellikler: havuz kartı, yasak/tepe, ekonomik döngüler, LAN yorgunluğu, yamalar.
Model: olaya göre artırma/transformatör; Kartlar için - sınıflandırma + turlar için CRPS.
Sonuç: kart kazanan, tur toplamları,'ilk kan/nesne ".
10) MLOps ve çalışma (gelişmiş)
Fichstore: çevrimdışı/çevrimiçi tutarlılık, dürüst geri testler için zaman yolculuğu.
Veri/model sürümleri, CI/CD, kanarya sürümleri.
İzleme: veri sürüklenmesi, kalibrasyon bozulması, çıkarım gecikmesi.
Deneyler: SRM olmadan A/B, CUPED/diff-in-diff, önceden belirlenmiş durma kriterleri.
Arıza güvenliği: geri dönüş hatları ve besleme olayları için manuel kurallar.
11) Hatalar ve anti-desenler
Sızıntılar: gelecekten işaretler, prematch'te gerçek sonrası metrikler.
Yeniden eğitim: küçük bir veri kümesi üzerinde çok karmaşık model; düzenlileştirme, zaman kontrolü ile çözülür.
Yenilik yanlılığı: son maçların yeniden değerlendirilmesi; Maksimum kısıtlama ile üstel ağırlıkları kullanın.
Demirleme: ilk satıra yaslanma; Modelin "dürüst" fiyatı ile karşılaştırın.
Kalibrasyon yok sayar: Kavisli olasılıklara sahip "kesin'bir model EV'yi kırar.
Karıştırma modları: "kompozisyonlardan önce've" sonra "- farklı modeller.
12) Kontrol listeleri
Eğitimden önce
1. Veriler zaman içinde temizlenir ve senkronize edilir.
2. Hedef: Ne tahmin ediyoruz ve neden (ne karar vereceğiz).
3. Bölünmüş tren/geçerli/sadece test süresi.
4. Temel kıyaslama modeli (lojistik/Poisson).
Yayınlanmadan önce
1. Kalibrasyon doğrulandı (Brier/LogLoss, güvenilirlik grafiği).
2. Walk-forward, mevsimlerde/liglerde kararlıdır.
3. Sızıntı yok, özellikler prod'da mevcut.
4. Sürüklenme ve aşırı antrenman izleme vardır.
Bet öncesi
1. Kenar boşluğu kaldırıldı, kenar ≥ eşiği.
2. Düz/Kelly paylaşım oranı.
3. Kalite Değerlendirme Planı - CLV takibi.
4. Hesaplama kurallarını anlama (OT/VAR/push/void).
13) Etik ve sorumluluk
Modeller bir "para düğmesi'değil, bir araçtır. Zaman/para sınırlarına saygı gösterin, duraklatın, içeriden/dürüst olmayan kaynakları kullanmayın ve mükemmel modelin bile bireysel maçlarda yanlış olduğunu unutmayın. Hedefiniz mesafe avantajı, "%100 isabet'değil.
Verilerle spor performansının tahmin edilmesi bir döngüdür: Veri - özellikler - model - kalibrasyon - dürüst doğrulama - fiyat kararı - analiz sonrası. Egzotik kovalamayın: ince bir kriter, temiz veriler ve kalibre edilmiş olasılıklar genellikle "moda" mimarilerden daha güçlüdür. Yalnızca ileri doğru yürürken kalitede sürekli bir artış sağladığında ve CLV'yi iyileştirdiğinde karmaşıklık ekleyin. Daha az ama daha iyi yapın - ve mesafe sizin için çalışmaya başlayacaktır.