Jak przewidzieć wydajność sportową z danymi
Przewidywanie w sporcie nie jest „domysłem”, ale systemową oceną prawdopodobieństw. Ważne jest, aby nie przewidzieć dokładny wynik, ale kupić prawidłową cenę za wynik z pewną niepewnością. Poniżej znajduje się proces krok po kroku: od gromadzenia danych i funkcji budynku do kalibracji i operacji walki.
1) Dane: podstawa modelu
Źródła
Mecz: lieups, urazy, dyskwalifikacje, harmonogram (b2b/loty), status dom/wyjazd, pogoda/powierzchnia/arena, sędziowie.
Śledzenie/gra wydarzenia: play-by-play, współrzędne, wydarzenia (narożniki, faule, rzuty, przepustki).
Zaawansowane mierniki: xG/xA (piłka nożna), eFG %/tempo/ORB (koszykówka), DVOA (futbol amerykański), czynniki bullpen/park (baseball), baseball/plastry (esports).
Rynek: przepływ linii, które zamykają współczynniki (CL), kwoty pieniędzy - przydatne do oznaczania prawdopodobieństwa „referencyjnego”.
Team/Player Historie: Ostatnie mecze Formularz N, Styl H2H, Minuty/Load Model.
Jakość
Synchronizuj strefy czasowe i typy zegarów (czas zdarzenia vs czas przetwarzania).
Usuń duplikaty, wypełnij luki udokumentowanymi zasadami.
Napraw źródła „prawdy” dla statystyk końcowych (na przykład, co jest uważane za oficjalne xG/strajk).
2) Formułujemy problem
Rodzaje celów
Klasyfikacja: wygrana/losowanie/strata; „obaj zdobędą punkty”; czy będzie tiebreaker.
Wynik/intensywność: oczekiwane cele/punkty (Poisson/ujemne binomial).
Prognoza dystrybucji: całkowite, indywidualne wskaźniki (CRPS jako metryka jakości).
Rekordy gracza: punkty/asysty/asy/jardy - regresja z hierarchicznymi (mieszanymi) skutkami.
Horyzont
Prematch (T-minut do rozpoczęcia).
Live (podczas wydarzenia) - Dodaje funkcje strumieniowe i limity opóźnień.
3) Feechee: Co naprawdę wyjaśnia wynik
Poziom zespołu
Wytrzymałość (Elo/PRI), ofensywna/defensywna różnica jakości.
Tempo (tempo), styl (tłoczenie/niski blok; stawka 3PT; mieszanka pośpiechu/przepustki).
Forma i „zmęczenie” (minuty/ładunek, b2b, podróż).
Specjalne drużyny: PP/PK w hokeju, specjalne drużyny w futbolu amerykańskim.
Poziom gracza
Model minut/udziału, rola (użycie), skuteczność (eFG%, OBP, xwOBA).
Kompozycje: efekt określonych kombinacji piątek/linków.
Kontekst
Pogoda/powierzchnia/arena, profil referenta (faul/kara).
Motywacja do turnieju (przetrwanie, playoffs, rotacja przed zawodami europejskimi).
Rynek
Linie/sumy/kursy, spready między operatorami, ruch do zamknięcia (informacje proxy).
4) Modele: od klasyki po sieci neuronowe
Klasyfikacja/prawdopodobieństwo
regresja logistyczna (wzorcowa wartość odniesienia).
Zwiększanie gradientu (XGBoost/CatBoost/اGBM) jest silnym standardem tabelarycznym.
Sieci neuronowe (MLP) - z dużą liczbą nieliniowości i interakcji.
Wynik/intensywność
Poisson/dwuwymiarowy Poisson (piłka nożna, piłka ręczna).
Ujemna binomia (nadmierna dysfunkcja).
Modele hierarchiczne dla graczy/drużyn (częściowe łączenie).
Sekwencje/na żywo
RNN/GRU/Temporal CNN i transformatory do odtwarzania, pędu i zmian tempa.
Bayesian aktualizacje intensywności w czasie rzeczywistym.
Ratingi
Elo/Glicko dynamicznie odzwierciedla wytrzymałość; mogą być połączone z układaniem.
5) Kalibracja i interpretacja
Dlaczego kalibrować? Prawdopodobieństwo musi pokrywać się z rzeczywistymi częstotliwościami.
Kalibracja Platt/Isotonic/Beta nad surowymi przewidywaniami.
Schematy kalibracji, wynik Brier, LogLoss - podstawowe metryki.
Interpretacja: znaczenie permutacji/SHAP w celu kontrolowania przesunięć i zdrowego rozsądku.
6) Uczciwa walidacja: bez niej wszystko inne jest bez znaczenia
Spacer do przodu (okno przesuwne)
Podziel przez czas: pociąg → zwaliduj → test. Nie wtrącam się w przeszłość.
Co najmniej 3-5 „wynajem” okna, aby zrozumieć stabilność.
Zapobieganie wyciekom
Nie używaj charakterystyki po fakturze (końcowy xG meczu podczas przewidywania początku meczu).
W żywo - funkcje są dostępne tylko do chwili obecnej.
Oddzielne „przed ogłoszeniem kompozycji” i „po”: są to różne tryby.
Mierniki
Prawdopodobieństwo: Brier/LogLoss + kalibracja.
Regresje: MAE/RMSE/CRPS.
Wskaźniki biznesowe: wskaźnik trafień według progów cenowych, stabilność na kohortach ligi/sezonu.
7) Prawdopodobieństwo podjęcia decyzji: Cena i strategia
Wyraźny margines (około)
Na rynku 1X2 suma „brudnych” prawdopodobieństw wynosi> 100%. Normalizować proporcjonalnie, aby uzyskać „uczciwość” (p ^ {fair}).
Wartość МА
Krawędź: (\text {edge} = p\cdot d - 1).
Ustaw tylko wtedy, gdy krawędź ≥ próg (na przykład 3-5%).
Rozmiar zakładu
Płaskie 0. 5-1% dla singli; mniej - w pociągach ekspresowych.
Frakcja Kelly'ego: (f =\frac {p d - 1} {d - 1}), częściej używana ¼ - ½ Kelly ze względu na wariancję i błędy (p).
CLV jako kryterium jakości
Porównaj cenę z ceną zamknięcia. Długoterminowe + CLV jest oznaką zdrowego schematu i czasu.
8) Prognoza na żywo: prędkość i „okna”
Rurociąg
Wydarzenie → funkcja aktualizacji → wniosek online → kontrola ryzyka → publikacja.
Cele opóźnienia: wnioskowanie <0. 8s, cykl aktualizacji 0. 5-2 s.
Funkcje w czasie rzeczywistym
Tempo/własność, faule/karty, zmęczenie, specjalne zespoły, cykle ekonomiczne w esports.
Tryby zawieszenia w „ostrych” momentach; modele powinny być w stanie „milczeć”.
Praktyka
Szukaj „przegrzania” linii bezpośrednio po mikro zdarzeń (10-0 jerk, wczesna przerwa), ale wziąć pod uwagę opóźnienie strumienia - kupić logikę, a nie zdjęcie.
9) Mini-przypadki według sportu
Piłka nożna (sumy/wyniki)
Fici: xG dla 8-12 meczy (ważony), tempo i styl pary, sędzia (kara/karty), obroty.
Model: dwuwymiarowy Poisson z domowym współczynnikiem + kalibracja.
Wniosek: prognoza podziału celów → cena łączy/linie azjatyckie.
Koszykówka (sumy/rekwizyty)
Funkcje: tempo, eFG%, ORB/DRB, faule/bonus, minutowa rutyna.
Model: pobudzenie dla sumy; dla rekwizytów - regresja hierarchiczna minut × sprawność.
Wniosek: prawdopodobieństwo całkowitej liczby stref, median/kwantyli dla punktów graczy.
Tenis (exodus/gry)
Cechy: pokrycie, przytrzymaj/przerwij%, jakość drugiej porcji, zmęczenie.
Model: Markov w punktach/grach + logistyka „warstwa” w kształcie; kalibracja.
Wniosek: prawdopodobieństwo zwycięstwa/przerwy, sumy gier, aktualizacje na żywo dla każdej usługi.
Esports (mapy/rundy)
Funkcje: karta basenowa, zakaz/szczyt, cykle ekonomiczne, zmęczenie LAN, plastry.
Model: wzmacnianie/transformator według zdarzeń; dla kart - klasyfikacja + CRPS dla rund.
Wniosek: zwycięzca karty, okrągłe sumy, „pierwsza krew/przedmiot”.
10) MLOp i obsługa (zaawansowana)
Fichstore: offline/konsystencja online, podróż w czasie dla uczciwych backtests.
Wersioning danych/modeli, CI/CD, wydania kanarkowe.
Monitorowanie: dryf danych, degradacja kalibracji, opóźnienie wnioskowania.
Eksperymenty: A/B bez SRM, CUPED/diff-in-diff, wstępnie przepisane kryteria stop.
Bezpieczne dla awarii: linie awaryjne i zasady ręczne dotyczące incydentów paszowych.
11) Błędy i anty-wzory
Przecieki: znaki z przyszłości, wskaźniki po fakcie w prematch.
Przekwalifikowanie: zbyt złożony model na małym zbiorze danych; jest rozwiązany przez regularyzację, sprawdzanie czasu.
Tendencje recenzji: ponowna ocena ostatnich meczów; używać ciężarów wykładniczych z maksymalnym ograniczeniem.
Kotwiczenie: pękanie do pierwszej linii; porównać z „uczciwą” ceną modelu.
Kalibracja ignoruj: „Dokładny” model z zakrzywionymi prawdopodobieństwami łamie SK.
Tryby mieszania: „przed kompozycjami” i „po” - różne modele.
12) Listy kontrolne
Przed szkoleniem
1. Dane są usuwane i synchronizowane w czasie.
2. Deklaracja docelowa: co przewidujemy i dlaczego (jaką decyzję podejmujemy).
3. Podział pociągu/ważny/czas badania.
4. Podstawowy model odniesienia (logistyczny/Poisson).
Przed publikacją
1. Sprawdzona kalibracja (Brier/LogLoss, fabuła niezawodności).
2. Spacer do przodu jest stabilny w sezonach/ligach.
3. Nie ma przecieków, funkcje są dostępne w prod.
4. Monitoruje się dryfowanie i prześwietlenie.
Przed założeniem
1. Usunięto margines, krawędź ≥ próg.
2. Stawka ryczałtowa/Kelly.
3. Plan oceny jakości - śledzenie CLV.
4. Zrozumienie zasad obliczania (OT/VAR/push/void).
13) Etyka i odpowiedzialność
Modele to narzędzie, a nie "przycisk pieniędzy. "Szanuj czas/limit pieniędzy, pauza, nie używaj źródeł poufnych/nieuczciwych i pamiętaj, że nawet idealny model jest zły na pojedynczych meczach. Twoim celem jest przewaga odległości, a nie „100% trafienie”.
Przewidywanie wydajności sportowej z danymi jest cyklem: dane → funkcje → model → kalibracja → uczciwe walidacja → decyzja cenowa → post-analiza. Nie gonić egzotyczne: slender benchmark, czyste dane i skalibrowane prawdopodobieństwa są często silniejsze niż „modne” architektury. Dodaj złożoność tylko wtedy, gdy daje stały wzrost jakości na kroku do przodu i poprawia CLV. Zrób mniej, ale lepiej - i dystans zacznie pracować dla Ciebie.