Як використовувати статистику та історію матчів для прогнозів
Об'ємний текст статті
Статистика - це мова ймовірностей. Вона не «вгадує» майбутнє, але допомагає оцінювати шанси краще, ніж інтуїція. Історія матчів - важлива частина даних, але її легко інтерпретувати невірно: малі вибірки, «магія особистих зустрічей», ефект календаря і форма команд спотворюють картину. Нижче - практичне керівництво, як зібрати, очистити і застосувати статистику так, щоб отримати обґрунтовані коефіцієнти і знаходити value.
1) Які дані дійсно корисні
Базові командні метрики
Результати: перемоги/нічиї/поразки, різниця м'ячів/очок.
«Якість моментів»: xG/xGA у футболі, Shot Quality/Expected Goals for/against в хокеї, Offensive/Defensive Rating в баскетболі.
Темп/стиль: володіння, темп атак, перехідні фази, пресинг, 3PA/pace (NBA).
Стандартні положення, кутові, штрафні (футбол): часто недооцінене джерело гольових шансів.
Індивідуальні фактори
Склад: травми, дискваліфікації, ротація, ліміт хвилин, повернення лідерів.
Синергія і ролі: хто створює моменти, хто конвертує, хто витягує захист.
Контекст
Будинок/виїзд, перельоти, щільність календаря (back-to-back в NBA, 3 гри за 7 днів у футболі).
Погода/покриття/висота над рівнем моря (вітер і дощ знижують темп і точність).
Судді/рефері (стиль свистка впливає на фоли і пенальті).
Мотивація/турнірне становище (але остерігайтеся «наративу» без цифр).
2) Історія очних зустрічей: коли вона важлива, а коли - пастка
Корисно, якщо:- Стилі «не збігаються»: команда А розвалюється проти високого пресингу, а суперник В - один з лідерів по PPDA.
- Стабільні тренери і ядро складу, тактика мало змінювалася, матчі були недавно (≤ 12-18 місяців).
- Є повторювані патерни (наприклад, високий обсяг стандартів у суперника системно створює xG проти конкретного захисту).
- Стародавні матчі та інші тренери/склади = сміття.
- Малі вибірки: 2-4 гри - це шум.
- «Психологія дербі» без підтвердження метриками.
Практика: якщо head-to-head суперечить свіжим даним (формі, xG-трендам, складам) - довіряйте свіжим, процесним метрикам, а не старим результатам.
3) Як зважувати давні і свіжі дані
Ковзне вікно: беріть 10-15 останніх матчів як базу форми.
Спадні ваги: недавнім іграм - більша вага (наприклад, 1. 0 → 0. 9 → 0. 8…).
Опонент-аджаст: коригуйте статистику щодо сили суперників (ігри проти топ-5 і проти аутсайдерів не можна усереднювати «як є»).
4) Рейтинги сили (Elo/орієнтири)
Ідея: кожній команді присвоюється рейтинг; після матчу він підвищується/знижується з урахуванням несподіванки результату і важливості матчу.
Плюси: універсальність, мало параметрів, добре дає базову «лінію».
Як застосовувати:1. Побудуйте/використовуйте готовий Elo.
2. Коригуйте на домашній фактор (у футболі часто ≈ + 0. 20–0. 30 голи в моделях; в баскетболі - окреме зміщення в окулярах).
3. Переведіть різницю рейтингів → ймовірність перемоги через логістичну функцію.
4. Звірте з ринком: де ваша ймовірність> імпліцитної - потенційне value.
5) Проста ймовірнісна модель: приклад для футболу (Пуассон)
Завдання: оцінити шанси точних рахунків і результатів.
Кроки:1. Оцініть очікувані голи команд (\lambda _ A) і (\lambda _ B) (наприклад, з xG, скоригованих на силу захисту/атаки і домашній фактор).
2. Припустіть незалежність розподілів голів (спрощення, але робоче для старту).
3. Ймовірність, що команда заб'є (k) голів:- (P(K=k) = e^{-\lambda}\frac{\lambda^k}{k!}).
- 4. Згорніть розподілу, щоб отримати ймовірності «П1/Х/П2», тоталів і точних рахунків.
- Нехай (\lambda _ A = 1 {,} 55), (\lambda _ B = 1 {,} 10).
- (P_A(0)=e^{-1. 55}\approx 0{,}212), (P_A(1)\approx 0{,}329), (P_A(2)\approx 0{,}255).
- (P_B(0)=e^{-1. 10}\approx 0{,}333), (P_B(1)\approx 0{,}366), (P_B(2)\approx 0{,}201).
- Згорнувши (перемножуючи і підсумовуючи по всіх k), отримаємо ймовірності результатів і тоталів (наприклад, (P (\text {ТБ} 2 {,} 5)) - сума всіх пар (k_A+k_B\ge3)).
- «0-0» і нічиї (кореляція забитих голів знижує частоту нічиїх в чистому Пуассоні - можна ввести фактор нічиї).
- Червоні картки, пізні голи, стиль матчапа (темп і стандарти впливають на розподіл).
6) Побудова «процесної» оцінки замість «лічильної»
Чому «xG краще рахунку»: рахунок - це дискретний підсумок, xG - сума якості моментів. Команда могла «нагенерити» 2. 0 xG і не забити - це не «погана форма», а дисперсія.
Підхід:- Будуйте тренд xG-диференціала (xG For − xG Against) зі спадними вагами.
- Коригуйте на силу суперника (опонент-аджаст).
- Зіставляйте з «сирим» рахунком, щоб виявляти перекупленість/перепроданість команди ринком.
7) Від даних до ставки: покроковий фреймворк
1. Збір та очищення
Останні 10-15 ігор + сезонні середні.
Склади, травми, суддя, погода, календар.
Видаліть очевидні викиди (гра в меншості 60 хвилин і т.п.) або позначте їх.
2. Оцінка сили
Elo/Power Rating + домашній фактор.
Тренд xG (або аналогічні метрики для виду спорту) з опонент-аджаст.
3. Модель матчу
Для футболу: (\lambda _ A ,\lambda _ B) → Пуассон; для баскетболу - темп + eFG% + ORB/TO → прогноз очок; для тенісу - моделі ймовірності розіграшу/гейму/сету.
Змоделюйте 10-50 тисяч Монте-Карло ітерацій (якщо вмієте) і отримаєте розподіл результатів/тоталів/фори.
4. Порівняння з лінією
Коефіцієнт → імпліцитна ймовірність (p_\text{imp}=1/k).
Якщо (p_\text{ваша}> p_\text{imp}) - кандидати на value.
Оцініть розмір edge: (\text {edge} = p_\text{ваша} - p_\text{imp}).
5. Розмір ставки і ризик
Новачкові: flat-ставка 0,5-1,5% банку.
Полу-Келлі, якщо впевнені в калібруванні ймовірностей.
6. Облік і валідація
Журнал: дата, ринок, коеф, (p_\text{ваша}), сума, результат, коментар.
Щотижня: калібрування ймовірностей (бакети по 10%: зі ставок з оцінкою 60% повинні заходити ≈60%).
A/B-тест: порівняйте результати ставок «за рахунком» vs «за xG-моделлю».
8) Якісні фактори, які змінюють цифри
Матч-ап і стиль. Швидкі фланги проти повільних фулбеків, «пік-н-рол» проти слабкого захисту дуги, команда, що дає багато 3PA супернику.
Переоцінена «серія перемог». Часто це календар + удача (PDO/конверсія/сейви). Перевіряйте стійкість через процесні метрики.
Ротація і втома. Back-to-back і дальні виїзди знижують ефективність атаки і захисний інтенсив.
9) Міні-чек-листи
Перед матчем
- Оновлені склади і статус лідерів
- Уточнено домашній фактор, погода/покриття/суддя
- Перераховані (\lambda )/рейтинги/ймовірності
- Порівняння з лінією і маржею букмекера
- Є пояснене value (чому ринок помиляється?)
Після матчу
- Оновлений журнал (коеф, (p), результат, xG/процес)
Зафіксовані причини відхилень (травма на 15-й, червона, пенальті, «сміттєвий час»)
- Калібрування: мої 55% реально заходять ≈55%?
10) Часті помилки і як їх уникати
Перенавчання на head-to-head. Рішення: ліміт ваги H2H і термін давності.
Ігнор маржі і ринку. Рішення: завжди рахуйте (p_\text{imp}) і шукайте edge, а не «прогнозуйте переможця».
Мала вибірка. Рішення: опорні сезонні середні + спадні ваги.
Без валідації. Рішення: калібрувальні криві, backtest, журнал.
Статистика та історія матчів працюють, коли ви: (1) спираєтеся на процесні метрики (xG, рейтинги якості), (2) коригуєте дані на контекст (будинок/виїзд, календар, суддя, погода), (3) перетворюєте прогноз на ймовірності, а потім порівнюєте їх з лінією і маржею, і (4) дисципліновано керуєте ризиком і ведете журнал. Тоді «історія матчів» перестає бути набором міфів і перетворюється в інструмент пошуку реального value.