Როგორ განვსაზღვროთ სპორტული შედეგები მონაცემების გამოყენებით
პროგნოზი სპორტში არ არის „გამოცნობა“, არამედ ალბათობის სისტემური შეფასება. მნიშვნელოვანია არა ზუსტი ანგარიშის წინასწარ განსაზღვრა, არამედ შედეგის სწორი ფასის შეძენა ცნობილი გაურკვევლობით. ქვემოთ მოცემულია ეტაპობრივი პროცესი: მონაცემების შეგროვებიდან და ხაზების მშენებლობიდან კალიბრაციამდე და საბრძოლო მოქმედებამდე.
1) მონაცემები: მოდელის საფუძველი
წყაროები
მატჩები: მატარებლები, დაზიანებები, დისკვალიფიკაცია, გრაფიკი (b2b/ფრენები), საშინაო/საველე სტატუსი, ამინდი/დაფარვა/არენა, მოსამართლეები.
ტრეკინგი/თამაშის მოვლენები: play-by-play, კოორდინატები, მოვლენები (კუთხის, შეცდომები, ისრები, გადაცემები).
მოწინავე მეტრიკა: xG/xA (ფეხბურთი), eFG %/pace/ORB (კალათბურთი), DVOA (ამერიკული ფეხბურთი), bullpen/park factors (ბეისბოლი), pul/patchi რუკა (esport).
საბაზრო: ხაზების მოძრაობა, რომელიც მოიცავს კოეფიციენტებს (CL), ფულის მოცულობა სასარგებლოა „რეფერენდუმის“ ალბათობის დასადგენად.
გუნდური/მოთამაშის მოთხრობები: ბოლო მატჩების ფორმა N, სტილის H2H, წუთების/დატვირთვის მოდელი.
ხარისხი
სინქრონიზაცია მოახდინეთ დროის ზონებსა და საათების ტიპებზე.
ამოიღეთ დუბლიკატები, შეავსეთ საგუშაგოები დოკუმენტირებული წესებით.
შეადგინეთ „ჭეშმარიტების“ წყაროები საბოლოო სტატისტიკისთვის (მაგალითად, რა განიხილება ოფიციალური xG/დარტყმა).
2) დავალების ფორმულირება
მიზნების ტიპები
კლასიფიკაცია: გამარჯვება/ფრე/დამარცხება; „ორივე გაიტანს“; იქნება ტაიმ-ბრეიკი.
ანგარიში/ინტენსივობა: მოსალოდნელი მიზნები/ქულები (Poisson/უარყოფითი ბინომალური).
განაწილების პროგნოზი: ტოტალები, ინდივიდუალური ინდიკატორები (CRPS, როგორც ხარისხის მეტრიკა).
მოთამაშის ხარვეზები: ქულები/ასისტენტები/ტუზი/იარდები - რეგრესია იერარქიული (mixed) ეფექტებით.
ჰორიზონტი
Prematch (დაწყებამდე T-წუთი).
ლაივი (ღონისძიების განმავლობაში) - დასძენს ნაკადის ფიჩხები და შეფერხებების შეზღუდვები.
3) ფიჩი: რა ნამდვილად ხსნის შედეგს
გუნდის დონე
ძალა (Elo/PRI), თავდასხმის/დაცვის ხარისხის სხვაობა.
ტემპი (pace), სტილი (წნევა/დაბალი ბლოკი; 3PT rate; rush/pass mix).
ფორმა და „დაღლილობა“ (minutes/load, b2b, travel).
სპეციალური ბრიგადები: PP/PK ჰოკეიში, სპეციალური გუნდები ამერიკულ ფეხბურთში.
მოთამაშის დონე
წუთების/მონაწილეობის მოდელი, როლი (მხარდაჭერა), ეფექტურობა (eFG%, OBP, xwOBA).
კომპოზიციები: ხუთ/ბმულის კონკრეტული კომბინაციების ეფექტი.
კონტექსტი
ამინდი/საფარი/არენა, სასამართლო პროფილი (მარყუჟი/პენალტი).
ტურნირის მოტივაცია (გადარჩენა, პლეი ოფი, როტაცია ევროპულ შეჯიბრებებამდე).
ბაზარი
ხაზები/ტოტალები/ჩარჩოები, ოპერატორებს შორის გავრცელება, დახურვის მოძრაობა (პროქსი ინფორმაცია).
4) მოდელები: კლასიკურიდან ნერვულ ქსელებამდე
კლასიფიკაცია/ალბათობა
ლოჯისტიკური რეგრესია (ძირითადი კალიბრის ბენჩმარკი).
გრადიენტის ბუსტინგი (XGBoost/CatBoost/LightGBM) არის ძლიერი დაფის სტანდარტი.
ნერვული ქსელები (MLP) - არაწრფივი და ურთიერთქმედებების დიდი რაოდენობით.
ანგარიში/ინტენსივობა
Poisson/ორგანზომილებიანი Poisson (ფეხბურთი, ხელბურთი).
უარყოფითი ბინომური (overdispersion).
იერარქიული მოდელები მოთამაშეთა/გუნდებისთვის.
თანმიმდევრობა/ლაივი
RNN/GRU/Temporal CNN და ტრანსფორმატორები play-by-play, „მომენტი“ და ტემპის შეცვლა.
ბაიესის რეალურ დროში ინტენსივობის განახლებები.
რეიტინგები
Elo/Glicko დინამიურად ასახავს ძალას; შეგიძლიათ დააკავშიროთ ბუსტინგი.
5) კალიბრაცია და ინტერპრეტაცია
რატომ კალიბრი? ალბათობა უნდა ემთხვეოდეს ფაქტობრივ სიხშირეს.
Platt/Isotonic/Beta კალიბრაცია ნედლეული პროგნოზების თავზე.
კალიბრაციის დიაგრამები, Brier score, LogLoss - ძირითადი მეტრიკა.
ინტერპრეტაცია: permutation importance/SHAP ცვლის და საღი აზრის გასაკონტროლებლად.
6) გულწრფელი ვალდებულება: მის გარეშე ყველაფერი უაზროა
Walk forward (მოცურების ფანჯარა)
დროულად გააზიარეთ: train - validate - test. წარსულში არ არის შერევა.
სტაბილურობის გასაგებად მინიმუმ 3-5 „გაქირავების“ ფანჯარა.
თავიდან ავიცილოთ გაჟონვა
არ გამოიყენოთ postfactum ნიშნები (საბოლოო xG მატჩი მისი დაწყების პროგნოზით).
ლაივ - ფიჩები მხოლოდ ამ დრომდე არის ხელმისაწვდომი.
გაიზიარეთ „კომპოზიციების გამოცხადებამდე“ და „შემდეგ“: ეს არის სხვადასხვა რეჟიმი.
მეტრიკი
ალბათობა: Brier/LogLoss + კალიბრაცია.
რეგრესიები: MAE/RMSE/CRPS.
ბიზნეს მეტრიკა: hit-rate ფასების ზღურბლზე, ლიგის/სეზონის კოჰორტებზე სტაბილურობა.
7) ალბათობიდან გამოსავალამდე: ფასი და სტრატეგია
გაასუფთავეთ ზღვარი (overround)
1X2 ბაზარზე ბინძური ალბათობის ჯამი> 100%. ნორმალიზდება პროპორციულად, რომ მიიღოთ „პატიოსანი“.
Value и EV
Edge: (\text {edge} = p\cdot d - 1).
დააყენეთ მხოლოდ იმ შემთხვევაში, თუ edge არის ბარიერი (მაგალითად, 3-5%).
განაკვეთის ზომა
ფლოტი 0. 5-1% ერთჯერადი; ნაკლები - ექსპრესებზე.
კელის წილი: (f =\frac {p d - 1 {d - 1}), უფრო ხშირად იყენებენ ¼ - ½ კელი დისპერსიისა და შეცდომების გამო (p).
CLV, როგორც ხარისხის კრიტერიუმი
შეადარეთ თქვენი ფასი დახურვას. გრძელვადიანი + CLV არის ჯანსაღი მოდელის და ტაიმინგის ნიშანი.
8) Live პროგნოზი: სიჩქარე და „ფანჯრები“
Pipline
ღონისძიება - fich- ის განახლება ონლაინ ინვესტიცია და რისკის შემოწმება და გამოქვეყნება.
შეფერხების მიზნები: ინვესტიცია <0. 8 ს, განახლების ციკლი 0. 5-2 გვ.
რეალურ დროში ფიჩები
ტემპი/საკუთრება, შეცდომები/ბარათები, დაღლილობა, სპეციალური გუნდები, ეკონომიკური ციკლები ელექტრონული სპორტის სფეროში.
suspension რეჟიმები „მწვავე“ მომენტებში; მოდელებს უნდა შეეძლოთ „დახურვა“.
პრაქტიკა
მოძებნეთ ხაზების „გადახურვა“ მიკროტალღების შემდეგ (ნახტომი 10-0, ადრეული შესვენება), მაგრამ გაითვალისწინეთ ნაკადის შეფერხება - შეიძინეთ ლოგიკა და არა სურათი.
9) მინი შემთხვევები სპორტში
ფეხბურთი (ტოტალები/შედეგები)
ფიჩი: xG 8-12 მატჩისთვის (გაწონასწორებული), წყვილების ტემპი და სტილი, მოსამართლე (პენალტი/ბარათები), როტაცია.
მოდელი: ორგანზომილებიანი Poisson, რომელსაც აქვს სახლის ფაქტორი + კალიბრაცია.
დასკვნა: გოლების განაწილების პროგნოზი - ტოტალების/აზიის ხაზების ფასი.
კალათბურთი (ტოტალები/უფსკრული)
ფიჩები: pace, eFG%, ORB/DRB, შეცდომები/პრემია, რუტინული წუთი.
მოდელი: ტოტალის ბუსტინგი; პროპაგანდისთვის - წუთების იერარქიული რეგრესია × ეფექტურობა.
დასკვნა: ტოტალური ზონების ალბათობა, საშუალო/კვანძი მოთამაშეთა ქულებისთვის.
ჩოგბურთი (შედეგი/თამაში)
ფიჩი: საფარი, შენახვა/მიღება (hold/break%), მეორე მიწოდების ხარისხი, დაღლილობა.
მოდელი: მარკოვსკაია ქულებით/თამაშებით + ლოჯისტიკური „ფენა“ ფორმით; კალიბრაცია.
დასკვნა: გამარჯვების/ჰალსტუხი-შესვენების ალბათობა, თამაშის ტოტალები, თითოეული მოედნის განახლებები.
ელექტრონული სპორტი (ბარათები/რაუნდი)
ფიჩი: აუზის ბარათი, ბან/მწვერვალი, ეკონომიკური ციკლები, LAN დაღლილობა, პატჩი.
მოდელი: ბუსტინგი/მოვლენების ტრანსფორმატორი; ბარათებისთვის - კლასიფიკაცია + CRPS რაუნდებისთვის.
დასკვნა: ბარათის გამარჯვებული, რაუნდის ტოტალები, „პირველი სისხლი/ობიექტი“.
10) MLOps და ოპერაცია (მოწინავე)
Fichstor: offline/ონლაინ consistence, time travel გულწრფელი bactests.
Datasets/მოდელების ვერსია, CI/CD, კანარის გამოშვებები.
მონიტორინგი: მონაცემთა დრიფტი, კალიბრაციის დეგრადაცია, ინვესტიციის ლატენტობა.
ექსპერიმენტები: A/B SRM- ის გარეშე, CUPED/CUPED, წინასწარ განსაზღვრული გაჩერების კრიტერიუმები.
Fail-safe: fallback ხაზები და სახელმძღვანელო წესები ფიდის ინციდენტების დროს.
11) შეცდომები და ანტი-ნიმუშები
გაჟონვა (გაჟონვა): ნიშნები მომავლიდან, მეტრის პოსტ-ფაქტორი პრიმატში.
გადამზადება: ძალიან რთული მოდელი მცირე Dataset- ზე; გადაწყვეტილია რეგულირება, დროის შემოწმება.
ჩანაწერი bias: ბოლო მატჩების გადაფასება; გამოიყენეთ ექსპონენციალური წონა მაქსიმუმის შეზღუდვით.
ანჩორინგი: პირველი ხაზის მითითება; შეადარეთ მოდელის „გულწრფელ“ ფასს.
კალიბრაციის უგულებელყოფა: მრუდი ალბათობის მქონე „ზუსტი“ მოდელი არღვევს EV- ს.
რეჟიმების ნაზავი: „მატარებლებამდე“ და „შემდეგ“ - სხვადასხვა მოდელები.
12) ჩეკის ფურცლები
სწავლის დაწყებამდე
1. მონაცემები გაწმენდილია და სინქრონიზებულია დროის მიხედვით.
2. სამიზნე წარმოება: რას ვგეგმავთ და რატომ (რა გადაწყვეტილებას მივიღებთ).
3. train/valid/test დაყოფა მხოლოდ დროულად.
4. საწვავის ძირითადი მოდელი (ლოჯისტიკური/Poisson).
გამოქვეყნებამდე
1. კალიბრაციის შემოწმება (Brier/LogLoss, reliability plot).
2. Walk-forward სტაბილურია სეზონებში/ლიგებში.
3. არ არის გაჟონვა, ფიჩები ხელმისაწვდომია გაყიდვაში.
4. არსებობს დრიფტის და გადატვირთვის მონიტორინგი.
ფსონის წინ
1. ზღვარი გადაღებულია, edge არის ბარიერი.
2. განაკვეთის ზომა flet/Kelley-Dol.
3. ხარისხის შეფასების გეგმა - CLV- ს თვალყურის დევნება.
4. გაანგარიშების წესების გაგება (OT/VAR/push/void).
13) ეთიკა და პასუხისმგებლობა
მოდელები არის ინსტრუმენტი და არა „ფულის ღილაკი“. პატივი სცეთ დროის/ფულის ლიმიტებს, შეაჩერეთ პაუზები, არ გამოიყენოთ ინსაიდები/არაკეთილსინდისიერი წყაროები და გახსოვდეთ, რომ იდეალური მოდელიც კი ცდება ცალკეულ მატჩებში. თქვენი მიზანია უპირატესობა მანძილზე და არა „ჰიტის 100%“.
მონაცემთა გამოყენებით სპორტული შედეგების პროგნოზირება არის ციკლი: მონაცემები - ფიჩები - მოდელი - კალიბრაცია - გულწრფელი მისწრაფება - გამოსავალი ფასისა და პოსტ-ანალიზისთვის. არ იდევნოთ ეგზოტიკური: სუსტი ბენზინგასამართი სადგური, სუფთა მონაცემები და კალიბრირებული ალბათობა ხშირად უფრო ძლიერია, ვიდრე „მოდური“ არქიტექტურები. დაამატეთ სირთულე მხოლოდ მაშინ, როდესაც ის იძლევა ხარისხის სტაბილურ ზრდას walk-forward- ზე და აუმჯობესებს CLV- ს. გააკეთეთ ნაკლები, მაგრამ უკეთესი - და მანძილი დაიწყებს შენზე მუშაობას.