Ինչպես կանխատեսել սպորտային արդյունքները տվյալների միջոցով
Սպորտում կանխատեսումը ոչ թե «գուշակություն» է, այլ հավանականության համակարգային գնահատում։ Կարևոր է ոչ թե կանխագուշակել ճշգրիտ հաշիվը, այլ գնել արդյունքի ճիշտ գինը հայտնի անորոշությամբ։ Ներքևում կոպիտ գործընթաց է 'տվյալների հավաքումից և ֆիչի կառուցումից մինչև տրամաչափումը և ռազմական գործողությունը։
1) Տվյալները 'մոդելի հիմքը
Աղբյուրները
Խաղային 'կոմպոզիցիաներ, վնասվածքներ, որակազրկումներ, հյուրանոցներ (b2b/թռիչքներ), տնային/արտագնա կարգավիճակ, եղանակ/ծածկույթ/արենա, դատավորներ։
Treking/խաղային իրադարձություններ 'play-by-play, կոորդինատներ, իրադարձություններ (անկյունային, ֆոլներ, նետեր, փոխանցումներ)։
Առաջադեմ մետրերը ՝ xG/xA (ֆուտբոլ), eFG %/pace/ORB (ֆուտբոլ), DVOA (ամերիկյան ֆուտբոլ), bullpen/park factors (բեյսբոլի), քարտեզը/patchi (կիբերսպորտ)։
Շուկայական 'գծերի շարժումը, որոնք փակում են գործակիցները (CL), փողի ծավալը օգտակար է «հանրաքվեական» հավանականությունը նշելու համար։
Թիմային/խաղացողական պատմություններ 'N վերջին ոճերի ձևը, H2H ոճերով, րոպե/բեռի մոդել։
Որակը
Համաժամեցեք ժամանակային գոտիները և ժամացույցի տեսակները (event time vs processing Time)։- Հեռացրեք կրկնօրինակները, լրացրեք անցումները փաստագրված կանոններով։
- Գրանցեք «ճշմարտության» աղբյուրները վերջնական վիճակագրության համար (օրինակ, որ հաշվում եք պաշտոնական xG/հարվածը)։
2) Մենք ձևակերպում ենք խնդիրը
Նպատակների տեսակները
Դասակարգումը 'հաղթանակ/ոչ-ոքի/պարտություն; «Երկուսն էլ կխաղան»։ արդյո՞ ք թայ-բրեյքը կլինի։- Հաշիվը/ինտենսիվությունը 'սպասվող գոլերը/ակնոցները (Պուասսոն/բացասական կենսաբանական)։
- Բաշխման կանխատեսումը 'տոտալներ, անհատական ցուցանիշներ (CRPS որպես որակի փոխաբերություն)։
- Խաղացողի բացթողումները 'ակնոցներ/ասիստներ/assa/yards - ռեգրեսիա հիերարխիկ (mixed) էֆեկտներով։
Հորիզոն
Prematch (T-րոպե մինչև սկսելը)։- Live (իրադարձության ընթացքում) - ավելացնում է հոսքային փուչիկները և սահմանափակումները։
3) Ֆիչի 'Ի՞ նչն է իսկապես բացատրում արդյունքը
Թիմային մակարդակը
Ուժը (Elo/PRI), հարձակման/պաշտպանության որակի տարբերությունը։
Տեմպը (pace), ոճը (ճնշումը/ցածր բլոկը; 3PT rate; rush/pass mix).
Ձևը և «հոգնածությունը» (minutes/load, b2b, travel)։
Հատուկ բրիգադներ ՝ PP/PK հոքեում, special teams ամերիկյան ֆուտբոլ։
Խաղացողի մակարդակը
Րոպե/մասնակցությունը, դերը (usage), արդյունավետությունը (eFG%, OBP, xwOBA)։- Կոմպոզիցիաներ 'բծերի/օղակների հատուկ համադրությունների էֆեկտը։
Համատեքստը
Եղանակը/ծածկույթը/արենան, դատավորի պրոֆիլը (ֆոլկլյուզ/տուգանային)։- Պաշտպանողական մոտիվացիա (գոյատևումը, փլեյ-օֆֆը, եվրոպական մրցույթների առջև ռոտացիաները)։
Շուկայական
Գծեր/տոտալներ, օպերատորների միջև, շարժումը փակելու (proxy տեղեկատվություն)։
4) Մոդելներ 'դասականներից մինչև նյարդային ցանցեր
Դասակարգում/հավանականություն
Լոգիստիկ ռեգրեսիա (հիմնական տրամաչափական բենչմարկ)։- Gradient Busting (XGBoost/CatBoost/Last GBM) - ուժեղ պլաստիկ կոմպոզիցիա։
- Նեյրոսաու (MLP) - մեծ թվով ոչ գծայնություններ և փոխազդեցություններ։
Հաշիվը/ինտենսիվությունը
Պուասոն/երկչափ Պուասսոն (ֆուտբոլ, հանդբոլ)։- Բացասական կենսաբանական (overdispersion)։
- Խաղացողների/թիմերի հիերարխիկ մոդելները (partial pooling)։
Հաջորդականություններ/լայնություն
RNN/GRU/Temensal CNN և տրանսֆորմատորներ play-by-play, «պահ» և տեմպի փոփոխություն։- Բայեսովի ինտենսիվության նորարարությունները իրական ժամանակում։
Վարկանիշներ
Elo/Glicko դինամիկորեն արտահայտում են ուժը։ կարող եք համադրել բուստինգի հետ (stacking)։
5) Տրամաբանությունը և մեկնաբանությունը
Ինչու՞ տրամաչափել։ Հավանականությունը պետք է համընկնի իրական հաճախությունների հետ։
Platt/Isotonic/Beta-տրամաչափը հում կանխատեսումների վերևում։- Կալիբրացման դիագրամները, Brier score, LogLoss-ը հիմնական չափումներ են։
- Մեկնաբանությունը 'permutation import.ru/SHAP-ը տեղաշարժերը վերահսկելու և ողջամիտ իմաստը։
6) Ազնիվ վալիդացիա. Առանց դրա ամեն ինչ անիմաստ է։
Walk-forward (սահուն պատուհան)
Արեք ժամանակը 'train walidate protest։ Ոչ մի խառնուրդ անցյալում։- Առնվազն 3-5 «վարձույթ» պատուհանները հասկանալու համար։
Կանխում ենք արտահոսքերը
Մի օգտագործեք փոստի ֆակտումը (xG խաղերը, երբ կանխատեսում եք դրա սկիզբը)։- Լայվայում ֆիչին հասանելի է միայն մինչ օրս։
- Բաժանեք «մինչև կոմպոզիցիաների հայտարարումը» և «հետո», սրանք տարբեր ռեժիմներ են։
Մետրիկները
Հավանականությունը ՝ Brier/LogLoss + տրամաչափը։- Ռեգրեսիա ՝ MAE/RMSE/CRPS։
- Բիզնես մետր 'hit-rate գնի շեմին, որը տեղադրված է լիգաների/սեզոնների կոորդինատների վրա։
7) լուծման հավանականությունից 'գինը և ռազմավարությունը
Մենք մաքրում ենք մարջուն (overround)- 1X2 շուկայում «կեղտոտ» հավանականության գումարը> 100 տոկոսը։ Նորմալիզացրեք համամասնորեն, որպեսզի ստանաք «ազնիվ» (p)։
Value и EV
Էջ: (105 + edge = p/cdot d - 1)։
Տեղադրել, միայն եթե edge-ը համապատասխանում է շեմին (օրինակ, 3-5 տոկոսը)։
Տոկոսադրույքի չափը
Ֆլեթ 0։ Հինգ-1 տոկոսը միայնակ։ ավելի քիչ էքսպրեսիայի վրա։
Քելիի մասնաբաժինը ՝ (f = pranac + p d - 1 + + d - 1), ավելի հաճախ օգտագործում են www.dm Kelly-ը ցրման և սխալների պատճառով (p)։
CLV որպես որակի չափանիշներ
Համեմատեք ձեր գինը փակողի հետ։ Երկարաժամկետ + CLV-ը առողջ մոդելի և թայմինգի նշան է։
8) Live կանխատեսումը 'արագությունը և «պատուհանները»
Prespline
Իրադարձությունը պլանավորեց ֆիչի նորարարությունը ռուսական առցանց ինֆիքսը հաստատեց ռիսկի ստուգումը ռուսական հրապարակումը։
Ձերբակալման նպատակները 'ինֆիս <0։ 8 s, թարմացման ցիկլը 0։ 5-2 վրկ։
Ֆիչին իրական ժամանակում
Տեմպը/սեփականությունը, ֆոլները/քարտերը, հոգնածությունը, special teams, տնտեսական ցիկլերը կիբերսպորտում։
Suspension ռեժիմները «սուր» պահերում։ մոդելները պետք է կարողանան «փչացնել»։
Պրակտիկա
Փնտրեք «գերտաքացման» գծերը միկրովայրկյաններից անմիջապես հետո (10-0, վաղ ընդմիջում), բայց հաշվի առեք հոսանքի հետաձգումը, գնեք տրամաբանություն, ոչ թե նկար։
9) Սպորտի մինի-քեյսները
Ֆուտբոլ (տոտալ/ելքեր)
Ֆիչին ՝ xG 8-12 ռուբլիների համար (կշռված), զույգերի տեմպը և ոճը, դատավորը (տուգանային/քարտ), պարտատոմսերը։
Մոդել 'երկչափ Պուասոն տնային գործոնով + տրամաչափը։- Եզրակացությունը 'գոլերի բաշխման կանխատեսումը տոտալների/ասիական գծերի գինն է։
Բոբոլ (տոտալներ/անհաջողություններ)
Ֆիչին 'pace, eFG%, ORB/SDB, ֆոլներ/բոնուս, րոպեների գրաֆիկ։- Մոդել 'բուստինգ տոտալի համար; պրոպագանդաների համար րոպեի հիերարխիկ ռեգրեսիան արդյունավետ արդյունավետություն է։
- Եզրակացությունը 'տոտալի գոտիների հավանականությունը, բժիշկները/քվանտները խաղացողների ակնոցների համար։
Թենիս (արդյունքը/խաղացողները)
Ֆիչին 'ծածկույթ, պահպանում/ընդունելություն (hold/break%), երկրորդ մրցույթի որակը, հոգնածությունը։- Մոդելը 'Մարկովի ակնոցներով/խաղերով + լոգիստիկ «շերտը» ձևով; տրամաչափը։
- Եզրակացությունն այն է, որ հաղթանակի հավանականությունը/թայ-բրեյքը, խաղացողների տոտալները, յուրաքանչյուր ներկայացման լայվ նորարարությունները։
Քիբերսպորտը (քարտեզներ/փուլեր)
Ֆիչին 'քարտեզի փամփուշտը, բանը/պիկը, տնտեսական ցիկլերը, LAN հոգնածությունը, պաթչերը։- Մոդել 'բուստինգ/տրանսֆորմատոր իրադարձությունների վրա։ քարտեզների համար + CRPS դասակարգումն է։
- Եզրակացությունը 'քարտեզի հաղթողը, փուլերի տոտալները, «առաջին արյուն/օբյեկտ»։
10) MLOps-ը և (առաջադեմ)
Ֆիչստորը 'ofline/առցանց կոնսիստենտություն, time travel ազնիվ bektests համար։- Թվանշանների/մոդելների տարբերակումը, CI/CD, կանարեքային ալգորիթմները։
- Տե՛ ս տվյալների դրեյֆը, տրամաչափի քայքայումը, ինֆիսի լատենտալությունը։
- Փորձարկումներ ՝ A/B առանց PPM, CUPED/2019-in-2019, նախապես գրված stop-չափանիշներ։
- Fail-safe: fallback գծերը և ձեռքով կանոնները ֆիդների պատահականության ժամանակ։
11) Սխալներ և հակատիպեր
Արտահոսք (leakage) 'ապագայի նշաններ, փոխաբերության հետադարձ գործոն։- Վերապատրաստում 'չափազանց բարդ մոդել փոքր ամսաթվով։ լուծվում է կարգավորումը, ժամանակի ստուգումը։
- Recency bias 'վերջին կղզիների վերագնահատումը; օգտագործեք էքսպոնենցիալ քաշը առավելագույն սահմանափակումով։
- Anchoring: Առաջին գծի կապակցումը; համեմատեք մոդելի «ազնիվ» գնի հետ։
- Կալիբրացիայի անտեսումը '«ճշգրիտ» մոդելը կորի հավանականությամբ կոտրում է EV-ը։
- Ռեժիմների խառնուրդը '«մինչև կոմպոզիցիաները» և «հետո» տարբեր մոդելներ են։
12) Չեկ թերթերը
Սովորելուց առաջ
1. Տվյալները մաքրված և համաժամեցված են ժամանակի ընթացքում։
2. Նպատակային արտադրություն 'ինչ ենք կանխատեսում և ինչու (ինչ լուծում կտանք)։
3. Train/valid/test բաժանումը միայն ժամանակի ընթացքում։
4. Ռուսական բենչմարկ (լոգիստիկ/Պուասոն)։
Հրապարակումից առաջ
1. Տրամաբանությունը ստուգված է (Brier/LogLoss, reliability plot)։
2. Walk-forward-ը համապատասխանում է սեզոնների/լիգաների վրա։
3. Արտահոսք չկա, ֆիչին հասանելի է վաճառքում։
4. Գոյություն ունի փխրուն և գերբնակվածություն։
Դարակաշարից առաջ
1. Մարջան նկարահանվում է, edge-ը։
2. Ֆլետի տոկոսադրույքի չափը/Քելլի-դոլոն է։
3. Որակի գնահատման պլանը CLV-ի հետևելն է։
4. Հաշվարկման կանոնների հասկացությունը (OT/VAR/push/void)։
13) Էթիկան և պատասխանատվությունը
Մոդելները գործիք են, ոչ թե «փողի կոճակ»։ Հարգեք ժամանակի/փողի սահմանները, դադար կատարեք, մի օգտագործեք ինսայդեր/անազնիվ աղբյուրներ և հիշեք, որ նույնիսկ կատարյալ մոդելը սխալվում է առանձին խաղերում։ Ձեր նպատակը հեռավորության առավելությունն է, ոչ թե «100 տոկոսը»։
Սպորտային արդյունքների կանխատեսումը տվյալների միջոցով ցիկլ է 'դելֆիչիի տվյալները ստանդարտ տրամաչափման մոդելը բացատրում է ազնիվ վալիդացիան, որը լուծում է ռուսական փոփի վերլուծության գնով։ Մի հետապնդեք էկզոտիկան 'բարակ բենչմարկ, մաքուր տվյալներ և տրամաչափված հավանականությունները հաճախ ավելի ուժեղ են, քան նորաձև ճարտարապետությունները։ Ավելացրեք բարդությունը միայն այն ժամանակ, երբ այն տալիս է որակի կայուն աճ walk forward-ում և բարելավում CLV-ը։ Արեք ավելի քիչ, բայց ավելի լավ, և հեռավորությունը կսկսի աշխատել ձեզ վրա։