Ինչպես AI-ն հասկանում է լավագույն խաղացողների ռազմավարությունը
1) Տվյալները ՝ որից «հավաքում» են ռազմավարությունը
Աղբյուրները
Hand histories/raction: գործողություններ, sizings, դիրքեր, ապակիներ, SPR, pot-odds, Bords։
Տեսահոլովակը և օվերլեը 'OCR-ի համար 2019/հավասարակշռության համար, ASR ելույթի համար (մեկնաբանություններ, թայմինգ)։
Դաշտի կոնտեքստը '3 բետա/հակառակորդների օղակների հաճախականությունը, թայմինգները, հեռավորությունները, շարժիչի կառուցվածքը (ICM)։
Մեթադները ՝ ձևաչափը (քաշ/ռոտր), քայլը, բլինդները, անտեն, սեղանի/լիմիտայի կանոնները։
Մաքրում և վալիդացիա
Deduplication, sizings նորմալացում (bb,% pota), ժամանակի համաժամեցումը, անոմալիայի/կոլյուզիայի հղումը։
Անանունացում 'անձնական տվյալների հեռացում, կայքերի կանոնների պահպանումը։
2) Ստանդարտ ՝ GTO և աղերը որպես «գիծ»
Solvers/CFR: Նրանք կառուցում են մոտ հավասարակշռության ռազմավարություն (mix հաճախականություններ), կարծում են, որ deloitability և regret։
Աբստրակիա 'բորդերի դասարաններ, բիթ ծառեր, սիզինգների սեղմում, որպեսզի խնդիրը լուծվի։- Համեմատություն 'լավագույն խաղացողը = GTO-ն ընդգծում է շեղումները։ Այնտեղ, որտեղ պլաստիկ միջավայրը, լավագույնները գիտակցաբար հեռանում են «մաքուր տեսությունից» դաշտի դեմ էքսպլոյտի մեջ։
Եզրակացությունը 'ԻԻ-ն համեմատում է որոշումների իրական գծերը հավասարակշռության հետ և նշում է տարբերությունը, որտեղ սովորաբար գտնվում է հմտությունը։
3) Ինչպե՞ ս է ԻԻ-ն «կռահում» նպատակի մասին ՝ երեք մոտեցում։
1. Imitation Learning (վարքագծային կլոն)
Մոդելը սովորում է կրկնել լավագույն խաղացողի ընտրությունը սեղանի տեսանկյունից։ Մետրիկները ՝ accuracy-ը գործողությունների դասարաններում, MAE-ը սիզինգի, հավանականության տրամաչափը։
2. Inverse Reinforcement Learning (IRL)
Գործողության պատճենման փոխարեն մենք վերականգնում ենք արժեքի ֆունկցիան, որ խաղացողը ավելացնում է (EV, ռիսկի սկոր, ICM հավասարակշռություն, ճնշում միջակայքի վրա)։ Արդյունքը տարբեր իրավիճակներում «մրցանակների» քաշների քարտեզն է։
3. Bayesian Opponent Modeling / Contextual Bandits
Մոդելը կարծում է, որ լավագույն խաղացողը փոխում է քաղաքականությունը մրցակցին և պաշտպանությանը։ Պարզվում է, որ թելերի դեմ 'մեկը, ագրոյի դեմ' մեկ այլ։ թիթեռի վրա երրորդն է։
4) Բացատրություն. Ինչու՞ է լուծումը «ճիշտ»
SHAP/IG պլանշետային և տրանսֆորմացիոն մոդելների համար 'նշանների ներդրումը (դիրք, SPR, ռանգներ/մաստեր, պողպատ-հարաբերություններ) հատուկ զանգի/բետի մեջ։
Attention-մատրիցա 'որ մոդելը «նայեց» գծերի հավաքման ժամանակ։ օգտակար է մի քանի փողոցների բաժանման համար։
Counterfactuals: «Ինչ եթե» - փոխում ենք սիզինգը/դիրքը/թայմինգը և նայում, երբ կանխատեսումը տեղի է ունենում։
Calibrated uncertainty: Մենք դասակարգում ենք «վստահ bredny», որտեղ քիչ տվյալներ կան, մոդելը ազնվորեն բարձրացնում է անորոշության դրոշը։
5) Patterns-ը, որ II-ն առանձնացնում է կացինների մեջ (poker)
Սայզինգը որպես մտադրությունների լեզու 'ավելի քիչ համախմբումներ սիրահարների մոտ։ կացինները ճկուն խառնվում են 25/33/50/75/125 տոկոսը բորդի կառուցվածքով։
GTO-ի նպատակային շեղումները 'ավելի ագրեսիվ c-bet ցածր համակարգված բորդերի վրա պասիվ դաշտի դեմ։ ավելի լայն 3 բիթեր ճառագայթային սլայդների դեմ։
ICM կարգապահություն 'բաբլայում/ֆինալներում լավագույնները սարսափեցնում են անիվի քնկոտությունները և վերաբաշխում ագրեսիան «ճնշող» գծերում։
Թայմինգն ու տեմպը 'կայուն ընդմիջումներ կայացնելու համար «պարզ» սպոտներում և դիտավորյալ դադար հանգույցներում' վերահսկման նշաններ, ոչ թե վաղ։
6) Քեյզները պոկերից դուրս
Սպորտի տոկոսադրույքները
Ֆիչին 'ժամանակի շուկայի գծերը, կայունությունը, մարժան, խաղային իրադարձությունները։- Մոդելներ 'պատճառահետևանքային (uplift) - առանձնացնել խաղացողի "հմտությունը" բախտից "և գծից։ ավազակները, երբ «որքա՞ ն» և «երբ» ավելի քիչ/ընդհանրապես չեն դնում։
- Եզրակացությունը 'ԻԻ-ն հայտնաբերում է ռիսկային կառավարումը, ոչ թե «գաղտնի ազդանշանները», լավագույնները կանգ են առնում ցրման աճի ժամանակ և չեն «բռնում»։
Live-խաղեր/blackjek
ԻԻ-ն գնահատում է կարգապահությունն ու շեղումները, ոչ թե «ընթերցանությունը» 'հստակ հետևելով ռազմավարական ռազմավարությանը, ճիշտ շեղումները (սեղանի կանոնների համաձայն), բետա վերահսկումը դաունստրիկում։
Արցունքներ
Միայն վարքագծի և բովանդակության վերլուծությունը '«պիկի» հաճախությունը, «չոր» պատուհանների տևողությունը, SSL/SW/պաուզը։ II-ը չի կարող «բարձրացնել հնարավորությունը» RNG խաղերում։ կարող է միայն նվազեցնել վարքագծային սխալները և օգնել տեսահոլովակների տեղադրմանը։
7) Վերլուծության որակը
Euroitability/Avg Regret (vs GTO) - ինչքան խոցելի ռազմավարություն։- SysteEV: EV-ի աճի/կորցնելը լավագույն խաղացողի գծին համեմատած դաշտի կոնտեքստում։
- Precision @ TopK spots: Արդյո՞ ք մենք ճանաչում ենք ամենաթանկ լուծումները։
- Calibration: կանխատեսված հավանականությունները համապատասխանում են հաճախականություններին։
- Risk & Discipline: Պահպանված SSL/SW մասնաբաժինը, բանկի միջին/գագաթնակետը, change point tilt։
8) Mini-interpline թիմի համար (առանց կոդի)
1. Հավաքումը 'hands/տեսահոլովակ www.arsing-ը տիմկոդների համաժամեցումն է։
2. Նորմալացում 'ֆիչին (դիրքը, SPR, բորդի տեքստուրա, ապակիներ), թեգերը (փուլը, ICM)։
3. Ստանդարտ 'հիմնական սպոտների հատումը աղի միջոցով բացատրվում է «GTO հաճախականության» հիմքով։
4. Ուսուցում 'իմիտացիա (տոպի գծեր) + IRL (արժեքներ) + հակառակորդների բայես մոդելը։
5. Վալիդացիա 'holdout նոր շարքերից/մրցակիցներից; տրամաչափման ստուգում։
6. Զեկույցները 'Space EV-ը, կարմիր շեղումները, առաջարկվող խառնուրդները և սիզինգները, բացատրություններով տեսահոլովակները։
9) Բացատրական զեկույցներ. Ինչպե՞ ս է դա նման մարդու համար
Քնի քարտը '"BTN vs BB, SPR 3, T73 բորդ; լավագույն խաղացողը 'bet 33%; GTO mix: 33%(60%)/check(40%); ΔEV +0. 12 bb vs դաշտ; Ինչու' BB overfolds այս տեքստերում"։
Միկսերի գրաֆիկը 'որտեղ ավելացնել 3-բեթ/չեկ թռիչք, որտեղ կրճատել բարելը։
ICM-ի քարտեզը 'այն ոլորտները, որտեղ դուք պետք է գաք զանգեր և ճնշումը գցեք թռիչքների մեջ։- Ռիսկերը/կարգապահությունը '«երկու change-point tilt tillt-ի համար, ավելի բարձր, քան պլանային սիզինգը 1,7-ն է, տեղադրեք գագաթների կանոնը»։
10) Էթիկան և կարմիր գծերը
Ոչ մի խորհուրդ չկա շրջանցել գեո/KYC/MSN կամ կայքերի կանոնները։- Ոչ մի «հաղթելու երաշխիքներ», «ազդանշաններ» և «ներարկումներ»։
- Փղերը արգելում են ազդեցության պատրանքը RNG-ի վրա 'միայն վարքի և պատասխանատվության վերլուծություն։
- Գաղտնիությունը անանուն է, տվյալների նվազեցումը, քաղաքականության պահպանումը։
11) Արագ ձևանմուշներ պրակտիկայի համար
«Խաղացողի նստաշրջանի արդյունքները» (1 նոյեմբերի)
Լավագույն հինգ սպոտներ EV-ով; որտեղ GTO-ի շեղումները իմաստալից դրական են։- Լավագույն 3 խոցելիությունը (wwww.oitability) 'ավելցուկ բարել, նեղ օղակներ, ոչ-3 բետա։
- Կարգապահություն 'SSL/SW պահպանումը, գագաթնակետը, ընդմիջումները։
- Պլանը '2 վարժություններ, որոնք ցածր համակարգված են, 1-ICM-ը' թիթեռի վրա։
«Կլիպի վերլուծություն» (60-90 վայրկյան)
Համատեքստը (դիրք/stek/SPR) Ի՞ նչ է արել բարձրախոսը, որն ասել է սոլվերը.
12) Թիմերի բնորոշ սխալները
Նրանք շփոթում են «պատճենել» և «հասկացողություն» 'առանց IRL-ի և բացատրության, առանց պլանի կլոններ են ստացվում։
Նրանք թերագնահատում են դաշտերը 'ռազմավարություն, որը կշռում է vs GTO-ը, բայց մինուսային վսը հատուկ հակառակորդների հաճախականությունները։
Նրանք անտեսում են դիսպոզիան 'փոքր ընտրության եզրակացությունները կեղծ են։ Անհրաժեշտ է վստահելի ընդմիջումներ և ազնիվ անորոշություն։
«Շոուի» վրա ռիսկի փոխարեն 'վերլուծություն առանց SSL/SW-ի' թիլթի ճանապարհը։
ԻԻ-ն «հասկանում է» բարձրագույն խաղացողների ռազմավարությունը, համեմատելով նրանց գծերը դաշտի տեսության և համատեքստի հետ, վերականգնելով որոշումների թաքնված նպատակները և բացատրելով, թե ինչ շեղումներ են անում փողը, և ինչ խոցելիություններ են բացահայտում։ Այստեղ արժեքը ոչ թե «մեքենան սովորեցնում է հաղթել բոլորին», այլ պարզության մեջ, թե որտեղ է ձեր պլանը ուժեղ, որտեղ թաքնված և ինչպես է կարգապահությունը նվազեցնում ռիսկը։ Որքան ավելի թափանցիկ է մետրերը, այնքան ավելի մեծահասակ է ռազմավարությունը, և այնքան երկար եք մնում խաղի մեջ։
