Ինչպես AI-ն հասկանում է լավագույն խաղացողների ռազմավարությունը

1) Տվյալները ՝ որից «հավաքում» են ռազմավարությունը

Աղբյուրները

Hand histories/raction: գործողություններ, sizings, դիրքեր, ապակիներ, SPR, pot-odds, Bords։

Տեսահոլովակը և օվերլեը 'OCR-ի համար 2019/հավասարակշռության համար, ASR ելույթի համար (մեկնաբանություններ, թայմինգ)։

Դաշտի կոնտեքստը '3 բետա/հակառակորդների օղակների հաճախականությունը, թայմինգները, հեռավորությունները, շարժիչի կառուցվածքը (ICM)։

Մեթադները ՝ ձևաչափը (քաշ/ռոտր), քայլը, բլինդները, անտեն, սեղանի/լիմիտայի կանոնները։

Մաքրում և վալիդացիա

Deduplication, sizings նորմալացում (bb,% pota), ժամանակի համաժամեցումը, անոմալիայի/կոլյուզիայի հղումը։

Անանունացում 'անձնական տվյալների հեռացում, կայքերի կանոնների պահպանումը։

2) Ստանդարտ ՝ GTO և աղերը որպես «գիծ»

Solvers/CFR: Նրանք կառուցում են մոտ հավասարակշռության ռազմավարություն (mix հաճախականություններ), կարծում են, որ deloitability և regret։

Աբստրակիա 'բորդերի դասարաններ, բիթ ծառեր, սիզինգների սեղմում, որպեսզի խնդիրը լուծվի։

Համեմատություն 'լավագույն խաղացողը = GTO-ն ընդգծում է շեղումները։ Այնտեղ, որտեղ պլաստիկ միջավայրը, լավագույնները գիտակցաբար հեռանում են «մաքուր տեսությունից» դաշտի դեմ էքսպլոյտի մեջ։

Եզրակացությունը 'ԻԻ-ն համեմատում է որոշումների իրական գծերը հավասարակշռության հետ և նշում է տարբերությունը, որտեղ սովորաբար գտնվում է հմտությունը։

3) Ինչպե՞ ս է ԻԻ-ն «կռահում» նպատակի մասին ՝ երեք մոտեցում։

1. Imitation Learning (վարքագծային կլոն)

Մոդելը սովորում է կրկնել լավագույն խաղացողի ընտրությունը սեղանի տեսանկյունից։ Մետրիկները ՝ accuracy-ը գործողությունների դասարաններում, MAE-ը սիզինգի, հավանականության տրամաչափը։

2. Inverse Reinforcement Learning (IRL)

Գործողության պատճենման փոխարեն մենք վերականգնում ենք արժեքի ֆունկցիան, որ խաղացողը ավելացնում է (EV, ռիսկի սկոր, ICM հավասարակշռություն, ճնշում միջակայքի վրա)։ Արդյունքը տարբեր իրավիճակներում «մրցանակների» քաշների քարտեզն է։

3. Bayesian Opponent Modeling / Contextual Bandits

Մոդելը կարծում է, որ լավագույն խաղացողը փոխում է քաղաքականությունը մրցակցին և պաշտպանությանը։ Պարզվում է, որ թելերի դեմ 'մեկը, ագրոյի դեմ' մեկ այլ։ թիթեռի վրա երրորդն է։

4) Բացատրություն. Ինչու՞ է լուծումը «ճիշտ»

SHAP/IG պլանշետային և տրանսֆորմացիոն մոդելների համար 'նշանների ներդրումը (դիրք, SPR, ռանգներ/մաստեր, պողպատ-հարաբերություններ) հատուկ զանգի/բետի մեջ։

Attention-մատրիցա 'որ մոդելը «նայեց» գծերի հավաքման ժամանակ։ օգտակար է մի քանի փողոցների բաժանման համար։

Counterfactuals: «Ինչ եթե» - փոխում ենք սիզինգը/դիրքը/թայմինգը և նայում, երբ կանխատեսումը տեղի է ունենում։

Calibrated uncertainty: Մենք դասակարգում ենք «վստահ bredny», որտեղ քիչ տվյալներ կան, մոդելը ազնվորեն բարձրացնում է անորոշության դրոշը։

5) Patterns-ը, որ II-ն առանձնացնում է կացինների մեջ (poker)

Սայզինգը որպես մտադրությունների լեզու 'ավելի քիչ համախմբումներ սիրահարների մոտ։ կացինները ճկուն խառնվում են 25/33/50/75/125 տոկոսը բորդի կառուցվածքով։

GTO-ի նպատակային շեղումները 'ավելի ագրեսիվ c-bet ցածր համակարգված բորդերի վրա պասիվ դաշտի դեմ։ ավելի լայն 3 բիթեր ճառագայթային սլայդների դեմ։

ICM կարգապահություն 'բաբլայում/ֆինալներում լավագույնները սարսափեցնում են անիվի քնկոտությունները և վերաբաշխում ագրեսիան «ճնշող» գծերում։

Թայմինգն ու տեմպը 'կայուն ընդմիջումներ կայացնելու համար «պարզ» սպոտներում և դիտավորյալ դադար հանգույցներում' վերահսկման նշաններ, ոչ թե վաղ։

6) Քեյզները պոկերից դուրս

Սպորտի տոկոսադրույքները

Ֆիչին 'ժամանակի շուկայի գծերը, կայունությունը, մարժան, խաղային իրադարձությունները։

Մոդելներ 'պատճառահետևանքային (uplift) - առանձնացնել խաղացողի "հմտությունը" բախտից "և գծից։ ավազակները, երբ «որքա՞ ն» և «երբ» ավելի քիչ/ընդհանրապես չեն դնում։
Եզրակացությունը 'ԻԻ-ն հայտնաբերում է ռիսկային կառավարումը, ոչ թե «գաղտնի ազդանշանները», լավագույնները կանգ են առնում ցրման աճի ժամանակ և չեն «բռնում»։

Live-խաղեր/blackjek

ԻԻ-ն գնահատում է կարգապահությունն ու շեղումները, ոչ թե «ընթերցանությունը» 'հստակ հետևելով ռազմավարական ռազմավարությանը, ճիշտ շեղումները (սեղանի կանոնների համաձայն), բետա վերահսկումը դաունստրիկում։

Արցունքներ

Միայն վարքագծի և բովանդակության վերլուծությունը '«պիկի» հաճախությունը, «չոր» պատուհանների տևողությունը, SSL/SW/պաուզը։ II-ը չի կարող «բարձրացնել հնարավորությունը» RNG խաղերում։ կարող է միայն նվազեցնել վարքագծային սխալները և օգնել տեսահոլովակների տեղադրմանը։

7) Վերլուծության որակը

Euroitability/Avg Regret (vs GTO) - ինչքան խոցելի ռազմավարություն։

SysteEV: EV-ի աճի/կորցնելը լավագույն խաղացողի գծին համեմատած դաշտի կոնտեքստում։
Precision @ TopK spots: Արդյո՞ ք մենք ճանաչում ենք ամենաթանկ լուծումները։
Calibration: կանխատեսված հավանականությունները համապատասխանում են հաճախականություններին։
Risk & Discipline: Պահպանված SSL/SW մասնաբաժինը, բանկի միջին/գագաթնակետը, change point tilt։

8) Mini-interpline թիմի համար (առանց կոդի)

1. Հավաքումը 'hands/տեսահոլովակ www.arsing-ը տիմկոդների համաժամեցումն է։

2. Նորմալացում 'ֆիչին (դիրքը, SPR, բորդի տեքստուրա, ապակիներ), թեգերը (փուլը, ICM)։

3. Ստանդարտ 'հիմնական սպոտների հատումը աղի միջոցով բացատրվում է «GTO հաճախականության» հիմքով։

4. Ուսուցում 'իմիտացիա (տոպի գծեր) + IRL (արժեքներ) + հակառակորդների բայես մոդելը։

5. Վալիդացիա 'holdout նոր շարքերից/մրցակիցներից; տրամաչափման ստուգում։

6. Զեկույցները 'Space EV-ը, կարմիր շեղումները, առաջարկվող խառնուրդները և սիզինգները, բացատրություններով տեսահոլովակները։

9) Բացատրական զեկույցներ. Ինչպե՞ ս է դա նման մարդու համար

Քնի քարտը '"BTN vs BB, SPR 3, T73 բորդ; լավագույն խաղացողը 'bet 33%; GTO mix: 33%(60%)/check(40%); ΔEV +0. 12 bb vs դաշտ; Ինչու' BB overfolds այս տեքստերում"։

Միկսերի գրաֆիկը 'որտեղ ավելացնել 3-բեթ/չեկ թռիչք, որտեղ կրճատել բարելը։

ICM-ի քարտեզը 'այն ոլորտները, որտեղ դուք պետք է գաք զանգեր և ճնշումը գցեք թռիչքների մեջ։

Ռիսկերը/կարգապահությունը '«երկու change-point tilt tillt-ի համար, ավելի բարձր, քան պլանային սիզինգը 1,7-ն է, տեղադրեք գագաթների կանոնը»։

10) Էթիկան և կարմիր գծերը

Ոչ մի խորհուրդ չկա շրջանցել գեո/KYC/MSN կամ կայքերի կանոնները։

Ոչ մի «հաղթելու երաշխիքներ», «ազդանշաններ» և «ներարկումներ»։
Փղերը արգելում են ազդեցության պատրանքը RNG-ի վրա 'միայն վարքի և պատասխանատվության վերլուծություն։
Գաղտնիությունը անանուն է, տվյալների նվազեցումը, քաղաքականության պահպանումը։

11) Արագ ձևանմուշներ պրակտիկայի համար

«Խաղացողի նստաշրջանի արդյունքները» (1 նոյեմբերի)

Լավագույն հինգ սպոտներ EV-ով; որտեղ GTO-ի շեղումները իմաստալից դրական են։

Լավագույն 3 խոցելիությունը (wwww.oitability) 'ավելցուկ բարել, նեղ օղակներ, ոչ-3 բետա։
Կարգապահություն 'SSL/SW պահպանումը, գագաթնակետը, ընդմիջումները։
Պլանը '2 վարժություններ, որոնք ցածր համակարգված են, 1-ICM-ը' թիթեռի վրա։

«Կլիպի վերլուծություն» (60-90 վայրկյան)

Համատեքստը (դիրք/stek/SPR) Ի՞ նչ է արել բարձրախոսը, որն ասել է սոլվերը.

12) Թիմերի բնորոշ սխալները

Նրանք շփոթում են «պատճենել» և «հասկացողություն» 'առանց IRL-ի և բացատրության, առանց պլանի կլոններ են ստացվում։

Նրանք թերագնահատում են դաշտերը 'ռազմավարություն, որը կշռում է vs GTO-ը, բայց մինուսային վսը հատուկ հակառակորդների հաճախականությունները։

Նրանք անտեսում են դիսպոզիան 'փոքր ընտրության եզրակացությունները կեղծ են։ Անհրաժեշտ է վստահելի ընդմիջումներ և ազնիվ անորոշություն։

«Շոուի» վրա ռիսկի փոխարեն 'վերլուծություն առանց SSL/SW-ի' թիլթի ճանապարհը։

ԻԻ-ն «հասկանում է» բարձրագույն խաղացողների ռազմավարությունը, համեմատելով նրանց գծերը դաշտի տեսության և համատեքստի հետ, վերականգնելով որոշումների թաքնված նպատակները և բացատրելով, թե ինչ շեղումներ են անում փողը, և ինչ խոցելիություններ են բացահայտում։ Այստեղ արժեքը ոչ թե «մեքենան սովորեցնում է հաղթել բոլորին», այլ պարզության մեջ, թե որտեղ է ձեր պլանը ուժեղ, որտեղ թաքնված և ինչպես է կարգապահությունը նվազեցնում ռիսկը։ Որքան ավելի թափանցիկ է մետրերը, այնքան ավելի մեծահասակ է ռազմավարությունը, և այնքան երկար եք մնում խաղի մեջ։