Խաղացողների վարքի ավտոմատ մոդերացիա

Ներդրումը 'մոդերացիան ոչ թե կարա է, այլ լռելյայն անվտանգությունը

Անիմացիոն և սոցիալապես հարուստ iGaming-վայրկյաններում վայրկյանները լուծում են ամեն ինչ։ Թունավոր չատը, սպամը, խաբեությունը, բոտովոդիզմը, դիլերների տրոլինգը, հետապնդումը և պատասխանատու խաղի խախտումները (RG) անմիջապես փչացնում են փորձը և հեղինակությունը։ Ավտոմատ մոդերացիան մի շերտ է, որը տեսնում է վարքագիծը, մեկնաբանում է համատեքստը և ընտրում է փափուկ, արդար և բացատրական գործողություն 'մինչև մարդու մոտ էսկալացիա։

1) ռիսկի ոլորտներ. Ի՞ նչ պետք է մոդելավորենք

Հաղորդակցություն 'chat/ձայն/medzi/nikneima/UGC կլիպեր։

Խաղային վարքագիծը 'կոլյուզիա, «կիսագնդեր», ռուսական դրույքաչափեր/եզրակացություններ, բոտովոդիզմ, սթրիմ դիպուկահար։
Սոկի փոխազդեցություն 'հետապնդում, դոկսինգ, բուլինգ, անցանկալի կապեր։
Antspam/գովազդը 'հղումներ, referal-ֆարմ, ֆիշինգ։
Պատասխանատու խաղը (RG) 'վնասակար փամփուշտներ (գիշերային մարաթոններ, իմպուլսիվ օվերբետներ) ոչ թե պատիժ է, այլ հոգ։
Անձնակազմի անվտանգությունը 'առաջատար նախկին ստուդիաների պաշտպանությունը վիրավորանքներից և սպառնալիքներից։

2) Իրադարձություններ և տվյալներ. Նվազագույն անհրաժեշտ

Տեքստ/ձայն 'հաղորդագրություններ, ռեակցիաներ, մետատվյալներ (ժամանակ, ջրանցք, հասցեատեր), ASR տառադարձություններ ձայնի համար։

Խաղային լոգ-իրադարձություններ 'մրցույթի տեմպը, գործողությունների համաժամացումը, TTFP/hit-rate-ը, եզրակացությունների իրականացումը, կլանի վիրահատությունները։

Սոկի կոնտեքստը 'բողոքներ/մուտքեր, անտեսանելի թերթիկներ, փոխադարձ արգելափակումներ։

Techsignals: սարքեր/IP/փամփուշտներ, ձգձգումներ, կասկածելի տեսահոլովակային փամփուշտներ։
Համաձայնություն/գաղտնիություն 'հստակ համաձայնություններ բովանդակության վերլուծության համար։ PII-ը ցնցվում է։

Սկզբունքները ՝ միասնական event bus, idempotention, ճշգրիտ timstamps, պահեստավորման նվազեցում, նվազագույն իրավունքների հասանելիություն։

3) Ֆիչի 'Ինչպե՞ ս կարելի է վարքը վերածել ազդանշանների

NLP նշանները ՝ թունավորությունը, սպառնալիքները, ոտնձգությունները, ատելության հրահրումը, անձնական տվյալները (PII leaks), սպամ ձևանմուշները։

Բազմալեզու և սլենգ 'ժարգոնի բառարաններ, օրֆո տարբերակներ, էմոջիի պաթթերներ, դերերի ենթատեքստը (խաղացող/հաղորդավար)։

Ձայնը բացատրվում է տեքստով 'կայուն ASR մոդելներ + վստահության հավատացում։

Գրաֆի ֆիչին 'համակարգված շարժիչների/եզրակացությունների օղակներ, ռեֆերալների կլաստերներ, բոտերի կամուրջներ։
Ռիթմ/ժամանակավոր շարքերը 'հաղորդագրությունների աճը, copy-paste spama, տեմպը «chat-keshaut»։
Վարքագծային կենսաչափություն 'կլինիկաների մոնոտոնային թայմինգներ, ընդմիջումների անոմալ լուծումներ (բոտ ռիսկեր)։
RG ազդանշաններ 'գերձայնային գիշերային նստաշրջաններ, ելքի վերացումը ավանդի համար, գնում են ֆինանսական խնամքի, ոչ պատժի։

4) Մոդելային հանգույց 'կանոններից մինչև ստացիոնար դետեկտորներ

Rules-as-Code: stop-բառերը ամենաբարձր ծանրության, սև ցուցակներից հղումները, ակնհայտ դոկսինգը, որոնք արգելված են թեմաներով։

Թունավորության NLP մոդելները 'դասակարգիչներ/ռենջացիա (multilabel), առանձին նեղ դետեկտորներ (hate/harass.ru/sexportent/PII)։

Գրաֆիկ վերլուծաբան 'Կոլուզիայի/սպամի համայնքներ; centality/triangles-ը կազմակերպված ցանցեր գտնելու համար։

Հաջորդականությունները (seq): RNN/Transformer-ը «spam-raid», «կոորդինատների կոորդինացիա», «ճամփորդություններ առաջնորդի վրա»։

Աննոմալիստիկան 'մեկուսացման անտառ/ավտոէնկոդեր հաղորդագրությունների/գործողությունների պաշտոնական շարքերում։

XAI բացատրությունները 'հիմնական արտահայտությունները/պաթթերները/դերերը/կապը բացատրում են հասկանալի պատճառները։

5) Գործողությունների սանդուղքը '«կանաչ/դեղին/կարմիր»

Կանաչ (ցածր ռիսկ/սխալ) 'ֆիլտրերի անմոռանալի վերապատրաստում, մոդերատորի լուսավորություն, խաղացողի փափուկ զրույց («Դադար արա, մենք ունենք հարգալից միջավայր»)։

Դեղին (կասկածելի/խոհարար) 'մեքենա-մութ 5-15 րոպե, մյուսների համար հաղորդագրությունների թաքցում, կանոնների մեջբերումով նախազգուշացում, UGC/հղումների սահմանափակում։

Կարմիր (բարձր ռիսկ/ծանր կատեգորիա) 'երկար մութ/tim-aut սենյակներ, լայվ սենյակից խոզանակ, չաթ/UGC/կլան, քեյսի ուղղությունը HITL-ում, համակարգվածությամբ' բան։

Բոլոր լուծումները գրանցվում են audit trail-ում (wwww.fichis wwww.eet/com), որոնք տեսանելի են dashborde-ում միգրացիայի հետ։

6) Հատուկ հոսքեր

A) Չաթ և ձայն

Ֆիլտրերը մինչև ցուցադրումը (pre-moderation) «կարմիր» բաների վրա, փոստի մոդերացիան «դեղին» վրա արագ թաքնված։

Պարտադիր մուտաբելային դիմակներ PII-ի և ֆիշինգի հղումների համար։

«Slow Chat» ռեժիմը արշավանքների ժամանակ։

B) Մոսկովյան ստուդիա

Առաջնորդների պաշտպանությունը 'ինքնաբերական մութ վիրավորանքներ/ոտնձգություններ, կրկնօրինակներ տեղափոխելը հետաձգված հոսքի մեջ, դո-կերպարիզացիա ցուցադրման համար։

Միտումնավոր հուշումներ (tone coach) մինչև հաղորդագրությունը ուղարկելը։

C) Օբմանի/կոլյուզիայի կոորդինացիա

Գրաֆիկ-ալերտները կոդավորման/եզրակացության համաժամացման և ձևանմուշների, բոնուսների ավտոպաուսի, HITL-ստուգման համար։

D) RG վարքագիծը

Փափուկ միջոցներ ՝ լիմիտներ/ֆոկուս ռեժիմ/դադարեցնել պրոմո; մոդերացիան չի պատժում գերտաքացման նշանների համար։

7) Թափանցիկություն և բողոքարկում

Կարգավիճակները ՝ «թաքնված ուրիշների համար», «մութ N րոպեում», «գործը մոդերատորի մոտ», կարճ պատճառով։

Խմբակցությունը 1 կլիկում '«Սպորյել» կոճակը, SLA պատասխանը, XAI-մեջբերումը հատվածի/pattern։
Ամսագրեր ՝ մոդերնիզացիայի պատմությունը օրինագծում (տեսանելի է միայն սեփականատիրոջը), էքսպորտը կարգավորողի/հատվածի համար։
Կերակուրները ՝ կանոնների և օրինակների կարճ կամքը։

8) Գաղտնիությունը, արդարությունը, տեղայնացումը

PII-ի նվազեցումը և խառնուրդը, բովանդակության վերլուծման հստակ համաձայնությունները։

Fairness-վերահսկողությունը 'ստուգել մետրիկը լեզուների/բարբառների/սարքերի վրա, առանձին շեմերը։ խոցելի խմբերի համար կեղծ դրական նվազում։
Տեղայնացումը 'տարբեր իրավական շրջանակներ (բար, սիմվոլիկա, տարիքային սահմանափակումներ) միացված են ֆիչի դրոշներով։

9) Արդյունավետության մետրերը

Մանկապարտեզի որակը 'PR-AUC, precision/recall @ k թունավոր/սպամա/կոլյուզիա; բողոքարկումից հետո սխալների մասնաբաժինը։

Արագությունը 'p95 ֆիլտրի ուշացում, թաքցնելու ժամանակ, ժամանակ մինչև բողոքարկման լուծումը։

Խաղացողների փորձը 'բողոքների նվազեցումը, «նստարանների մասնաբաժինը առանց խախտումների» աճը, NPS-ը զրույցի կարգին։

Կոմունիտիի առողջությունը 'per user-ի կրկնվող խախտումները, կանաչ նստաշրջանների մասնաբաժինը, առաջատար նախկին ստուդիաների ռետենտոնը։

RG ինդեքսը 'կամավոր լիմիտներ, գիշերային մարաթոնների նվազեցում, CTR-ի հոգ տանել։

10) Լուծման ճարտարապետությունը

Event Bus → NLP/ASR Pipeline → Feature Store (online/offline) → Detection (rules + NLP + graph + seq) → Decision Engine (зел./жёлт./красн.) Action Hub (mut/թաքցնում/kik/tim-aut/promo դադարում) wwww.Audit & XAI no Appeals Desk

Զուգահեռ 'Observability (metrics/treiss), Policy-as-Code (իրավասություններ/կատեգորիաներ), Moderoft Console (timline, ենթատեքստը, տաք պլեյբուսները)։

11) MLOps-ը և կայունությունը

Դանիացիների/մոդելների/շեմերի տարբերակումը, լեզուների և սեզոնների դրիֆթ-կոդերը։

Ստվերային պտուտակները մինչև շեմը/մոդելները փոխելը։ արագ rollback.

Քաոս թեստերը 'ռեիդներ, սպամ ալիքներ, նոր լեզուներ, ցանցերի դեգրադացիա, համակարգը պետք է դեգրադացնի փափուկ (slow-chat, հղումների կարանտին) և ոչ թե «ընկնի»։

Ռեբ թեստերի համար խախտումների սինթետիկ հավաքածուներ։

12) UX «առանց ցավի»

Tone-coach-ը ուղարկելուց առաջ. <<Արտահայտությունը կարող է ընկալվել որպես վիրավորանք։ Ուղարկել/շտկել"։

Հուշումներ և նորմեր 'կարճ քարտեր-օրինակներ, ինչու՞ թաքցնել հաղորդագրությունը։

Շարժումը քայլերով 'սկզբում նուջը, ապա կարճ մութը, ապա Tim-aut/kik-ը, որպեսզի խաղացողը հասկանա հետևանքների աստիճանը։
Ինտելեկտիվությունը 'մեծ տառատեսակը, հակադրությունը, ձայնի ենթագրությունները, թոքային բողոքները/մութը մեկ tap-ում։

13) Ճանապարհի քարտեզը (8-12 շաբաթ MVP, 4-6 ամիս հասուն է)

Շաբաթվա 1-2 'կանոնների քարտեզը (policy-as-code), թունավորության/հղումների հիմնական ֆիլտրերը, մոդերատորական վահանակ v1։

Շաբաթներ 3-4: NLP բազմաբնույթ, slow-chat, PII, XAI բացատրություններ, արագ միգրացիա։

Շաբաթ 5-6 'կոորդինատների գրաֆիկ դետեկտորը, seq-մոդելները, RG շարժիչի հետ ինտեգրումը։

Շաբաթներ 7-8: Առաջին լեզուների տեղայնացումը, fairness-աուդիտը, ստվերային բաճկոնները, HITL-ի պլեյբուսները։

Ամիսներ 3-6: Ձայնը/ASR, լայվ ստուդիաների պաշտպանությունը, Anti-UGC-աբյուզը, շեմերի ավտոկալիբրոն, կարգավորողի զեկույցները։

14) Բնորոշ սխալներ և ինչպես խուսափել դրանցից

Katu RG ազդանշաններ։ Վարքագծային ռիսկը 'հոգալու համար (լիմիտներ/դադարներ), ոչ թե պատժի։

Ապավինել «արգելված խոսքերին» առանց համատեքստի։ Անհրաժեշտ են կատեգորիաներ, դեր, պատմություն։
Անտեսել տեղական լեզուները/սլենգը։ Առանց ռուսական ձեռնարկությունների աճում են ֆեյլ դրական և «անցքեր»։
Առանց XAI-ի և բողոքարկման։ Անբացատրելի արգելափակումները կոտրում են վստահությունը և աճում թունավորությունը։
Մոնոլիտը առանց ֆիչի դրոշների։ Դուք չեք կարող փոխել քաղաքականությունը գլոբալ առանց ստացիոնար և արձագանքման։

Ավտոմատ մոդերացիան վստահության ինժեներական կարգապահությունն է։ Այն համատեղում է կանոնները, NLP, գրաֆիկները և հաջորդականությունները, գործում է միջոցառումների աստիճաններով, հարգում է գաղտնիությունը և տեղական նորմերը և միշտ թողնում է բողոքարկման ճանապարհը։ Այս ֆորումը համայնքը դարձնում է ապահով, լայվ սենյակները ընկերական, իսկ ազնիվ խաղացողը զգում է, որ պլատֆորմը իր կողմում է։