Observability: metrics, logs, iGaming
1) Ինչու՞ է observability հենց iGaming-ում
Խաղացողները զգայուն են իրական ժամանակում ձերբակալությունների և ձախողումների համար (խաղային խաղեր, տոկոսադրույքներ, մրցույթներ)։ Լոգինի/դեպոզիտի/եզրակացության ցանկացած քայքայումը հարվածում է եկամուտներին և վստահությանը։ Դիտարկումը պետք է
տալ L3-L7 ակնթարթային նկարը, ծրագրեր և բիզնեսներ։
արագ տեղայնացնել «նեղ տեղերը» առջևի, API-ի, խաղերի պրովայդերների, վճարների միջև։- հստակ առանձնացնել սննդի ֆեյլները (անհնար է դրույքաչափը դարձնել) «գեղեցիկ» տեխնիկական մետրից։
Բանալին 'սկսել SLO-ից (wwww.level objectives) ապրանքային ֆլոուից, իսկ հետո ընտրել չափումներ/լոգեր/ուղիներ։
2) Ապրանքային SLO և բյուջեի սխալը (error budget)
SLO-ի օրինակները (30 օրվա ընթացքում)
Լոգինը 'հաջողությունը 3699։ 90 տոկոսը, p95 latency-ը 250 մզ է։
Դեպոզիտը («/payments/deposit ») և եզրակացությունը ՝ 3699 հաջողությունը։ 85%, p95-400 մզ։
Իրական ժամանակում տոկոսադրույքը 3699 հաջողությունն է։ 9%, p95 WS հաղորդագրությունները 120 մզ են։
Արցունքների արձակումը/լայվ խաղի նստաշրջանը '3699 հաջողությունը։ 8%, p95-800 մզ։
Error budget-ը թարգմանվում է ածխաջրածինների քաղաքականությանը. Եթե ծախսվում է> 50 տոկոսը 'stop-fich/kanareced deple միայն;> 80 տոկոսը միայն ուղֆիքսներ են։
3) «Երեք Whale» հեռուստացույց
Metriki (պետության քվանտիզացիա)
RED օգտագործողների API 'Rate, Errors, Duration յուրաքանչյուր endpoint/մեթոդի համար։- USE ենթակառուցվածքի համար 'Utilization, Saturation, Errors (CPU, հիշողություն, IO, միացություններ, գծեր)։
- Բիզնես-մետրիկները 'գրանցման փոխակերպումը, հաջողակ եզրակացությունների մասնաբաժինը, ակտիվ սեղանների քանակը, գնանշումների միջին ուշացումը։
Լոգներ (փաստեր և կոնտեքստ)
Կառուցվածքային JSON-ի իրադարձությունները պարտադիր դաշտերով '«ts',» «level», «env», «trace _ id», «dive _ id», «user _ id» (կեղծված), «session _ id», «rope», «status», «latency _ ore», «currency», «provider»։
Կատեգորիաներ ՝ աուդիտ (իրավունքների/հավասարակշռության փոփոխություններ), բիզնես իրադարձություններ (դրույքաչափը, դեպոզիտը), սխալները (stack/կոդ), տեխնիկական աջակցություն (warn/105)։
Ուղիներ (պատճառահետևանքային կապեր)
End-to-end-ը ռուսական API-ի առջևի միջոցով ապահովեց ռիսկային շարժիչ խաղերի պրովայդերներ/վճարումներ ռուսական հերթը/BD։
Սխալների լայն սերմնացումը (100%), «դանդաղ» հարցումների հարմարվողական սերմնացումը (օրինակ ՝ p95 +), լռելյայն 1-5 տոկոսը success-2019։
4) Մեթրիկի դիզայնը 'ինչ նկարել և ինչպես անվանել
Prometheus-մետրիկի (կեղծ) օրինակները
RED по платежам counter ig_payments_requests_total{route="/payments/deposit",method="POST",provider="card"}
counter ig_payments_errors_total{route="/payments/deposit",code="5xx",provider="card"}
hist   ig_payments_latency_seconds_bucket{route="/payments/deposit",le="0. 25"}
gauge  ig_wallet_balance_anomalies{reason="negative_after_loss"}
Бизнес counter ig_bet_placed_total{game="slot",provider="PragmaticPlay",currency="EUR"}
hist   ig_bet_rtt_ms_bucket{game="live_blackjack",le="100"}
gauge  ig_active_tables{provider="Evolution",market="EU"}Կանոնները
Պիտակների միասնական ուռուցքաբանությունը '«env», «region», «market», «provider», «rope», «game», «payment _ method»։
Մի պայթեցնել կարդինալությունը 'սահմանափակել «user _ id» մետրերում (միայն լոգարաններում/թրեյսներում)։
5) Լոգի 'կառուցվածք, մասնավորություն, ռետենշեն, ռետենշեն։
Նվազագույն JSON-ը քննադատական գործողությունների համար
json
{
"ts":"2025-10-23T17:41:26. 123Z "," level ":" Ab12 "...," user _ pid ":" u _ 9fd... "/կեղծանուն, ոչ թե email/հեռախոս/
"session_id":"s_78a…",  "route":"/payments/deposit",  "status":200,  "latency_ms":182,  "amount":100. 0,  "currency":"EUR",  "provider":"card",  "bin_country":"DE"
}Պրակտիկա
Դիմակավորել/բացառել PAN/CVV, հոսանքները, գաղտնաբառերը, JWT-ը, նույնիսկ debug-ում։- Կապել լոգները հետքերի հետ ("trace _ id") և հաճախորդի հետ (կեղծանունը 'user _ pid ")։
- TTL: «աղմկոտ» տեխնոլոգները 14-30 դն են, 1-3 տարեկան աուդիտ-թրեյլը (քաղաքականության և օրենքի), 6-24 մեզ բիզնես լոգները (կեղծ)։
- WORM/immutability համար (անփոփոխ տանկեր), ACL դերերով։
6) Ուղեգիր 'առջևից մինչև պրովայդեր
Երկարացված ֆլոու
Login/wwww.AF/WAF wwww.AUTH-API-ը տեղադրեց/դրամապանակ։- Դեպոզիտը Payme-API-ն է webhooks Wallet-2019-ի պրովայդերը։
- Game-gateway (Windows Socket) մրցույթի դրույքաչափը խաղի պրովայդերն է, որը հաշվարկում է Wallet մրցույթի հաղթանակը։
Մարտավարությունը
OpenTelemetry-ը ամենուրեք 'SDK-ը ճակատում (XHR/Fetch), հրետանու վրա, API-ում, գողերում։- Կոնտեքստի արձանագրությունները ՝ W3C traceparent/tracestate; անցնել gRPC/HTP/WindowSocket (WS-ում առաջին մետատվյալներում/հաղորդագրություններում)։
- Adaptive sampling: 100 տոկոսը սխալների համար, 3,50 տոկոսը վճարովի եզրակացությունների համար, 10 տոկոսը «նոր» ածխաջրածինների/կանարեկների համար, 1-5 տոկոսը ֆոնոն։
- Տեսողական բջիջները թրեյս-վյու '«risk _ decision», «provider _ name», «bonus _ id», «jackpot _ round»։
7) Real-time ալիքները ՝ Windows Socket/Windows RTC
Метрики: `ws_connected_sessions`, `ws_messages_in_flight`, `ws_send_latency_ms`, `ws_disconnect_reason`.
Թրեյսի իրադարձությունները ՝ «ws _ www.scribe _ table», «ws _ bet _ place», «ws _ settl.ru»։- Լոգներ 'նորմալացնել հաղորդագրությունների չափը/հաճախությունը; հետևեք «դատարկ պինգներին» և flood-patternes։
- Windows RTC-ի համար (Live-kasino) '«jitter _ 24»,« packet _ loss »,« round _ trip _ time »,« keyframe _ interval _ s »։
8) Ալերտինգ 'ախտանիշներից մինչև պատճառներ։
Ախտանիշային ալերտները (SLO/SLA)
SLI սխալ լոգինը> 0։ Երեք տոկոսը հինգ ռուբլիների համար
p95 '/payments/deposit '> 400 ms 10 րոպե անընդմեջ։
Հաջողությունը կատարվում է <99։ Յոթ տոկոսը 15 ռուբլիով
Պատճառական/ռեսուրսային
`db_connections_saturation > 0. 85` 5 мин; `queue_lag_seconds > 30`.
«429 »/« 5xx» -ի աճը մեկ ASN-ից ցույց է տալիս ազդանշանը WAF/bot-։
Աղմուկը
Ալերտները միայն կայուն խախտումների դեպքում։ կրկնօրինակման մեխանիզմ; routes to runbooks.
9) Dashbords, որոնք իսկապես օգնում են
«Դեպոզիտի ֆլո»
Վորոնկա ՝ պրովայդերի համար ռեդիրեքտի պահանջը դրամապանակի ապդեյթ է։- Պրովայդերների հաջողությունը/սխալները, BIN-երկրների քարտեզը, p95/99 լատենտ, ռուսական սխալների բաշխումը։
«Խաղային խաղեր/դրույքաչափեր»
Ակտիվ սեղանները, առցանց խաղացողները, p95 WS ուշացումը, www.timeouts/abor.ru, լավագույն խաղերը սխալներով։
«API առողջությունը»
RED հիմնական երթուղիներով, 4xx/5xx, saturance փամփուշտը NED/CPU/GC, top N դանդաղ endpoin.ru (ոսպնյակների հետ)։
10) Արժեքը և պահպանումը. Ինչպե՞ ս չփչանալ
Cardinality budget: limits պիտակների/ատրիբուտների վրա; revew PR, որը ավելացնում է մետրերը։
Tiered storage: Տաք 3-7 օր (արագ որոնում), տաք 30-90 օր (S3/օբյեկտի), սառը արխիվ (ավելի քիչ հաճախ)։
Downsampling metric (1s 3510s 351m) և rolling միավորումը։
Դեդուպլիկացիա ռետրատներից և հակամպոտենտային զանգերից։
11) Գաղտնիությունը և կոմպլենսը (կարճ)
Կեղծանունները «user _ id», մի պահեք e-mail, հեռախոսը, անձնագիրը։- Ծածկագրեք տրանսպորտը (mTSA) և «հանգույցը», սահմանեք հասանելի (RBAC/MFA), առաջնորդեք տվյալների հասանելիության մետազուրները։
- TTL/retenshen նման է տվյալների մատրիցի։ «Հեռացման իրավունքը» իրականացրեք դրոշի դեակտիվացիայի և կեղծանունացման միջոցով պատմական հավաքածուներում։
12) Պատահականներն ու տրոյացիներն են ՝ արագ բաղադրատոմսը
1. Նա աշխատում էր ախտանիշային ալերտ (դեպոզիտների հաջողությունը)։
2. Դաշբորդը ցույց տվեց մեկ պրովայդերի աճը։
3. Կլիկաեմը երրորդության մեջ 'երկար քայլ' «provider _ callback» (p99 2։ 3 գ), շատ գետանցիներ։
4. Լոգներ ՝ "timeout '+ ASN = հոստինգը բոտտերի հետ։
5. Գործողությունները 'բարձրացրեցին թայմաուտները երշիկի վրա, միացրեցին JS-Chelenge-ը WAF-ում ASN-ի համար, սահմանափակեցին ռետրերը։
6. Ռետրո 'ավելացրեցին SLI' callback _ success _ ratio ", ալերտը 'queue _ lag _ seconds։
13) Փուլերի ներդրումը
1. SLO դիզայնը 4-6 կրիտիկական ֆլոուի համար (լոգին, դեպոզիտ, եզրակացություն, խաղի մեկնարկը, տոկոսադրույքը)։
2. RED/USE + բիզնես SLI-ը; պիտակների միասնական սխեմա։
3. Կառուցվածքային լոգներ 'trace _ id'; զգայուն դաշտերի քողարկումը։
4. OpenTelemetry-ը ամենուր է. հարմարվողական սերմեր։
5. Dashbords + alerta (ախտանիշներ և պատճառներ), runbooks։
6. Կոստ-կառավարում 'կարդինալություն, downsampling, պահեստավորման մակարդակներ։
7. Ուսուցումներ ՝ GameDay-սցենարներ (վճարման նվազում, պրովայդերի լագը, WS-ի աճը)։
8. Շարունակական բարելավում 'ավելացրեք SLI-ը, երբ նոր փուչիկներ են հայտնվում, փակեք «կույր գոտիները»։
14) Chek-liste (112-ready)
- SLO/SLI պնդված է, error budget-ը ածխաջրածինների քաղաքականության մեջ։
- RED/USE metrics + բիզնես մետրեր, որոնք ունեն պիտակների միասնական ուռուցքաբանություն։
- JSON Logs, գաղտնիքների դիմակավորում, «trace _ id» յուրաքանչյուր կոմպոզիցիայում։
- End-to-end ճանապարհը (HTTP/gRPC/WindowSocket/Windows RTC), W3C կոնտեքստը։
- Alerta ախտանիշներ և պատճառներ, առանց աղմուկի, ոսպնյակներ runbooks-ում։
- Dashbords ավանդների, հաշմանդամների, API առողջության համար; արագ ֆիլտրեր «provider/market»։
- Սեմպլյացիա/կարդինալություն վերահսկողության տակ, tiered storage։
- Գաղտնիություն 'կեղծանունացում, կոդավորում, RBAC/MFA, մետազուրնալներ։
- Ուսմունքներ և ռետրո, SLO ստեղնաշարային կոմպոզիցիա։
Ռեզյումե
iGaming-ի դիտարկումը ոչ թե «CPU գրաֆիկներն» է, այլ իրական ժամանակում 'SLO կրիտիկական ֆլոուը, RED/USE-ի մետրերը, կապակցված լույսերը և հետքերը խաղացողի և փողի ամբողջ ճանապարհով։ Ավելացրեք ալտերտինգի կարգապահությունը սխալ չափանիշներով, վերահսկեք հեռուստատեսության արժեքը, պահպանեք գաղտնիությունը, և թիմը չի կռահի, այլ տեսնի խնդիրների պատճառները և չստեղծի դրանք մինչև խաղացողները։
