Observability: მეტრიკა, ლოგოები, კვალი iGaming- ზე
1) რატომ observability ზუსტად iGaming- ში
მოთამაშეები მგრძნობიარეა რეალურ დროში შეფერხებებისა და ჩავარდნების მიმართ (ცოცხალი თამაშები, ფსონები, ტურნირები). ლოგინის/დეპოზიტის/გამომავალი ნებისმიერი დეგრადაცია სცემს შემოსავალს და ნდობას. დაკვირვება უნდა:- მიეცით მყისიერი L3-L7 სურათი, პროგრამები და ბიზნესი;
- სწრაფად ლოკალიზება „ვიწრო ადგილები“ ფრონტზე, API- ს, თამაშების პროვაიდერებს, გადახდებს შორის;
- მკაფიოდ გამოყოფა სასურსათო ფილები (შეუძლებელია ფსონის გაკეთება) „ლამაზი“ ტექნიკური მეტრიკისგან.
გასაღები: დაიწყეთ სასურსათო ნაკადების SLO (სერვისის ლევილის ობჟექტივებით) და მხოლოდ ამის შემდეგ შეარჩიეთ მეტრიკები/ლოგოები/ტრეკები.
2) პროდუქტის SLO და ბიუჯეტის შეცდომა (error budget)
SLO მაგალითები (30 დღეში):- ლოგინი: წარმატება 99. 90%, p95 latency - 250 ms.
- ანაბარი ('/payments/deposit ') და დასკვნა: წარმატება 99. 85%, p95-400 ms.
- კურსი რეალურ დროში: წარმატება 99. 9%, p95 WS შეტყობინებები - 120 ms.
- Live თამაშის slot/სესიის დაწყება: წარმატება 99. 8%, p95-800 ms.
Error budget გადადის გამოშვების პოლიტიკაში: თუ დახარჯულია> 50% - გაჩერება fich/canare eple მხოლოდ;> 80% - მხოლოდ batfixes.
3) ტელემეტრიული „სამი ვეშაპი“
მეტრიკა (სახელმწიფოს ქვითარი)
RED მომხმარებლის API- სთვის: Rate, Errors, Duration თითოეული endpoint/მეთოდისთვის.
USE ინფრასტრუქტურისთვის: Utilization, Saturation, Errors (CPU, მეხსიერება, IO, ნაერთები, რიგები).
ბიზნეს მეტრიკა: რეგისტრაციის კონვერტაცია - ანაბარი, წარმატებული დასკვნების წილი, აქტიური ლაივ კაზინოს მაგიდების რაოდენობა, ციტატების საშუალო შეფერხება.
ლოგიკური (ფაქტები და კონტექსტი)
სტრუქტურირებული JSON მოვლენები სავალდებულო ველებით: 'ts', 'level', 'service', 'env', 'trace _ id', 'spank _ id', 'user _ id' (ფსევდონიმი), 'session _ id', 'route', 'statatatatustutustustustus', ',', ',', 'latus' latus ',' latus 'latus' , 'currency', 'provider'.
კატეგორიები: აუდიტი (უფლებების/ბალანსის შეცვლა), ბიზნეს მოვლენები (კურსი, ანაბარი), შეცდომები (შეტევა/კოდი), ტექნიკური დახმარება (warn/info).
ტრეკერი (მიზეზობრივი კავშირები)
End-end წინა - API - სარისკო ძრავა - თამაშების პროვაიდერები/გადახდები ხაზის/BD.
შეცდომების ფართო ცვალებადობა (100%), „ნელი“ მოთხოვნების ადაპტირებული სემპლაცია (მაგ. p95 +), ნაგულისხმევი 1-5% success ტრაფიკი.
4) მეტრიკის დიზაინი: რა უნდა გადაიღოთ და როგორ დაურეკოთ
Prometheus მეტრიკის მაგალითები (ფსევდო):
RED по платежам counter ig_payments_requests_total{route="/payments/deposit",method="POST",provider="card"}
counter ig_payments_errors_total{route="/payments/deposit",code="5xx",provider="card"}
hist   ig_payments_latency_seconds_bucket{route="/payments/deposit",le="0. 25"}
gauge  ig_wallet_balance_anomalies{reason="negative_after_loss"}
Бизнес counter ig_bet_placed_total{game="slot",provider="PragmaticPlay",currency="EUR"}
hist   ig_bet_rtt_ms_bucket{game="live_blackjack",le="100"}
gauge  ig_active_tables{provider="Evolution",market="EU"}- ეტიკეტების ერთიანი ონტოლოგია: 'env', 'region', 'barket', 'provider', 'route', 'game', 'payment _ method'.
- არ ააფეთქოთ კარდინალობა: შეზღუდეთ 'user _ id "მეტრიკებში (მხოლოდ ლოგოებში/ტრეისებში).
5) Logs: სტრუქტურა, კონფიდენციალურობა, retenschen
მინიმალური JSON კრიტიკული ქმედებებისთვის:json
{
"ts":"2025-10-23T17:41:26. 123Z „,“ level „:“ INFO „,“ სერვისი „:“ payments-api „,“ env „:“ env „,“ trace _ id „:“ b3f7 „...,“ span _ id „:“ ab12 „...,“ user _ pid „:“... ,/ფსევდონიმი, არა ემილი/ტელეფონი
"session_id":"s_78a…",  "route":"/payments/deposit",  "status":200,  "latency_ms":182,  "amount":100. 0,  "currency":"EUR",  "provider":"card",  "bin_country":"DE"
}- შენიღბვა/გამორიცხვა PAN/CVV, ნიშნები, პაროლები, JWT - თუნდაც debug.
- მიბმული ლოგოები ტრასებზე ('trace _ id') და მომხმარებელთან (ფსევდონიმი 'user _ pid ").
- TTL: „ხმაურიანი“ ტექნოლოგია 14-30 დღის განმავლობაში, 1-3 წლის აუდიტის ტრეილი (პოლიტიკისა და კანონის თანახმად), 6-24 თვის ბიზნეს ლოგები (ფსევდონიმი).
- WORM/immutability აუდიტისთვის (უცვლელი ბაკეტები), ACL როლებით.
6) კვალი: ფრონტიდან პროვაიდერზე
Flow Flow
ლოგინი/რეგისტრაცია/ანტიბოტი/WAF - Auth-API - პროფილი/საფულე.
ანაბარი Payment-API - webhooks-Wallet სერვისის პროვაიდერი.
განაკვეთი Game-gateway (WebSocket) - თამაშის პროვაიდერი - გამარჯვების გაანგარიშება Wallet.
ტაქტიკა
OpenTelemetry ყველგან: SDK ფრონტზე (XHR/Fetch), მობილურზე, API- ში, ვორკერებში.
კონტექსტის პროტოკოლები: W3C traceparent/tracestate; გადაყარეთ gRPC/HTTP/WebSocket (WS- ში - პირველ მეტამონაცემებში/შეტყობინებებში).
Adaptive sampling: შეცდომების 100%, გადახდის დასკვნების 50%, „ახალი“ გამოშვებების/კანარის 10%, ფონოს 1-5%.
ვიზუალური ეტიკეტები მისაბმელში: 'risk _ decision', 'provider _ name', 'bonus _ id', 'jackpot _ round'.
7) რეალურ დროში არხები: WebSocket/WebRTC
Метрики: `ws_connected_sessions`, `ws_messages_in_flight`, `ws_send_latency_ms`, `ws_disconnect_reason`.
სავაჭრო მოვლენები: 'ws _ subscribe _ table', 'ws _ bet _ place', 'ws _ stettlement'.
ლოგიკა: შეტყობინებების ზომა/სიხშირე; თვალყური ადევნეთ „ცარიელ პინგებს“ და სისხლის ნიმუშებს.
WebRTC- სთვის (მსუბუქი კაზინო): 'jitter _ ms', 'packet _ loss', 'round _ trip _ time _ ms', 'keyframe _ interval _ s'.
8) ალერტინგი: სიმპტომებიდან მიზეზებამდე
სიმპტომური ალერტები (SLO/SLA):- SLI შეცდომა ლოგინის> 0. 3% 5 წუთში
- p95 '/payments/deposit '> ზედიზედ 400 ms 10 წუთი.
- განაკვეთების წარმატება <99. 7% 15 წუთში
- `db_connections_saturation > 0. 85` 5 мин; `queue_lag_seconds > 30`.
- '429 '/' 5xx' - ის ერთი ASN- ით ასვლა სიგნალი არის WAF/bot მენეჯერი.
- ალერტები მხოლოდ სტაბილური დარღვევებით; დუბლიკატების მანქანა; routes to runbooks.
9) დაშბორდები, რომლებიც ნამდვილად ეხმარებიან
Flow დეპოზიტი
ძაბრი: მოთხოვნა - რედაქცია პროვაიდერზე - კოლბეკი - საფულე.
პროვაიდერების წარმატებები/შეცდომები, BIN ქვეყნების რუკა, p95/99 ლატენტობა, შეცდომების კოდების განაწილება.
„ცოცხალი თამაშები/ფსონები“
აქტიური მაგიდები, ონლაინ მოთამაშეები, p95 WS შეფერხებები, shartimeouts/aborts, შეცდომების ტოპ თამაშები.
API- ს ჯანმრთელობა
RED საკვანძო მარშრუტებზე, 4xx/5xx, ნაერთების აუზები/CPU/GC, ტოპ N ნელი endpoints (ლინზებით ტრეისამდე).
10) ღირებულება და შენახვა
Cardinality budget: ეტიკეტების/ატრიბუტების ლიმიტები; PR review, რომელსაც ემატება მეტრიკა.
Tiered storage: ცხელი 3-7 დღე (სწრაფი ძებნა), თბილი 30-90 დღე (S3/ობიექტი), ცივი არქივი (ნაკლებად ხშირად).
Downsampling metrick (1s-10s-1m) და rolling აგრეგაცია.
მეტყველების ლოგოების დედუპლიკაცია და იდემპოტენტური გამოწვევები.
11) კონფიდენციალურობა და შესაბამისობა (მოკლედ)
ფსევდონიმი გამოიყენეთ 'user _ id', არ შეინახოთ ელ.ფოსტა, ტელეფონი, პასპორტი.
დაშიფვრა ტრანსპორტი (mTLS) და „დასვენება“, განასხვავეთ წვდომა (RBAC/MFA), ჩაატარეთ მონაცემთა მეტაჟურნალები.
TTL/retenschen, როგორც მონაცემთა მატრიცა; „მოხსნის უფლება“ გააცნობიერეთ დროშები-დეაქტივაცია და ფსევდონიზაცია ისტორიულ კოლექციებში.
12) ტრეისერების ინციდენტები და გამართვა: სწრაფი რეცეპტი
1. სიმპტომური ალერტი მუშაობდა (დეპოზიტების წარმატება).
2. დაშბორდმა აჩვენა ერთი პროვაიდერის ზრდა.
3. ჩვენ ვხუმრობთ მისაბმელში: გრძელი ნაბიჯი 'provider _ callback' (p99 2. 3 ს), ბევრი რელე.
4. Logs: 'timeout' + ASN = მასპინძლობა bottern.
5. მოქმედებები: დააყენეს ტაიმაუტები კოლბეკზე, შეიტანეს JS გამოწვევა WAF- ში ASN- სთვის, შეიზღუდა რეტრაელები.
6. რეტრო: დაამატეთ SLI 'callback _ success _ ratio', alert 'queue _ lag _ seconds'.
13) ეტაპების განხორციელება
1. SLO დიზაინი 4-6 კრიტიკული ნაკადისთვის (ლოგინი, ანაბარი, დასკვნა, თამაშის დაწყება, ფსონი).
2. მეტრიკა RED/USE + ბიზნეს SLI; ეტიკეტების ერთიანი სქემა.
3. სტრუქტურული ლოგოები 'trace _ id'; მგრძნობიარე ველების შენიღბვა.
4. OpenTelemetry ყველგან; ადაპტირებული სემპლაცია.
5. დაშბორდები + ალერტა (სიმპტომები და მიზეზები), runbooks.
6. Cost მენეჯმენტი: კარდინალობა, downsampling, შენახვის დონე.
7. სავარჯიშოები: GameDay სცენარები (გადახდის ვარდნა, პროვაიდერის ლაგი, WS ზრდა).
8. უწყვეტი გაუმჯობესება: დაამატეთ SLI, როდესაც ახალი შეცდომები გამოჩნდება, დახურეთ „ბრმა ზონები“.
14) ჩეკის სია
- SLO/SLI დამტკიცებულია, error budget გამოშვების პოლიტიკაში.
- RED/USE მეტრიკა + ბიზნეს მეტრიკა ეტიკეტის ერთიანი ონტოლოგიით.
- JSON Logs, საიდუმლოების შენიღბვა, 'trace _ id' თითოეულ შეტყობინებაში.
- End-End ტრეკერი (HTTP/GRPC/WebSocket/WebRTC), W3C კონტექსტი.
- ალერტები სიმპტომური და გამომწვევია, ხმაურის გარეშე, runbooks ლინზები.
- დაშბორდები ანაბრების, განაკვეთების, API- ს ჯანმრთელობისთვის; სწრაფი ფილტრები 'provider/barket'.
- სემპლაცია/კარდინალობა კონტროლირებადი, რთული ეტაპი.
- კონფიდენციალურობა: ფსევდონიზაცია, დაშიფვრა, RBAC/MFA, მეტაჟურნალები.
- სწავლებები და რეტრო, SLO- ს რეგულარული მიმოხილვა.
რეზიუმე
IGaming- ის დაკვირვება არ არის „CPU გრაფიკა“, არამედ რეალურ დროში პროდუქტის სურათი: კრიტიკული ფლეშ SLO, RED/USE მეტრიკა, დაკავშირებული ფირფიტები და ტრეკები მოთამაშისა და ფულის მთელ გზაზე. დაამატეთ ალერტინგის დისციპლინა არასწორად ბიუჯეტში, აკონტროლეთ ტელემეტრიის ღირებულება, დააკვირდით კონფიდენციალურობას - და გუნდი არ გამოიცნობს, არამედ დაინახავს პრობლემების მიზეზებს და შეაკეთებს მათ, სანამ მოთამაშეები შეამჩნევენ.
