Observability: Метрика, Логи, iGaming боюнча Tracking
1) Эмне үчүн observability так iGaming
Оюнчулар реалдуу убакыттагы кечигүүлөргө жана мүчүлүштүктөргө (live-оюндар, коюмдар, турнирлер) сезимтал. Логиндин/депозиттин/чыгаруунун ар кандай деградациясы кирешеге жана ишенимге тийет. Байкоо төмөнкүлөргө тийиш:- L3-L7, тиркемелердин жана бизнестин заматта сүрөтүн берүү;
- алдыңкы, API, оюн провайдерлеринин, төлөмдөрдүн ортосундагы "тар жерлерди" тез локалдаштыруу;
- азык-түлүк фейлдерин (коюмду коюу мүмкүн эмес) "кооз" техникалык метриктерден так ажыратуу.
Ачкыч: SLO (service level objectives) азык-түлүктөн баштап, андан кийин гана метриканы/логини/трассаны тандоо.
2) Азык-түлүк SLO жана бюджет ката (error budget)
SLO мисалдар (30 күн):- Логин: ийгилик ≥ 99. 90%, p95 latency ≤ 250 мс.
- Депозит ('/payments/deposit ') жана корутунду: ийгилик ≥ 99. 85%, p95 ≤ 400 ms.
- Реалдуу убакытта коюм: ийгилик ≥ 99. 9%, p95 WS билдирүүлөр ≤ 120 мс.
- Slot/Live оюн сессиясын баштоо: ийгилик ≥ 99. 8%, p95 ≤ 800 ms.
Error budget релиздер саясатына которулат: чыгымдалса> 50% - токтоо/канарейка деплой гана;> 80% - багфикстер гана.
3) "Үч кит" телеметрия
Метрика
Колдонуучунун API үчүн RED: Rate, Errors, Duration ар бир endpoint/ыкмасы боюнча.
Инфраструктура үчүн USE: Utilization, Saturation, Errors (CPU, эс тутум, IO, байланыш, кезек).
Бизнес-метрика: каттоо конверсиясы → депозит, ийгиликтүү корутундулардын үлүшү, Live Casino активдүү столдорунун саны, котировкалардын орточо кечигүүсү.
Логи (фактылар жана контекст)
'ts', 'level', 'service', 'env', 'trace _ id', 'span _ id', 'user _ id' (псевдонимделген), 'session _ id', 'route', 'status', 'latency _ ms', 'amount', 'currency', 'provider'.
Категориялар: аудит (укуктарды/балансты өзгөртүү), бизнес-окуялар (коюм, депозит), каталар (stack/код), техникалык колдоо (warn/info).
Трассировка (себептик байланыштар)
End-to-end фронт аркылуу → API → тобокелдик кыймылдаткычы → оюн провайдерлери/төлөмдөр → кезек/DD.
Каталарды кеңири семплирлөө (100%), "жай" суроо-талаптарды адаптивдүү семплирлөө (мисалы, p95 +), демейки боюнча 1-5% success трафик.
4) Метрика Дизайн: эмне алып салуу жана кантип чакыруу керек
Prometheus-метрикалык мисалдар (псевдо):
RED по платежам counter ig_payments_requests_total{route="/payments/deposit",method="POST",provider="card"}
counter ig_payments_errors_total{route="/payments/deposit",code="5xx",provider="card"}
hist   ig_payments_latency_seconds_bucket{route="/payments/deposit",le="0. 25"}
gauge  ig_wallet_balance_anomalies{reason="negative_after_loss"}
Бизнес counter ig_bet_placed_total{game="slot",provider="PragmaticPlay",currency="EUR"}
hist   ig_bet_rtt_ms_bucket{game="live_blackjack",le="100"}
gauge  ig_active_tables{provider="Evolution",market="EU"}- Бирдик онтологиясы: 'env', 'region', 'market', 'provider', 'route', 'game', 'payment _ method'.
- Кардиналдуулукту жардырбоо: Метрикаларда 'user _ id' чектөө (логдордо/трейстерде гана).
5) Логи: түзүлүшү, купуялык, retenshen
критикалык иш-аракеттер үчүн минималдуу JSON:json
{
"ts":"2025-10-23T17:41:26. 123Z "", level ":" INFO "", service ":" payments-api "", env ":" prod "", trace_id":"b3f7"..., "span_id":"ab12"...", user_pid":"u_9fd"... ,//псевдоним, эмес email/телефон
"session_id":"s_78a…",  "route":"/payments/deposit",  "status":200,  "latency_ms":182,  "amount":100. 0,  "currency":"EUR",  "provider":"card",  "bin_country":"DE"
}- PAN/CVV, белгилер, сырсөздөр, JWT жашыруу/жокко чыгаруу - ал тургай debug.
- Каттамдарга ('trace _ id') жана кардарга (псевдоним 'user _ pid') логдорду байлоо.
- TTL: "ызы-чуу" техлог 14-30 күн, аудит-trail 1-3 жыл (саясат жана мыйзам боюнча), бизнес-логи 6-24 ай (псевдоним).
- аудит үчүн WORM/immutability (өзгөрүлбөгөн бакет), ролдору боюнча ACL.
6) Tracking: жөнөтүүчүгө Front
Узун флоу
Логин/каттоо → antibot/WAF → Auth-API → кароо/капчык.
Депозит → Төлөм-API → провайдер → webhooks → Кошелек-кызматы.
Коюм → Game-gateway (WebSocket) → оюн провайдери → утуштарды эсептөө → Кошелек.
Тактика
OpenTelemetry бардык жерде: Фронттогу SDK (XHR/Fetch), Мобилдик, API, Worker.
Контексттин протоколдору: W3C traceparent/tracestate; gRPC/HTTP/WebSocket аркылуу ыргытып (WS - биринчи мета-маалыматтар/билдирүүлөр).
Adaptive sampling: 100% каталар үчүн, ≥ 50% төлөм корутундулары үчүн, ≥ 10% "жаңы" релиздер/канарейка үчүн, 1-5% арткы.
Trace-view боюнча визуалдык белгилер: 'risk _ decision', 'provider _ name', 'bonus _ id', 'jackpot _ round'.
7) реалдуу убакыт каналдар: WebSocket/WebRTC
Метрики: `ws_connected_sessions`, `ws_messages_in_flight`, `ws_send_latency_ms`, `ws_disconnect_reason`.
Trace-окуялар: 'ws _ subscribe _ table', 'ws _ bet _ place', 'ws _ settlement'.
Логи: билдирүүлөрдүн өлчөмүн/жыштыгын жөнгө салуу; "бош пингдерди" жана канаттуулар үлгүлөрүн көзөмөлдөө.
WebRTC үчүн (live-casino): 'jitter _ ms', 'packet _ loss', 'round _ trip _ time _ ms', 'keyframe _ interval _ s'.
8) Alerting: себептерден симптомдору
Симптомдук аллергия (SLO/SLA):- SLI-логин катасы> 0. 3% 5 мүнөттө.
- p95 '/payments/deposit '> 400 мс катары менен 10 мин.
- Коюмдардын ийгилиги <99. 7% 15 мин.
- `db_connections_saturation > 0. 85` 5 мин; `queue_lag_seconds > 30`.
- Splash '429 '/' 5xx' бир ASN менен → WAF/бот менеджери сигнал.
- Туруктуу бузулууларда гана аллергия; дубликаттарды автоматтык өчүрүү; routes to runbooks.
9) Чынында жардам Dashboard
"Депозиттик флоу"
Воронка: өтүнүч → жөнөтүүчүгө кайра → колбэк → капчыкты жаңыртуу.
Провайдерлер боюнча ийгилик/каталар, BIN-өлкөлөрдүн картасы, p95/99 жашыруун, ката коддорун бөлүштүрүү.
"Live оюндар/коюмдар"
Active столдор, Online оюнчулар, p95 WS-кечигүү, Share timeouts/aborts, каталар боюнча жогорку оюндар.
"API ден соолук"
Негизги жолдор боюнча RED, 4xx/5xx, байланыштар/CPU/GC, top N жай endpoints (соода линиялары менен).
10) Наркы жана сактоо: кантип банкрот
Cardinality budget: лейбл лимиттери/атрибуттар; метрика кошуу PR review.
Tiered storage: ысык 3-7 күн (тез издөө), жылуу 30-90 күн (S3/объект), муздак архив (сейрек).
Downsampling метрик (1s → 10s → 1m) жана rolling-топтоо.
Ретрайлардан жана демпотенттик чалуулардан логторду дедупликациялоо.
11) Купуялык жана комплаенс (кыска)
'user _ id' псевдонимизациялоо, электрондук почта, телефон, паспорт логиндеринде сактабаңыз.
Транспортту (mTLS) жана "тынчтыкты" шифрлөө, жеткиликтүүлүктөрдү ажыратуу (RBAC/MFA), берилиштерге жетүү метадүрнөлөрүн жүргүзүү.
TTL/маалымат матрицасында ретеншен; "алып салуу укугу" тарыхый топтомдордо деактивация жана псевдонимизация желектери аркылуу ишке ашырылат.
12) Окуялар жана Trading: тез рецепт
1. Симптомдук алерт иштеди (депозиттердин ийгилиги).
2. Dashbord бир провайдер боюнча өсүш көрсөттү.
3. Click Trace-View: узак кадам 'provider _ callback' (p99 2. 3 с), көп retrains.
4. Логи: 'timeout' + ASN = бот-үлгү менен хостинг.
5. Иш-аракеттер: Колбэк боюнча таймауттарды көтөрдү, ASN үчүн WAF үчүн JS-чакырыкты күйгүздү, ретраларды чектеди.
6. Retro: 'callback _ success _ ratio' боюнча SLI кошулду, 'queue _ lag _ seconds' боюнча alert.
13) Этап боюнча ишке ашыруу
1. SLO-дизайн үчүн 4-6 маанилүү Flow (логин, депозиттик, чыгаруу, оюнду баштоо, коюм).
2. RED/USE + бизнес-SLI көрсөткүчтөрү; этикеткалардын бирдиктүү схемасы.
3. Структуралык логдор 'trace _ id'; сезгич талааларды жашыруу.
4. OpenTelemetry бардык жерде; адаптивдик семплирлөө.
5. Dashbord + Алерт (симптоматикалык жана себеп), runbooks.
6. Кост-менеджмент: кардиналдык, downsampling, сактоо деңгээл.
7. Машыгуулар: GameDay сценарийлери (төлөмдүн төмөндөшү, провайдердин артта калышы, WS көтөрүлүшү).
8. Үзгүлтүксүз жакшыртуу: жаңы көрүнүштөр пайда болгондо SLI кошуу, жабуу "сокур аймактар".
14) Чек тизмеси (prod-ready)
- SLO/SLI бекитилген, бошотуу саясатында error budget.
- RED/USE метрика + бизнес-метрика менен бирдиктүү Ontology белги.
- JSON Логи, жашыруун жашыруу, ар бир билдирүү 'trace _ id'.
- End-to-end tracking (HTTP/gRPC/WebSocket/WebRTC), W3C контекстинде.
- Алерталар симптоматикалык жана себеп, эч кандай ызы-чуу, runbooks-жылы шилтемелер.
- Дашборддор депозиттер үчүн, чендер, API ден соолук; тез чыпкалар 'provider/market'.
- Sample/кардиналдуулук көзөмөлүндө, tiered storage.
- Купуялык: псевдонимизациялоо, шифрлөө, RBAC/MFA, метажурналдар.
- көнүгүүлөр жана retro, SLO үзгүлтүксүз кайра карап чыгуу.
Резюме
iGaming байкоо - бул "CPU диаграммалар" эмес, жана реалдуу убакыт продуктунун сүрөт: SLO Critical Flow, RED/USE метрика, оюнчу жана акча бүт жол аркылуу байланыш Логи жана Tracking. Туура эмес бюджет боюнча алертинг тартибин кошуу, телеметриянын баасын көзөмөлдөө, купуялуулукту сактоо - жана команда ойлобойт, бирок көйгөйлөрдүн себептерин көрүп, оюнчулар байкаганга чейин аларды оңдойт.
