Observability: metriklər, qeydlər, iGaming-də izləmə
1) Nə üçün observability məhz iGaming
Oyunçular real vaxt gecikmələri və uğursuzluqlara qarşı həssasdırlar (canlı oyunlar, bahislər, turnirlər). Giriş/depozit/geri çəkilmənin hər hansı bir deqradasiyası gəlir və etimada təsir göstərir. Müşahidə olmalıdır:- L3-L7, tətbiqlərin və biznesin dərhal şəklini vermək;
- cəbhə, API, oyun provayderləri, ödənişlər arasında «dar yerləri» tez bir zamanda lokallaşdırmaq;
- məhsul fayllarını (bahis etmək mümkün deyil) «gözəl» texniki metriklərdən dəqiq ayırmaq.
Açar: SLO (service level objectives) məhsul flouları ilə başlamaq və yalnız sonra metrik/log/track seçin.
2) Məhsul SLO və büdcə səhvləri (error budget)
SLO nümunələri (30 gün ərzində):- Giriş: uğur ≥ 99. 90%, p95 latency ≤ 250 ms.
- Depozit ('/payments/deposit ') və nəticə: müvəffəqiyyət ≥ 99. 85%, p95 ≤ 400 ms.
- Real vaxt dərəcəsi: uğur ≥ 99. 9%, p95 WS mesajları ≤ 120 ms.
- Canlı oyun slotunun/sessiyasının başlaması: uğur ≥ 99. 8%, p95 ≤ 800 ms.
Error budget buraxılış siyasətinə tərcümə olunur: əgər> 50% xərclənibsə - yalnız stop-fiça/kanarya deplosu;> 80% - yalnız bagfiks.
3) «Üç balina» telemetriya
Metrika (status kvantifikasiyası)
Xüsusi API üçün RED: Rate, Errors, Duration hər endpoint/metod.
Infrastruktur üçün USE: Utilization, Saturation, Errors (CPU, yaddaş, IO, bağlantılar, növbələr).
Biznes metrikası: qeydiyyat dönüşümü → depozit, uğurlu nəticələrin payı, aktiv canlı casino masalarının sayı, kotirovkaların orta gecikməsi.
Loqlar (faktlar və kontekst)
'ts', 'level', 'service', 'env', 'trace _ id', 'span _ id', 'user _ id' (təxəllüslü), 'session _ id', 'route', 'status', 'latency _ ms', 'amount,' currency ',' provider '.
Kateqoriyalar: audit (hüquq/balans dəyişikliyi), biznes hadisələri (məzənnə, depozit), səhvlər (stack/kod), texniki dəstək (warn/info).
Trass (səbəb-nəticə əlaqələri)
End-to-end cəbhə vasitəsilə → API → risk mühərriki → oyun provayderləri/ödənişlər → növbələr/DB.
Səhvlərin geniş semplemesi (100%), «yavaş» sorğuların adaptiv semplemesi (məsələn, p95 +), default olaraq 1-5% success trafik.
4) Metrik dizayn: nə çəkmək və necə adlandırmaq olar
Nümunələr Prometheus-metrik (psevdo):
RED по платежам counter ig_payments_requests_total{route="/payments/deposit",method="POST",provider="card"}
counter ig_payments_errors_total{route="/payments/deposit",code="5xx",provider="card"}
hist   ig_payments_latency_seconds_bucket{route="/payments/deposit",le="0. 25"}
gauge  ig_wallet_balance_anomalies{reason="negative_after_loss"}
Бизнес counter ig_bet_placed_total{game="slot",provider="PragmaticPlay",currency="EUR"}
hist   ig_bet_rtt_ms_bucket{game="live_blackjack",le="100"}
gauge  ig_active_tables{provider="Evolution",market="EU"}- Etiketlərin vahid ontologiyası: 'env', 'region', 'market', 'provider', 'route', 'game', 'payment _ method'.
- Kardinallığı partlatmayın: metriklərdə 'user _ id' -ni məhdudlaşdırın (yalnız loglarda/treyslərdə).
5) Log: struktur, gizlilik, retenshen
Kritik hərəkətlər üçün minimum JSON:json
{
"ts":"2025-10-23T17:41:26. 123Z "," level ":" INFO "," service ":" payments-api "," env ":" prod "," trace_id":"b3f7"... "," span_id":"ab12"... ", user_pid":"u_9fd"... ,//təxəllüs, e-mail/telefon deyil
"session_id":"s_78a…",  "route":"/payments/deposit",  "status":200,  "latency_ms":182,  "amount":100. 0,  "currency":"EUR",  "provider":"card",  "bin_country":"DE"
}- PAN/CVV, tokenlər, şifrələr, JWT - hətta debug.
- Qeydləri traslara ('trace _ id') və sifarişçiyə (təxəllüs 'user _ pid') bağla.
- TTL: «səs-küylü» texniki loqlar 14-30 gün, audit-trail 1-3 il (siyasət və qanunla), biznes loqlar 6-24 ay (təxəllüslü).
- Audit üçün WORM/immutability (dəyişməz backets), rollar üzrə ACL.
6) Trail: cəbhədən provayderə qədər
Uzun Flow
Giriş/qeydiyyat → antibot/WAF → Auth-API → profil/cüzdan.
Depozit → Payment-API → provayder → webhooks → Wallet-service.
Bahis → Game-gateway (WebSocket) → oyun provayderi → uduşun hesablanması → Wallet.
Taktika
OpenTelemetry hər yerdə: SDK cəbhədə (XHR/Fetch), mobil, API, workers.
Kontekst protokolları: W3C traceparent/tracestate; gRPC/HTTP/WebSocket vasitəsilə atmaq (WS - ilk metadata/mesajlarda).
Adaptive sampling: 100% səhvlər üçün, ≥ 50% ödəniş hesabları üçün, ≥ 10% «yeni» buraxılışlar/kanaryalar üçün, 1-5% fon.
Trace-view-da vizual etiketlər: 'risk _ decision', 'provider _ name', 'bonus _ id', 'jackpot _ round'.
7) Real vaxt kanalları: WebSocket/WebRTC
Метрики: `ws_connected_sessions`, `ws_messages_in_flight`, `ws_send_latency_ms`, `ws_disconnect_reason`.
Trace-hadisələr: 'ws _ subscribe _ table', 'ws _ bet _ place', 'ws _ settlement'.
Log: mesajların ölçüsünü/tezliyini normallaşdırın; «boş pinqlər» və flood nümunələri izləmək.
WebRTC (canlı casino) üçün: 'jitter _ ms', 'packet _ loss', 'round _ trip _ time _ ms', 'keyframe _ interval _ s'.
8) Alerting: simptomlardan səbəblərə
Simptomatik Alertlər (SLO/SLA):- SLI-log səhv> 0. 3% 5 dəq.
- p95 '/payments/deposit '> 400 ms ardıcıl 10 dəq.
- Bahislərin müvəffəqiyyəti <99. 15 dəqiqə ərzində 7%.
- `db_connections_saturation > 0. 85` 5 мин; `queue_lag_seconds > 30`.
- WAF/bot meneceri üçün bir ASN → siqnal '429 '/' 5xx' sıçrayış.
- Yalnız davamlı pozğunluqlar zamanı allertlər; dublikatların avtomatik susdurulması; routes to runbooks.
9) Həqiqətən kömək edən daşbordlar
«Flow Depozit»
Huni: sorğu → cüzdan provayderi → culback → yeniləmə.
Uğurlar/səhvlər, BIN ölkələrinin xəritəsi, p95/99 gecikmə, səhv kodlarının paylanması.
«Canlı oyunlar/bahislər»
Aktiv masalar, online oyunçular, p95 WS gecikmələri, share timeouts/aborts, səhvlərə görə top oyunlar.
«Sağlamlıq API»
RED əsas marşrutları, 4xx/5xx, bağlantı hovuzu saturations/CPU/GC, top N yavaş enpoints (Trace links ilə).
10) Dəyəri və saxlama: necə iflas etməmək
Cardinality budget: etiket limitləri/atributları; metrik əlavə PR review.
Tiered storage: isti 3-7 gün (sürətli axtarış), isti 30-90 gün (S3/obyekt), soyuq arxiv (nadir hallarda).
Downsampling metrik (1s → 10s → 1m) və rolling-aqreqasiya.
Retrajlar və idempotent zənglərdən logların deuplikasiyası.
11) Gizlilik və uyğunluq (qısa)
'user _ id' psevdonimləşdirin, e-mail, telefon, pasport qeydlərində saxlamayın.
Nəqliyyatı (mTLS) və "dinclik 'i şifrələyin, çıxışları (RBAC/MFA) ayırın, məlumatlara giriş meta jurnallarını aparın.
TTL/verilənlər matrisi kimi retenshen; «silmək hüququ» tarixi dəstlərdə deaktivasiya bayraqları və təxəllüslər vasitəsilə həyata keçirin.
12) Trade insidentlər və hata ayıklama: sürətli resept
1. Simptomatik alert (əmanətlərin müvəffəqiyyəti) işlədi.
2. Dashboard bir provayder bir artım göstərdi.
3. Trace-view-a basın: 'provider _ callback' (p99 2. 3 s), bir çox retras.
4. Qeydlər: 'timeout' + ASN = botpattern ilə hosting.
5. Fəaliyyət: Taymautları Culback-ə qaldırdılar, ASN üçün WAF-da JS çağırışını daxil etdilər, retrayları məhdudlaşdırdılar.
6. Retro: 'callback _ success _ ratio' üçün SLI əlavə, 'queue _ lag _ seconds' üçün alert.
13) Mərhələlər üzrə tətbiq
1. 4-6 kritik flow üçün SLO dizaynı (giriş, depozit, çıxış, oyun başlamaq, bahis).
2. RED/USE + biznes SLI metrikası; vahid etiket sxemi.
3. Struktur loqlar 'trace _ id'; həssas sahələri maskalamaq.
4. OpenTelemetry hər yerdə; adaptiv sempleme.
5. Dashboards + alerts (simptomatik və səbəb), runbooks.
6. Cost-management: kardinallıq, downsampling, saxlama səviyyələri.
7. Təlimlər: GameDay ssenariləri (ödənişin düşməsi, provayder laqası, WS sıçrayışı).
8. Davamlı təkmilləşdirmə: Yeni fiqurlar göründükdə SLI əlavə edin, «kor bölgələri» bağlayın.
14) Çek siyahısı (prod-ready)
- SLO/SLI təsdiq, error budget buraxılış siyasətində.
- RED/USE metrika + vahid etiket ontologiyası ilə iş metrikası.
- JSON log, sirləri maskalamaq, hər mesajda 'trace _ id'.
- End-to-end track (HTTP/gRPC/WebSocket/WebRTC), W3C kontekst.
- simptomatik və səbəbkar, heç bir səs-küy, runbooks links.
- Depozitlər, dərəcələr, sağlamlıq API üçün Daşbordlar; 'provider/market' vasitəsilə sürətli filtrlər.
- Sampling/kardinallıq nəzarət altında, tiered storage.
- Gizlilik: təxəllüs, şifrələmə, RBAC/MFA, meta jurnallar.
- Təlimlər və retro, SLO müntəzəm yenidən baxılması.
Xülasə
iGaming-in müşahidə edilməsi «CPU qrafikləri» deyil, real vaxt məhsulu şəklidir: SLO kritik flow, RED/USE metrikləri, oyunçu və pulun bütün yolu boyunca əlaqə qeydləri və izlər. Səhv büdcə ilə alertinq intizamı əlavə edin, telemetriyanın dəyərinə nəzarət edin, məxfiliyə riayət edin - və komanda təxmin etməyəcək, ancaq problemlərin səbəblərini görəcək və oyunçular bunu görənə qədər onları düzəldəcəkdir.
