Gözlemlenebilirlik: metrikler, günlükler, iGaming'de izleme
1) Gözlemlenebilirlik neden iGaming'de
Oyuncular gerçek zamanlı gecikmelere ve çökmelere (canlı oyunlar, bahisler, turnuvalar) duyarlıdır. Giriş/para yatırma/para çekme işlemindeki herhangi bir bozulma gelir ve güvene çarpar. Gözlemlenebilirlik:- L3-L7, uygulamaların ve işletmelerin anlık görüntüsünü sağlayın
- Ön, API'ler, oyun sağlayıcıları, ödemeler arasındaki darboğazları hızlı bir şekilde yerelleştirin;
- Ürün dosyalarını (bahse girmek imkansızdır) "güzel" teknik metriklerden açıkça ayırır.
Anahtar: SLO (hizmet düzeyi nesneleri) ürün akışıyla başlayın ve yalnızca ardından metrikleri/günlükleri/izleri seçin.
2) Ürün SLO'ları ve hata bütçesi
SLO örnekleri (30 günden fazla):- Giriş: 99 ≥ başarı. 90 %, p95 gecikme ≤ 250 ms.
- Depozito ('/ödemeler/depozito ') ve sonuç: Başarı ≥ 99. 85 %, p95 ≤ 400 ms.
- Gerçek zamanlı bahis: 99 ≥ başarı. 9 %, p95 WS mesajları ≤ 120 ms.
- Canlı bir oyunun slot/oturumunu başlatmak: Başarı ≥ 99. %8, p95 ≤ 800 ms.
Hata bütçesi serbest bırakma politikasına çevrilir:> %50 kullanılırsa - yalnızca stop-feature/canary deposit;> %80 - sadece hata düzeltmeleri.
3) Telemetrinin "Üç Balinası"
Metrikler (durum ölçümü)
Özel API'ler için RED: Her uç nokta/yöntem için Hız, Hatalar, Süre.
Altyapı için KULLANIM: Kullanım, Doygunluk, Hatalar (CPU, bellek, IO, bağlantılar, kuyruklar).
İş metrikleri: registratsii - depozit dönüşümü, başarı oranı, aktif canlı casino tablolarının sayısı, ortalama teklif gecikmesi.
Günlükler (gerçekler ve bağlam)
Gerekli alanlarla yapılandırılmış JSON olayları: 'ts', 'level', 'service', 'env', 'trace _ id', 'span _ id', 'user _ id' (takma adlı), 'session _ id', 'route', 'status', 'latency _ ms', 'amount', 'currency', 'provider'.
Kategoriler: denetim (haklar/denge değişiklikleri), iş olayları (oran, depozito), hatalar (yığın/kod), teknik destek (uyarı/bilgi).
İzleme (Neden ve Sonuç)
Önden uçtan uca ^ API ^ risk motoru ^ oyun sağlayıcıları/ödemeleri ^ kuyruklar/veritabanları.
Geniş hata örneklemesi (%100), "yavaş" isteklerin uyarlanabilir örneklemesi (örn. p95 +), varsayılan olarak %1-5 başarı trafiği.
4) Metrik tasarımı: ne çekmek ve ne aramak
Prometheus metriklerine örnekler (pseudo):
KIRMIZI по платежам sayacı ig_payments_requests_total{route="/payments/deposit,"method="POST,"provider="card"}
Sayaç ig_payments_errors_total{route="/payments/deposit,"code="5xx,"provider="card"}
Hist ig_payments_latency_seconds_bucket{route="/payments/deposit,"le="0. 25"}
Ölçü ig_wallet_balance_anomalies{reason="negative_after_loss"}
Бизнес sayacı ig_bet_placed_total{game="slot,"provider="PragmaticPlay,"currency="EUR"}
Hist ig_bet_rtt_ms_bucket{game="live_blackjack,"le="100"}
Ölçü ig_active_tables{provider="Evolution,"market="EU"}- Etiketlerin tek bir ontolojisi: 'env', 'bölge', 'pazar', 'sağlayıcı', 'rota', 'oyun', 'ödeme _ yöntemi'.
- Kardinaliteyi şişirmeyin: metriklerde 'user _ id' sınırlayın (yalnızca günlüklerde/izlerde).
5) Günlükler: yapı, gizlilik, saklama
Kritik eylemler için minimum JSON:Json
{
"ts ":" 2025-10-23T17: 41:26. 123Z "," level ":" INFO "," service ":" payments-api "," env ":" prod "," trace_id":"b3f7..., "span_id":"ab12...," "user_pid":"u_9fd..." ,//alias, not email/phone
"session_id":"s_78a...," "rota ": "/ödemeler/depozito "," durum ": 200," latency_ms":182 ", miktar ": 100. 0, "para birimi":" EUR", "sağlayıcı":" kart", "bin_country":"DE"
}- PAN/CVV, belirteçler, şifreler, JWT'yi maskeleyin/hariç tutun - hata ayıklamasında bile.
- Günlükleri izlere ('trace _ id') ve müşteriye ('user _ pid' takma adı) bağlayın.
- TTL: "Gürültülü" teknoloji uzmanları 14-30 gün, denetim izi 1-3 yıl (politika ve yasaya göre), iş günlükleri 6-24 ay (takma adlı).
- Denetim için WORM/bağışıklık (değişmeyen kovalar), role göre ACL.
6) İzleme: önden sağlayıcıya
Genişletilmiş akış
Login/registration - anti-bots/WAF - Auth-API - profil/cüzdan.
Para Yatırma - Ödeme API'si - Sağlayıcı - Webhooks - Cüzdan hizmeti.
Bet - Game-gateway (WebSocket) - Oyun sağlayıcısı - Cüzdanın kazancını hesaplamak.
Taktik
OpenTelemetry her yerde: Önde SDK (XHR/Fetch), mobilde, API'de, işçilerde.
Bağlam protokolleri: W3C traceparent/tracestate; gRPC/HTTP/WebSocket (WS'de - ilk meta verilerde/mesajlarda).
Uyarlanabilir örnekleme: Hatalar için %100, ödeme sonuçları için % ≥50,'yeni "sürümler/kanaryalar için % ≥10, %1-5 arka plan.
İzleme görünümünde görsel etiketler: 'risk _ decision', 'provider _ name', 'bonus _ id', 'jackpot _ round'.
7) Gerçek zamanlı kanallar: WebSocket/WebRTC
Метрики: 'ws _ connected _ sessions', 'ws _ messages _ in _ flight', 'ws _ send _ latency _ ms', 'ws _ disconnect _ reason'.
Olayları izleme: 'ws _ subscribe _ table', 'ws _ bet _ place', 'ws _ settlement'.
Günlükler: mesaj boyutunu/frekansını normalleştirmek; "Boş pingleri've sel modellerini izleyin.
WebRTC (canlı casino) için: 'jitter _ ms', 'packet _ loss', 'round _ trip _ time _ ms', 'keyframe _ interval _ s'.
8) Uyarı: semptomlardan nedenlere
Semptomatik uyarılar (SLO/SLA):- Giriş SLI hatası> 0. 5 dakikada %3.
- p95'/ödemeler/depozito '> 400 ms 10 dakika üst üste.
- Bahis başarısı <99. 15 dakikada %7.
- 'db _ connections _ saturation> 0. 85 '5 мин;' queue _ lag _ seconds> 30 '.
- '429'/' 5xx'bir ASN'den patladı - WAF/bot yöneticisine sinyal.
- Allerts sadece kalıcı bozulma; Kopyaların otomatik olarak sıkışması; Runbook'lara giden yollar.
9) Gerçekten yardımcı olan panolar
"Mevduat akışı"
Funnel: request _ redirect to the provider> floppy - wallet update.
Sağlayıcıya göre başarı/hatalar, BIN ülke haritası, p95/99 gecikme süresi, hata kodlarının dağıtımı.
"Canlı Oyunlar/Bahisler"
Aktif tablolar, çevrimiçi oyuncular, p95 WS gecikmeleri, paylaşım zaman aşımları/iptal, üst hata oyunları.
"API Sağlık"
Anahtar rotalarda KIRMIZI, 4xx/5xx, bağlantı havuzu saturasyonları/CPU/GC, üst N yavaş uç noktaları (izdeki bağlantılar ile).
10) Maliyet ve depolama: nasıl kırılmayacak
Kardinalite bütçesi: etiketler/nitelikler üzerindeki sınırlar; Metrikler ekleyen PR incelemeleri.
Katmanlı depolama: Sıcak 3-7 gün (hızlı arama), sıcak 30-90 gün (S3/nesne), soğuk arşiv (daha az sıklıkla).
Altörnekleme metrikleri (1s> 10s> 1m) ve yuvarlama toplama.
Retrays ve idempotent çağrılardan gelen günlüklerin tekilleştirilmesi.
11) Gizlilik ve uyumluluk (kısa)
'User _ id' takma adını kullanın, günlüklerde e-posta, telefon, pasaport saklamayın.
Aktarımı (mTLS) ve dinlenmeyi şifreleyin, erişimleri farklılaştırın (RBAC/MFA), veri erişim günlüklerini koruyun.
Veri matrisindeki gibi TTL/saklama; "Silme hakkı", tarihsel kümelerde devre dışı bırakma bayrakları ve takma ad verme yoluyla uygulanır.
12) Olaylar ve iz hata ayıklama: hızlı tarif
1. Semptomatik bir uyarı (depozito başarısı) işe yaradı.
2. Dashboard, her birinde bir sağlayıcı dalgalanması gösterdi.
3. İzleme görünümünü tıklatın: 'provider _ callback' üzerinde uzun bir adım (s99 2. 3 s), birçok retras.
4. Günlükler: 'timeout' + ASN = bot pattern hosting.
5. Eylem: Kolda yükseltilmiş zaman aşımları, ASN için WAF'ta JS mücadelesi dahil, sınırlı retras.
6. Retro: 'callback _ succcess _ ratio' üzerine SLI eklendi, 'queue _ lag _ seconds' üzerine uyarı.
13) Faza göre uygulama
1. 4-6 kritik akış için SLO tasarımı (giriş, para yatırma, çıkış, oyun başlatma, bahis).
2. KIRMIZI/KULLANIM + iş SLI metrikleri; Tek etiket şeması.
3. 'Trace _ id'ile yapısal günlükler; Hassas alanları maskeleme.
4. OpenTelemetry her yerde; Adaptif örnekleme.
5. Panolar + uyarılar (semptomatik ve nedensel), runbooks.
6. Maliyet yönetimi: kardinalite, alt örnekleme, depolama seviyeleri.
7. Alıştırmalar: GameDay senaryoları (ödeme düşüşü, sağlayıcı gecikmesi, WS dalgalanması).
8. Sürekli iyileştirme: Yeni özellikler göründüğünde SLI ekleyin, "kör noktaları" kapatın.
14) Kontrol listesi (prod-hazır)
- SLO/SLI, yayın politikasında bütçe hatasını onayladı.
- KIRMIZI/KULLANIM metrikleri + tek bir etiket ontolojisi ile iş metrikleri.
- JSON günlükleri, sırları maskeleme, her mesajda 'trace _ id'.
- Uçtan uca izleme (HTTP/gRPC/WebSocket/WebRTC), W3C bağlamı.
- Uyarılar semptomatik ve nedensel, gürültü olmadan, runbooks bağlantılar.
- Mevduat, oranlar, API sağlığı için gösterge tabloları; 'provider/market'tarafından hızlı filtreler.
- Örnekleme/kardinalite kontrol altında, katmanlı depolama.
- Gizlilik: Aliasing, şifreleme, RBAC/MFA, meta günlükleri.
- Matkaplar ve retro, düzenli SLO revizyonu.
Özgeçmiş Özeti
IGaming'in gözlemlenebilirliği "CPU grafikleri'değil, gerçek zamanlı bir ürün resmidir: SLO kritik akışı, RED/USE metrikleri, tutarlı günlükler ve oyuncunun tüm yolu ve parası boyunca izler. Hatalı bir bütçeye uyarı disiplini ekleyin, telemetri maliyetini kontrol edin, gizliliği gözlemleyin - ve ekip tahmin etmeyecek, ancak sorunların nedenlerini görecek ve oyuncular fark etmeden önce bunları düzeltecektir.
