API ve Altyapı İzleme Araçları
1) İlkeler: hedeflerden araçlara
SLO-first: Ürün amaçları için araçları seçin ve özelleştirin (giriş, para yatırma, oran) ve tersi değil.
Açık standartlar: OpenTelemetry (yollar/metrikler/günlükler), Prometheus fuar formatı, Loki JSON günlükleri.
Tek bağlam: Günlüklerde ve metriklerde 'trace _ id'/' span _ id'; "dashboard - trace - log'u bağlar.
Maliyet farkındalığı: metriklerin kardinalitesi, TTL günlükleri, örnekleme izleri - önceden.
2) Metrikler: toplama, depolama, görselleştirme
Сбор: Prometheus/Agent- режим (VictoriaMetrics Agent, Grafana Agent, OpenTelemetry Collector).
Depolama (TSDB): Prometheus (tek), Thanos/Cortex/Mimir (ölçeklendirme), VictoriaMetrics (CPU/RAM tasarrufu).
Görselleştirme: "Cam panel'olarak Grafana.
API (RED) ve altyapı (USE) için ne ölçülür:- KIRMIZI: 'rate (requests)', 'error _ ratio', 'latency p95/p99' по 'route', 'method', 'provider'.
- KULLANIM: CPU/Mem, dosya tanımlayıcıları, bağlantı havuzları, kuyruk gecikmesi, GC duraklamaları.
- k8s: kube-state-metrics, node-exporter, cAdvisor, ingress/gateway exporters.
- БД/кэши: postgres_exporter, mysql_exporter, redis_exporter, kafka_exporter, rabbitmq_exporter.
- Servis püresi: Elçi metrikleri, istio/Linkerd panoları.
- PSP/внешние: özel ihracatçılar (webhook başarısı, PSP başarı oranı, geri çağrı gecikmesi).
Promql
Mevduat Başarı Oranı (SLI)
toplam (oran (ig_payments_requests_total{route="/payments/deposit,"status=~"2.."}[5m]))
/
toplam (oran (ig_payments_requests_total{route="/payments/deposit"}[5m]))
P95 gecikme API histogram_quantile (0. 95, sum (rate (http_request_duration_seconds_bucket[5m])) by (le, route))
DB Bağlantı Havuzu Doygunluk db_connections_in_use/ db_connections_max3) Günlükler: arama, korelasyon, değişmezlik
Yığın: OpenSearch/Elasticsearch + Beats/Vector/Fluent Bit veya Grafana Loki (saklamak için daha ucuz, log-as-stream).
Biçim: Standart alanların ts, seviye, hizmet, env, trace_id, user_pid, rota, durum, latency_ms' ile JSON.
Uygulamalar: PII maskeleme, WORM denetim kovaları, TTL/ILM politikaları, 'env/bölge/marka' bölümleme.
4) İzleme: milisaniyelerin kaybolduğu yer
Стек: OpenTelemetry SDK/Collector - Jaeger/Tempo/Honeycomb/New Relic Traces.
Örnekleme politikası: %100 hata, "yavaş" istekler için †, %1-5 başarılı.
Теги iGaming: 'sağlayıcı', 'psp', 'risk _ karar', 'bonus _ id', 'pazar', 'ws _ table _ id'.
Bir tartışma için hızlı bir tarif: kırmızı grafikten SLO - bir problem rotasının izi - bir PSP/oyun sağlayıcısı üzerinde "kalın'bir açıklık - bir webhook günlüğü.
5) APM platformları: hepsi bir arada olduğunda
Ticari çözümler (Datadog, New Relic, Dynatrace, Grafana Cloud) APM'yi, günlükleri, izleri, sentetikleri, RUM'u kapatır.
Artıları: uygulama hızı, kutudan çıkan korelasyon. Eksileri: maliyet/satıcı kilidi.
Hibrit: OSS'de çekirdek (Prometheus + Grafana + Tempo + Loki), kritik akışta ticari modüllerle "bitiş" sentetiği/uyarısı.
6) Sentetikler ve RUM'lar: "dışarıda've" oyuncunun gözünden "
Синтетика: Checkly, Grafana Sentetik İzleme, k6 Bulut, Uptrends, Pingdom, Catchpoint, ThousandEyes.
Scripts: login - deposit (sandbox) - oyun başlatma - webhook kontrolü.
Geo: EU/LatAm/MEA/APAC, mobil ağlar, ASN karışımı.
RUM: Web-SDK (TTFB/LCP/CLS), mobil SDK; Ülkeye/ağa/aygıta göre segmentasyon.
7) Kubernetes-izleme yüzeyleri
Kontrol düzlemi: etcd, API-sunucu (apiserver_request_total, gecikme), zamanlayıcı/controllermanager.
Veri düzlemi: kubelet, CNI, giriş/ağ geçidi; 'PodDisruptionBudget' и эвикшены.
Autoscale: HPA/VPA/Cluster Autoscaler ölçümleri ve olayları; Sıcak havuzlar.
Ağ politikaları: Olayları düşürür/reddeder, DNS gecikmesi.
8) Veritabanları, kuyruklar, önbellekler
Postgres/MySQL: çoğaltma gecikmesi, kilitlenmeler, bloat, WAL, kontrol noktası süresi, zaman aşımları.
Kafka/RabbitMQ: tüketici gecikmesi, yeniden dengelenmeler, kuyruk derinliği, yeniden dağıtımlar.
Redis: olaylar, engellenen istemciler, gecikme yüzdeleri, çoğaltma gecikmesi.
PITR/yedeklemeler: yedekleme operatörü görevleri + geri yükleme süresi panosu.
9) Ağ, CDN, WAF, oyun sağlayıcıları ve PSP'ler
CDN/Edge: isabet oranı, bölgelere göre TTFB, kalkan vuruşu, "bayan fırtına".
WAF/bot manager: share challenges/blocks, ASN/countries, FPR on login/deposit.
Oyun sağlayıcıları: masa/slot başlangıç zamanı, stüdyo tarafından başarısızlık/zaman aşımları.
PSP: yöntem/ülke/BIN ile başarı oranı/gecikme, 3DS/AVS hata kodları, webhooks başarı ve gecikme.
10) Uyarı ve görev
Yönlendirme: Alertmanager - PagerDuty/Opsgenie/Slack.
Kurallar: semptomatik (SLO) + nedensel (kaynaklar).
Anti-gürültü: gruplama, zincir uyarılarının bastırılması, serbest bırakılması için sessizlik pencereleri.
CD'deki SLO kapıları: ihlallerde otomatik duraklatma/geri alma (Argo Rollouts/Flagger AnalysisRun).
Uyarı örnekleri (basitleştirilmiş):- 'login _ success _ ratio <99. 10 m için %9 '
- 'p95/payments/deposit> 0. 10 m için 4s '
- 'db _ connections _ saturation> 0. 85'e 5 m '
- 'kafka _ consumer _ lag> 30'lar'
- 'cdn _ hit _ ratio drop> %15 in 10m (per region)'
11) Gerçekten yardımcı olan panolar
Para yatırma akışı: huni, p95/p99, PSP/BIN/ülke hataları, webhook gecikmesi.
Canlı oyunlar/WS: bağlantılar, RTT, yeniden gönder/yeniden bağla, sağlayıcıya göre hatalar.
API sağlığı: Rotalara, doygunluklara, en yavaş uç noktalara ↔ izlere göre RED.
DR paneli: replikasyon gecikmesi, WAL gönderimi, DR bölgesinden sentetik giriş/depozito.
Güvenlik: WAF, bot puanı, 401/403 anomalileri, imzalı webhooks.
12) Telemetri Maliyet Yönetimi
Metriklerin kardinalitesi: Etiketlerde 'user _ id', 'rota've' sağlayıcı 'sınırlarını içermez.
Altörnekleme ve tutma sınıfları (sıcak 7-14 gün, sıcak 30-90, soğuk arşiv).
Günlükler: olay atlama - örnekleme/dedup etkinleştirin; Stacktrace'i ayrı ayrı saklayın.
İzler: "Pahalı" yollar boyunca dinamik örnekleme (ödemeler/sonuçlar).
13) İzlemede güvenlik ve gizlilik
Temsilcilerden koleksiyonculara mTLS; At-rest şifreleme.
'User _ pid' takma adı, günlüklerde e-posta/telefon/belgelerin yasaklanması.
Denetim için RBAC/MFA, WORM; Üçüncü taraf izleme sağlayıcıları ile DPA.
14) CI/CD ile entegrasyon ve otomatik geri alma
CD analizleri için prom metrikleri olarak SLI'ye maruz kalma.
Etiketleri ('sürüm', 'rollout _ step') metriklerde/günlüklerde/izlerde serbest bırakın.
Otomatik kanarya kapıları: iniş sadece yeşil SLO'larla devam edecektir.
15) Hızlı başlangıç yığını (referans)
Toplama/taşıma: OTEL Collector + Prometheus/VM Agent + Fluent Bit.
Depolama: VictoriaMetrics/Thanos (metrikler), Loki/OpenSearch (günlükler), Tempo/Jaeger (izler).
Görselleştirme: Grafana + hazır panolar k8s/Envoy/Postgres.
& RUM sentetikleri: Checkly/k6 + Grafana RUM (veya ticari eşdeğeri).
Uyarı: Alertmanager - PagerDuty/Slack; referanslardaki runbooks.
16) Uygulama kontrol listesi (prod-ready)
- SLO/SLI giriş/para yatırma/teklif/çıkış için tanımlanmıştır.
- KIRMIZI/KULLANIM + İş SLI metrikleri; Tek bir etiket ontolojisi.
- 'trace _ id', PII maskeleme, denetim için WORM ile JSON günlükleri.
- OpenTelemetry uçtan uca; %100 hata örneklemesi.
- Anahtar bölgelerden sentetikler + satışlarda RUM.
- Panolar "akış mevduat", "WS", "API sağlık", "DR"
- Uyarı: SLO belirtileri + kaynak nedenleri; Anti-gürültü.
- SLO kapıları CD'ye bağlanır; otomatik geri alma.
- Maliyet planı: tutma/örnekleme/kardinalite.
- DPA/güvenlik: mTLS, RBAC, log gizliliği.
Özgeçmiş Özeti
Güçlü izleme, bir dizi "güzel grafik'değil, tutarlı bir sistemdir: KIRMIZI/KULLANIM metrikleri, 'trace _ id' içeren günlükler, OpenTelemetry izleri, sentetikler ve RUM, ayrıca CI/CD'nize yerleştirilmiş panolar, uyarılar ve SLO kapıları. Açık standartlar etrafında bir yığın oluşturun, telemetri maliyetini kontrol edin ve etiket ontolojisini standartlaştırın - daha sonra herhangi bir API ve altyapı sorunu önceden görülebilecek ve oyuncular tarafından fark edilmeden önce onarılacaktır.
