API və infrastruktur monitorinq vasitələri
1) Prinsiplər: hədəflərdən alətlərə
SLO-first: Alətləri məhsul məqsədləri üçün seçin və konfiqurasiya edin (giriş, depozit, bahis), əksinə deyil.
Open standards: OpenTelemetry (Traces/Metrics/Logs), Prometheus exposition format, Loki JSON Logs.
Vahid kontekst: 'trace _ id '/' span _ id' log və metriklərdə; linki «dashboard → trace → log».
Cost-aware: metrik kardinallığı, TTL log, treys sampling - əvvəlcədən.
2) Metriklər: toplama, saxlama, vizuallaşdırma
Сбор: Prometheus / Agent-режим (VictoriaMetrics Agent, Grafana Agent, OpenTelemetry Collector).
Storage (TSDB): Prometheus (tək), Thanos/Cortex/Mimir (üfüqi miqyas), VictoriaMetrics (CPU/RAM qənaət).
Vizuallaşdırma: «şüşə panel» kimi Grafana.
API (RED) və infrastruktur (USE) üçün nə ölçmək lazımdır:- RED: `rate(requests)`, `error_ratio`, `latency p95/p99` по `route`, `method`, `provider`.
- USE: CPU/Mem, file descriptors, connection pools, queue lag, GC pauses.
- k8s: kube-state-metrics, node-exporter, cAdvisor, ingress/gateway exporters.
- БД/кэши: postgres_exporter, mysql_exporter, redis_exporter, kafka_exporter, rabbitmq_exporter.
- Xidmət-mash: Envoy metrics, istio/Linkerd dashboards.
- PSP/внешние: custom exporters (webhook success, PSP success ratio, callback latency).
promql
Depozitlərin müvəffəqiyyəti (SLI)
sum(rate(ig_payments_requests_total{route="/payments/deposit",status=~"2.."}[5m]))
/
sum(rate(ig_payments_requests_total{route="/payments/deposit"}[5m]))
p95 latency API histogram_quantile(0. 95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le, route))
DB db_connections_in_use/ db_connections_max qoşulma hovuzunun doyması3) Qeydlər: axtarış, korrelyasiya, dəyişməzlik
Yığını: OpenSearch/Elasticsearch + Beats/Vector/Fluent Bit və ya Grafana Loki (daha ucuz saxlama, «log-kimi-axın»).
Format: JSON 'ts, level, service, env, trace_id, user_pid, route, status, latency_ms'.
Təcrübələr: PII maskalanması, audit üçün WORM-backets, TTL/ILM siyasəti, partizan 'env/region/brand'.
4) Tracking: millisaniyələr itirilir
Стек: OpenTelemetry SDK/Collector → Jaeger/Tempo/Honeycomb/New Relic Traces.
Sample siyasəti: 100% səhvlər, «yavaş» sorğular üçün adaptasiya, 1-5% uğurlu.
Теги iGaming: `provider`, `psp`, `risk_decision`, `bonus_id`, `market`, `ws_table_id`.
Sürətli debaq resepti: SLO → trace problem marşrutu → «qalın» span PSP/oyun provayderi → vebhuka log qırmızı qrafdan.
5) APM platformaları: «hamısı bir arada» olduqda
Kommersiya həlləri (Datadog, New Relic, Dynatrace, Grafana Cloud) APM, log, treys, sintetika, RUM-u bağlayır.
Üstünlüklər: tətbiq sürəti, «qutudan» korrelyasiya. Mənfi cəhətləri: dəyəri/satıcı lok.
Hibrid: OSS-də nüvə (Prometheus + Grafana + Tempo + Loki), kritik flow üçün kommersiya modulları ilə sintetikanı/alertinqi «tamamlamaq».
6) Sintetika və RUM: «xaricdə» və «oyunçunun gözü ilə»
Синтетика: Checkly, Grafana Synthetic Monitoring, k6 Cloud, Uptrends, Pingdom, Catchpoint, ThousandEyes.
Skriptlər: giriş → depozit (sandbox) → oyun başlamaq → vebhuk yoxlama.
Geo: EU/LatAm/MEA/APAC, mobil şəbəkələr, ASN-mix.
RUM: Web-SDK (TTFB/LCP/CLS), mobil SDK; ölkə/şəbəkə/cihaz üzrə seqmentasiya.
7) Kubernetes-səth monitorinqi
Control plane: etcd, API-server (apiserver_request_total, latency), scheduler/controllermanager.
Data plane: kubelet, CNI, ingress/gateway; `PodDisruptionBudget` и эвикшены.
Avtoskeyl: HPA/VPA/Cluster Autoscaler metrik və hadisələr; warm-hovuzlar.
Şəbəkə siyasətləri: drops/deny events, DNS latency.
8) Verilənlər bazası, növbələr, keşlər
Postgres/MySQL: lag replikasiya, deadlocks, bloat, WAL, checkpoint duration, taymautlar.
Kafka/RabbitMQ: consumer lag, rebalances, queue depth, redeliveries.
Redis: evictions, blocked clients, latency percentiles, replica-lag.
PITR/backaps: backup operator vəzifələri + dashboard «bərpa qədər vaxt».
9) Şəbəkə, CDN, WAF, oyun provayderləri və PSP
CDN/Edge: bölgələr üzrə hit-ratio, TTFB, shield hit, «fırtına qaçırma».
WAF/bot meneceri: paylaşılan çağırış/bloklar, ASN/ölkələr, FPR giriş/depozit.
Game providers: masa/slot başlama vaxtı, studiyalarda uğursuzluq/taymaut.
PSP: success ratio/latency metodu/ölkə/BIN, səhv kodları 3DS/AVS, webhooks success & delay.
10) Alerting və vəzifə
Routing: Alertmanager → PagerDuty/Opsgenie/Slack.
Qaydalar: simptomatik (SLO) + səbəb (resurs).
Antishum: qruplaşdırma, zəncirvari alertlərin yatırılması, azad üçün sükut pəncərələri.
CD SLO geytaları: pozuntular zamanı avtomatik fasilə/geri çəkilmə (Argo Rollouts/Flagger AnalysisRun).
Alert nümunələri (sadələşdirilmiş):- `login_success_ratio < 99. 9% for 10m`
- `p95 /payments/deposit > 0. 4s for 10m`
- `db_connections_saturation > 0. 85 for 5m`
- `kafka_consumer_lag > 30s`
- `cdn_hit_ratio drop > 15% in 10m (per region)`
11) Həqiqətən kömək edən daşbordlar
Flow depozit: huni, p95/p99, PSP/BIN/ölkələr üzrə səhvlər, webhook gecikməsi.
Live-oyunlar/WS: bağlantılar, RTT, resend/reconnect, provayder səhvləri.
Sağlamlıq API: RED marşrutları, saturations, top slow endpoints, trace.
DR paneli: replication lag, WAL shipping, DR bölgəsindən synthetic login/deposit.
Security: WAF, bot score, 401/403 anomaliyalar, imzalanmış vebhuk.
12) Telemetriya xərclərinin idarə edilməsi
Metriklərin kardinallığı: 'user _ id' etiketlərinə, 'route' və 'provider' limitlərinə daxil etməyin.
Downsampling və retention sinifləri (isti 7-14 gün, isti 30-90, soyuq arxiv).
Log 'lar: sıçrayış hadisələri - sempleme/dedup daxil edin; stacktrace ayrıca saxlayın.
Traces: «bahalı» yollarda dinamik sampling (ödənişlər/nəticələr).
13) Monitorinqdə təhlükəsizlik və məxfilik
mTLS agentlərdən kollektorlara qədər; at-rest şifrələmə.
'user _ pid' təxəllüsü, e-mail/telefon/sənədlərin girişlərdə qadağan edilməsi.
RBAC/MFA, audit üçün WORM; Üçüncü tərəf monitorinq provayderləri ilə DPA.
14) CI/CD ilə inteqrasiya və avtomobil geri
CD analizləri üçün promometrik kimi SLI ekspozisiyası.
Release labels ('version', 'rollout _ step') metrik/log/treys.
Avtomatik kanarya geytləri: deploy yalnız yaşıl SLO ilə davam edəcək.
15) Sürətli start yığın (referans)
Yığım/nəqliyyat: OTEL Collector + Prometheus/VM Agent + Fluent Bit.
Saxlama: VictoriaMetrics/Thanos (metriklər), Loki/OpenSearch (log), Tempo/Jaeger (treys).
Vizuallaşdırma: Grafana + hazır dashboard k8s/Envoy/Postgres.
Sintetika & RUM: Checkly/k6 + Grafana RUM (və ya kommersiya analoqu).
Alerting: Alertmanager → PagerDuty/Slack; linklərdə runbooks.
16) Giriş çek siyahısı (prod-ready)
- Giriş/depozit/məzənnə/çıxarış üçün SLO/SLI müəyyən edilmişdir.
- RED/USE + biznes SLI metrikası; etiketlərin vahid ontologiyası.
- JSON log 'trace _ id', PII maskalama, audit üçün WORM.
- OpenTelemetry end-to-end; 100% səhvlərin toplanması.
- Əsas bölgələrdən sintetika + Prod RUM.
- Daşbordlar «flow depozit», «WS», «sağlamlıq API», «DR».
- Alerting: SLO simptomları + resurs səbəbləri; antishum.
- SLO-geytlar CD-yə qoşulur; avtomatik cavab.
- Dəyər planı: retenshen/sempling/kardinallıq.
- DPA/təhlükəsizlik: mTLS, RBAC, privacy log.
Xülasə
Güclü monitorinq «gözəl qrafiklər» dəsti deyil, əlaqə sistemidir: RED/USE metrikləri, 'trace _ id', OpenTelemetry-tracking, sintetik və RUM, üstəlik, CI/CD-də quraşdırılmış dashbordlar, alerting və SLO geytləri. Açıq standartlar ətrafında yığını toplayın, telemetriyanın dəyərinə nəzarət edin və etiketlərin ontologiyasını standartlaşdırın - sonra API və infrastrukturla bağlı hər hansı bir problem oyunçular onları görənə qədər əvvəlcədən görünəcək və düzəldiləcəkdir.
