API və infrastruktur monitorinq vasitələri

1) Prinsiplər: hədəflərdən alətlərə

SLO-first: Alətləri məhsul məqsədləri üçün seçin və konfiqurasiya edin (giriş, depozit, bahis), əksinə deyil.

Open standards: OpenTelemetry (Traces/Metrics/Logs), Prometheus exposition format, Loki JSON Logs.

Vahid kontekst: 'trace _ id '/' span _ id' log və metriklərdə; linki «dashboard → trace → log».

Cost-aware: metrik kardinallığı, TTL log, treys sampling - əvvəlcədən.

2) Metriklər: toplama, saxlama, vizuallaşdırma

Сбор: Prometheus / Agent-режим (VictoriaMetrics Agent, Grafana Agent, OpenTelemetry Collector).

Storage (TSDB): Prometheus (tək), Thanos/Cortex/Mimir (üfüqi miqyas), VictoriaMetrics (CPU/RAM qənaət).

Vizuallaşdırma: «şüşə panel» kimi Grafana.

API (RED) və infrastruktur (USE) üçün nə ölçmək lazımdır:

RED: `rate(requests)`, `error_ratio`, `latency p95/p99` по `route`, `method`, `provider`.
USE: CPU/Mem, file descriptors, connection pools, queue lag, GC pauses.

Faydalı ixracatçılar:

k8s: kube-state-metrics, node-exporter, cAdvisor, ingress/gateway exporters.
БД/кэши: postgres_exporter, mysql_exporter, redis_exporter, kafka_exporter, rabbitmq_exporter.
Xidmət-mash: Envoy metrics, istio/Linkerd dashboards.
PSP/внешние: custom exporters (webhook success, PSP success ratio, callback latency).

PromQL nümunələri:

promql
Depozitlərin müvəffəqiyyəti (SLI)
sum(rate(ig_payments_requests_total{route="/payments/deposit",status=~"2.."}[5m]))
/
sum(rate(ig_payments_requests_total{route="/payments/deposit"}[5m]))

p95 latency API histogram_quantile(0. 95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le, route))

DB db_connections_in_use/ db_connections_max qoşulma hovuzunun doyması

3) Qeydlər: axtarış, korrelyasiya, dəyişməzlik

Yığını: OpenSearch/Elasticsearch + Beats/Vector/Fluent Bit və ya Grafana Loki (daha ucuz saxlama, «log-kimi-axın»).

Format: JSON 'ts, level, service, env, trace_id, user_pid, route, status, latency_ms'.

Təcrübələr: PII maskalanması, audit üçün WORM-backets, TTL/ILM siyasəti, partizan 'env/region/brand'.

4) Tracking: millisaniyələr itirilir

Стек: OpenTelemetry SDK/Collector → Jaeger/Tempo/Honeycomb/New Relic Traces.

Sample siyasəti: 100% səhvlər, «yavaş» sorğular üçün adaptasiya, 1-5% uğurlu.

Теги iGaming: `provider`, `psp`, `risk_decision`, `bonus_id`, `market`, `ws_table_id`.

Sürətli debaq resepti: SLO → trace problem marşrutu → «qalın» span PSP/oyun provayderi → vebhuka log qırmızı qrafdan.

5) APM platformaları: «hamısı bir arada» olduqda

Kommersiya həlləri (Datadog, New Relic, Dynatrace, Grafana Cloud) APM, log, treys, sintetika, RUM-u bağlayır.

Üstünlüklər: tətbiq sürəti, «qutudan» korrelyasiya. Mənfi cəhətləri: dəyəri/satıcı lok.

Hibrid: OSS-də nüvə (Prometheus + Grafana + Tempo + Loki), kritik flow üçün kommersiya modulları ilə sintetikanı/alertinqi «tamamlamaq».

6) Sintetika və RUM: «xaricdə» və «oyunçunun gözü ilə»

Синтетика: Checkly, Grafana Synthetic Monitoring, k6 Cloud, Uptrends, Pingdom, Catchpoint, ThousandEyes.

Skriptlər: giriş → depozit (sandbox) → oyun başlamaq → vebhuk yoxlama.

Geo: EU/LatAm/MEA/APAC, mobil şəbəkələr, ASN-mix.

RUM: Web-SDK (TTFB/LCP/CLS), mobil SDK; ölkə/şəbəkə/cihaz üzrə seqmentasiya.

7) Kubernetes-səth monitorinqi

Control plane: etcd, API-server (apiserver_request_total, latency), scheduler/controllermanager.

Data plane: kubelet, CNI, ingress/gateway; `PodDisruptionBudget` и эвикшены.

Avtoskeyl: HPA/VPA/Cluster Autoscaler metrik və hadisələr; warm-hovuzlar.

Şəbəkə siyasətləri: drops/deny events, DNS latency.

8) Verilənlər bazası, növbələr, keşlər

Postgres/MySQL: lag replikasiya, deadlocks, bloat, WAL, checkpoint duration, taymautlar.

Kafka/RabbitMQ: consumer lag, rebalances, queue depth, redeliveries.

Redis: evictions, blocked clients, latency percentiles, replica-lag.

PITR/backaps: backup operator vəzifələri + dashboard «bərpa qədər vaxt».

9) Şəbəkə, CDN, WAF, oyun provayderləri və PSP

CDN/Edge: bölgələr üzrə hit-ratio, TTFB, shield hit, «fırtına qaçırma».

WAF/bot meneceri: paylaşılan çağırış/bloklar, ASN/ölkələr, FPR giriş/depozit.

Game providers: masa/slot başlama vaxtı, studiyalarda uğursuzluq/taymaut.

PSP: success ratio/latency metodu/ölkə/BIN, səhv kodları 3DS/AVS, webhooks success & delay.

10) Alerting və vəzifə

Routing: Alertmanager → PagerDuty/Opsgenie/Slack.

Qaydalar: simptomatik (SLO) + səbəb (resurs).

Antishum: qruplaşdırma, zəncirvari alertlərin yatırılması, azad üçün sükut pəncərələri.

CD SLO geytaları: pozuntular zamanı avtomatik fasilə/geri çəkilmə (Argo Rollouts/Flagger AnalysisRun).

Alert nümunələri (sadələşdirilmiş):

`login_success_ratio < 99. 9% for 10m`
`p95 /payments/deposit > 0. 4s for 10m`
`db_connections_saturation > 0. 85 for 5m`
`kafka_consumer_lag > 30s`
`cdn_hit_ratio drop > 15% in 10m (per region)`

11) Həqiqətən kömək edən daşbordlar

Flow depozit: huni, p95/p99, PSP/BIN/ölkələr üzrə səhvlər, webhook gecikməsi.

Live-oyunlar/WS: bağlantılar, RTT, resend/reconnect, provayder səhvləri.

Sağlamlıq API: RED marşrutları, saturations, top slow endpoints, trace.

DR paneli: replication lag, WAL shipping, DR bölgəsindən synthetic login/deposit.

Security: WAF, bot score, 401/403 anomaliyalar, imzalanmış vebhuk.

12) Telemetriya xərclərinin idarə edilməsi

Metriklərin kardinallığı: 'user _ id' etiketlərinə, 'route' və 'provider' limitlərinə daxil etməyin.

Downsampling və retention sinifləri (isti 7-14 gün, isti 30-90, soyuq arxiv).

Log 'lar: sıçrayış hadisələri - sempleme/dedup daxil edin; stacktrace ayrıca saxlayın.

Traces: «bahalı» yollarda dinamik sampling (ödənişlər/nəticələr).

13) Monitorinqdə təhlükəsizlik və məxfilik

mTLS agentlərdən kollektorlara qədər; at-rest şifrələmə.

'user _ pid' təxəllüsü, e-mail/telefon/sənədlərin girişlərdə qadağan edilməsi.

RBAC/MFA, audit üçün WORM; Üçüncü tərəf monitorinq provayderləri ilə DPA.

14) CI/CD ilə inteqrasiya və avtomobil geri

CD analizləri üçün promometrik kimi SLI ekspozisiyası.

Release labels ('version', 'rollout _ step') metrik/log/treys.

Avtomatik kanarya geytləri: deploy yalnız yaşıl SLO ilə davam edəcək.

15) Sürətli start yığın (referans)

Yığım/nəqliyyat: OTEL Collector + Prometheus/VM Agent + Fluent Bit.

Saxlama: VictoriaMetrics/Thanos (metriklər), Loki/OpenSearch (log), Tempo/Jaeger (treys).

Vizuallaşdırma: Grafana + hazır dashboard k8s/Envoy/Postgres.

Sintetika & RUM: Checkly/k6 + Grafana RUM (və ya kommersiya analoqu).

Alerting: Alertmanager → PagerDuty/Slack; linklərdə runbooks.

16) Giriş çek siyahısı (prod-ready)

Giriş/depozit/məzənnə/çıxarış üçün SLO/SLI müəyyən edilmişdir.
RED/USE + biznes SLI metrikası; etiketlərin vahid ontologiyası.
JSON log 'trace _ id', PII maskalama, audit üçün WORM.
OpenTelemetry end-to-end; 100% səhvlərin toplanması.
Əsas bölgələrdən sintetika + Prod RUM.
Daşbordlar «flow depozit», «WS», «sağlamlıq API», «DR».
Alerting: SLO simptomları + resurs səbəbləri; antishum.
SLO-geytlar CD-yə qoşulur; avtomatik cavab.
Dəyər planı: retenshen/sempling/kardinallıq.
DPA/təhlükəsizlik: mTLS, RBAC, privacy log.

Xülasə

Güclü monitorinq «gözəl qrafiklər» dəsti deyil, əlaqə sistemidir: RED/USE metrikləri, 'trace _ id', OpenTelemetry-tracking, sintetik və RUM, üstəlik, CI/CD-də quraşdırılmış dashbordlar, alerting və SLO geytləri. Açıq standartlar ətrafında yığını toplayın, telemetriyanın dəyərinə nəzarət edin və etiketlərin ontologiyasını standartlaşdırın - sonra API və infrastrukturla bağlı hər hansı bir problem oyunçular onları görənə qədər əvvəlcədən görünəcək və düzəldiləcəkdir.