API we infrastruktura gözegçilik gurallary
1) Ýörelgeler: maksatlardan gurallara
SLO-first: Önüm maksatlary üçin gurallary saýlaň we sazlaň (giriş, goýum, nyrh), tersine däl.
Açyk standartlar: OpenTelemetry (traces/metrics/logs), Prometheus exposition format, Loki JSON-logs.
Bitewi kontekst: 'trace _ id '/' span _ id' loglarda we metriklerde; "dashbord → trace → log" linkleri.
Cost-aware: metrleriň kardinallygy, TTL ýazgylary, sampling söwdalary - öňünden.
2) Metrikler: ýygnamak, saklamak, wizuallaşdyrmak
Сбор: Prometheus / Agent-режим (VictoriaMetrics Agent, Grafana Agent, OpenTelemetry Collector).
Ammar (TSDB): Prometheus (ýeke), Thanos/Cortex/Mimir (gorizontal masştab), VictoriaMetrics (CPU/RAM tygşytlamak).
Wizualizasiýa: Grafana "aýna panel" hökmünde.
API (RED) we infrastruktura (USE) üçin näme ölçemeli:- RED: `rate(requests)`, `error_ratio`, `latency p95/p99` по `route`, `method`, `provider`.
- USE: CPU/Mem, file descriptors, connection pools, queue lag, GC pauses.
- k8s: kube-state-metrics, node-exporter, cAdvisor, ingress/gateway exporters.
- БД/кэши: postgres_exporter, mysql_exporter, redis_exporter, kafka_exporter, rabbitmq_exporter.
- Hyzmat-mash: Envoy metrics, istio/Linkerd dashboards.
- PSP/внешние: custom exporters (webhook success, PSP success ratio, callback latency).
promql
Goýumlaryň üstünligi (SLI)
sum(rate(ig_payments_requests_total{route="/payments/deposit",status=~"2.."}[5m]))
/
sum(rate(ig_payments_requests_total{route="/payments/deposit"}[5m]))
p95 latency API histogram_quantile(0. 95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le, route))
DB db_connections_in_use/ db_connections_max baglanyşyk howuzynyň doýmagy3) Ýazgylar: gözlemek, baglanyşdyrmak, üýtgewsizlik
Stek: OpenSearch/Elasticsearch + Beats/Vector/Fluent Bit ýa-da Grafana Loki (saklamak arzan, "log-akym").
Format: JSON 'ts, level, service, env, trace_id, user_pid, route, status, latency_ms'.
Amallar: PII-iň maskalanmagy, audit üçin WORM-baketler, TTL/ILM syýasaty, partiýa 'env/region/brand'.
4) Trasirleme: nirede millisekundlar ýitýär
Стек: OpenTelemetry SDK/Collector → Jaeger/Tempo/Honeycomb/New Relic Traces.
Semplemek syýasaty: 100% ýalňyşlyk, "haýal" soraglara uýgunlaşmak, 1-5% üstünlikli.
Теги iGaming: `provider`, `psp`, `risk_decision`, `bonus_id`, `market`, `ws_table_id`.
Çalt debag resepti: SLO gyzyl sütüninden → trace problema ugry → PSP/oýun üpjün edijisinde "galyň" span → vebhuka log.
5) APM platformalary: "hemme zat bir" bolanda
Söwda çözgütleri (Datadog, New Relic, Dynatrace, Grafana Cloud) APM-leri, logleri, söwdalary, sintetikleri, RUM-lary ýapýar.
Artykmaçlyklary: giriş tizligi, "gutudan" baglanyşyk. Minuslar: bahasy/wendor-lok.
Gibrid: OSS-de ýadro (Prometheus + Grafana + Tempo + Loki), kritiki flow boýunça täjirçilik modullary bilen sintetikany/alertingini "tamamlamak".
6) Sintetika we RUM: "daşarky" we "oýunçynyň gözleri"
Синтетика: Checkly, Grafana Synthetic Monitoring, k6 Cloud, Uptrends, Pingdom, Catchpoint, ThousandEyes.
Skriptlar: giriş → goýum (sandbox) → oýun başlamak → webhuk barlagy.
Geo: EU/LatAm/MEA/APAC, ykjam torlar, ASN-mix.
RUM: Web-SDK (TTFB/LCP/CLS), ykjam SDK; ýurt/tor/gurluş boýunça segmentasiýa.
7) Kubernetes-gözegçilik ýüzi
Control plane: etcd, API-server (apiserver_request_total, latency), scheduler/controllermanager.
Data plane: kubelet, CNI, ingress/gateway; `PodDisruptionBudget` и эвикшены.
Awtoskeýl: HPA/VPA/Cluster Autoscaler metrikleri we wakalary; warm-howuzlar.
Tor syýasatlary: damjalar/deny events, DNS latency.
8) Maglumat bazalary, nobatlar, nagt pullar
Postgres/MySQL: lag replikation, deadlocks, bloat, WAL, checkpoint duration, taymautlar.
Kafka/RabbitMQ: consumer lag, rebalances, queue depth, redeliveries.
Redis: evictions, blocked clients, latency percentiles, replika-lag.
PITR/backaps: backup-operatorlaryň wezipeleri + dashboard "dikeldiş wagty".
9) Tor, CDN, WAF, oýun üpjün edijileri we PSP
CDN/Edge: hit-ratio, sebitler boýunça TTFB, shield hit, "sypdyrma tupany".
WAF/bot-dolandyryjy: salgy/bloklar, ASN/ýurt, FPR giriş/depozit.
Game providers: stoluň/slotyň açylyş wagty, studiýalaryň şowsuzlygy/wagtlary.
PSP: success ratio/latency usul/ýurt/BIN, ýalňyşlyk kodlary 3DS/AVS, webhooks success & delay.
10) Alerting we nobatçylyk
Routing: Alertmanager → PagerDuty/Opsgenie/Slack.
Düzgünler: simptomatiki (SLO) + sebäpler (çeşmeler).
Antişum: toparlanmak, zynjyrly aladalary basyp ýatyrmak, boşatmak üçin dymmak penjireleri.
CD-de SLO-geýtlar: düzgün bozulan ýagdaýynda awto-arakesme/yza gaýdyp gelmek (Argo Rollouts/Flagger AnalysisRun).
Alertleriň mysallary (ýönekeýleşdirilen):- `login_success_ratio < 99. 9% for 10m`
- `p95 /payments/deposit > 0. 4s for 10m`
- `db_connections_saturation > 0. 85 for 5m`
- `kafka_consumer_lag > 30s`
- `cdn_hit_ratio drop > 15% in 10m (per region)`
11) Hakyky kömek edýän daşbordlar
Depozit ýazgysy: huni, p95/p99, PSP/BIN/ýurtlar boýunça ýalňyşlyklar, webhuklaryň gijikdirilmegi.
Live-oýunlar/WS: baglanyşyklar, RTT, resend/reconnect, üpjün edijiler boýunça ýalňyşlyklar.
Saglyk API: RED marşrutlar boýunça, saturations, top slow endpoints trace.
DR paneli: replication lag, WAL shipping, DR sebitinden synthetic login/deposit.
Howpsuzlyk: WAF, bot score, 401/403 anomaliýalar, gol çekilen webhuklar.
12) Telemetriýanyň bahasyny dolandyrmak
Metrleriň kardinallygy: 'user _ id' belgilerini, 'route' we 'provider' çäklerini goşmaň.
Downsampling we retention synplary (gyzgyn 7-14 gün, ýyly 30-90, sowuk arhiw).
Logi: Wakalaryň bökmegi - sempleme/dedupy açyň; stacktrace aýratyn saklaň.
Söwda: "gymmat" ýollar boýunça dinamiki sampling (tölegler/netijeler).
13) Gözegçilikde howpsuzlyk we gizlinlik
mTLS agentlerden kollektorlara çenli; at-rest şifrlemek.
'user _ pid' lakamy, loglarda e-poçta/telefon/resminamalara gadaganlyk.
RBAC/MFA, audit üçin WORM; Üçünji tarap gözegçilik üpjün edijileri bilen DPA.
14) CI/CD we awtookat bilen integrasiýa
CD-analizler üçin SLI-iň prom-metrik ekspozisiýasy.
Release labels ('version', 'rollout _ step') metriklerde
Awtomatiki kanareýa geýtleri: deploý diňe ýaşyl SLO-larda dowam eder.
15) Çalt başlangyç-stek (salgylanma)
Ýygnamak/daşamak: HOTEL Collector + Prometheus/VM Agent + Fluent Bit.
Ammar: VictoriaMetrics/Thanos (metrikler), Loki/OpenSearch (logler), Tempo/Jaeger (söwda).
Wizualizasiýa: Grafana + taýýar daşbordlar k8s/Envoy/Postgres.
Sintetika & RUM: Checkly/k6 + Grafana RUM (ýa-da täjirçilik analogy).
Alerting: Alertmanager → PagerDuty/Slack; Baglanyşyklarda runbooks.
16) Giriş çek-sanawy (prod-ready)
- Giriş/goýum/stawka/yzyna almak üçin SLO/SLI kesgitlenildi.
- RED/USE + Business SLI metrikleri; bellikleriň ýeke-täk ontologiýasy.
- JSON 'trace _ id', PII maskalanmagy, audit üçin WORM.
- OpenTelemetry end-to-end; hatalary düzmek 100%.
- Esasy sebitlerden sintetika + önümde RUM.
- Daşbordlar "flow depozit", "WS", "saglyk API", "DR".
- Alerting: SLO-alamatlar + çeşme sebäpleri; antişum.
- SLO-geýtlar CD-e birikdirildi; awto jogap.
- Çykdajy meýilnamasy: retenşen/sempleme/kardinallyk.
- DPA/howpsuzlyk: mTLS, RBAC, gizlinlik ýazgylary.
Jemleme
Güýçli gözegçilik "owadan grafikleriň" toplumy däl-de, baglanyşyk ulgamy: RED/USE metrikleri, 'trace _ id', OpenTelemetry-tracking, sintetika we RUM, dashbordlar, alerting we CI/CD-e gurlan SLO-geýtlar. Açyk ülňüleriň töwereginde yığını ýygnaň, telemetriýanyň bahasyna gözegçilik ediň we bellikleriň ontologiýasyny standartlaşdyryň - şonda API we infrastruktura bilen baglanyşykly islendik mesele oýunçylar görýänçä öňünden görüner we düzediler.
