API мониторинг инструменттери жана инфраструктура
1) Принциптер: максаттардан инструменттерге
SLO-биринчи: тандоо жана азык-түлүк максаттары үчүн инструменттерди орнотуу (логин, депозиттик, коюм), тескерисинче эмес.
Open standards: OpenTelemetry (Traces/Metrics/Logs), Prometheus exposition format, Loki JSON Logs.
Бирдиктүү контекст: 'trace _ id '/' span _ id' логдордо жана метриктерде; linki "dashbord → trace → log".
Cost-aware: Метрика кардиналдуулугу, TTL Логи, sampling Traces - алдын ала.
2) Метрика: чогултуу, сактоо, көрүү
Сбор: Prometheus / Agent-режим (VictoriaMetrics Agent, Grafana Agent, OpenTelemetry Collector).
Сактагычтар (TSDB): Prometheus (бир), Thanos/Cortex/Mimir (горизонталдык масштабдоо), VictoriaMetrics (CPU/RAM үнөмдөө).
Visual: "айнек панелдин" катары Grafana.
API (RED) жана инфраструктура (USE) үчүн эмне өлчөө керек:- RED: `rate(requests)`, `error_ratio`, `latency p95/p99` по `route`, `method`, `provider`.
- USE: CPU/Mem, file descriptors, connection pools, queue lag, GC pauses.
- k8s: kube-state-metrics, node-exporter, cAdvisor, ingress/gateway exporters.
- БД/кэши: postgres_exporter, mysql_exporter, redis_exporter, kafka_exporter, rabbitmq_exporter.
- Service-mash: Envoy metrics, istio/Linkerd dashboards.
- PSP/внешние: custom exporters (webhook success, PSP success ratio, callback latency).
promql
Депозиттердин ийгилиги (SLI)
sum(rate(ig_payments_requests_total{route="/payments/deposit",status=~"2.."}[5m]))
/
sum(rate(ig_payments_requests_total{route="/payments/deposit"}[5m]))
p95 latency API histogram_quantile(0. 95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le, route))
DD db_connections_in_use/ db_connections_max туташуу пулун каныктыруу3) Логи: издөө, корреляция, өзгөрбөстүк
Stack: OpenSearch/Elasticsearch + Beats/Vector/Fluent Bit же Grafana Loki (сактоо боюнча арзан, "Логи-агымы").
Формат: JSON стандарттык талаалар 'ts, level, service, env, trace_id, user_pid, route, status, latency_ms'.
Practices: PII, аудит үчүн WORM-бакет, TTL/ILM саясаты, партиялаштыруу 'env/аймак/бренд'.
4) Tracking: кайда миллисекунд жоготот
Стек: OpenTelemetry SDK/Collector → Jaeger/Tempo/Honeycomb/New Relic Traces.
Семплирлөө саясаты: 100% каталар, "жай" суроо ылайыкташтырылган, 1-5% ийгиликтүү.
Теги iGaming: `provider`, `psp`, `risk_decision`, `bonus_id`, `market`, `ws_table_id`.
Тез дебаг рецепт: SLO → trace көйгөй маршруту → "жоон" span PSP/оюн провайдери → vebhuka журналы.
5) APM-аянтчалар: "баары бир" болгондо
Коммерциялык чечимдер (Datadog, New Relic, Dynatrace, Grafana Cloud) APM, Логи, соода, синтетика, RUM жабат.
Артыкчылыктары: киргизүү ылдамдыгы, "кутудан" корреляция. Кемчиликтери: наркы/сатуучу-лок.
Гибрид: OSS боюнча негизги (Prometheus + Grafana + Tempo + Loki), "аягына" синтетика/критикалык Flow боюнча соода модулдары менен алертинг.
6) Синтетика жана RUM: "сыртта" жана "оюнчу көз"
Синтетика: Checkly, Grafana Synthetic Monitoring, k6 Cloud, Uptrends, Pingdom, Catchpoint, ThousandEyes.
Скрипттер: Логин → Депозит (sandbox) → оюнду баштоо → Webhook текшерүү.
Гео: EU/LatAm/MEA/APAC, мобилдик тармактар, ASN аралаш.
RUM: Web-SDK (TTFB/LCP/CLS), мобилдик SDK; өлкө/тармак/түзмөк боюнча сегменттөө.
7) Kubernetes-Surface мониторинг
Control plane: etcd, API-server (apiserver_request_total, latency), scheduler/controllermanager.
Data plane: kubelet, CNI, ingress/gateway; `PodDisruptionBudget` и эвикшены.
Autoscaler: HPA/VPA/Cluster Autoscaler метрика жана окуялар; warm-пулдар.
Network Policies: Draws/deny events, DNS latency.
8) Маалымат базалары, кезек, кэш
Postgres/MySQL: лаг репликация, deadlocks, bloat, WAL, checkpoint duration, таймауттар.
Kafka/RabbitMQ: consumer lag, rebalances, queue depth, redeliveries.
Redis: evictions, blocked clients, latency percentiles, реплика-лаг.
PITR/backaps: backup операторлорунун милдеттери + dashboard "калыбына келтирүү үчүн убакыт".
9) Network, CDN, WAF, оюн провайдерлери жана PSP
CDN/Edge: hit-ratio, региондор боюнча TTFB, shield hit, "бороон-чапкын".
WAF/бот менеджери: бөлүшүү челленджей/блоктор, ASN/өлкөлөр, FPR логин/депозит боюнча.
Game providers: стол/слот баштоо убактысы, студиялар боюнча ийгиликсиз/убакыт.
PSP: success ratio/latency ыкмасы/өлкө/BIN, 3DS/AVS ката коддору, webhooks success & delay.
10) Алертинг жана нөөмөт
Роутинг: Alertmanager → PagerDuty/Opsgenie/Slack.
Эрежелер: симптомдук (SLO) + себеп (ресурстар).
Antishum: топтоо, чынжыр alertov басуу, бошотуу үчүн унчукпай терезелер.
CD SLO-Гейтс: auto-тыныгуу/бузуу (Argo Rollouts/Flagger AnalysisRun).
Alert мисалдары (жөнөкөйлөштүрүлгөн):- `login_success_ratio < 99. 9% for 10m`
- `p95 /payments/deposit > 0. 4s for 10m`
- `db_connections_saturation > 0. 85 for 5m`
- `kafka_consumer_lag > 30s`
- `cdn_hit_ratio drop > 15% in 10m (per region)`
11) Чынында жардам Dashboard
Флоу депозиттер: воронка, p95/p99, PSP/BIN/өлкөлөр боюнча каталар, вебхуктардын кечигиши.
Live-оюндар/WS: байланыштар, RTT, resend/reconnect, провайдерлер боюнча каталар.
Ден соолук API: каттамдар боюнча RED, saturations, top slow endpoints, trace.
DR панели: replication lag, WAL shipping, DR аймагынан synthetic login/deposit.
Security: WAF, bot score, 401/403 аномалиялар, кол коюлган Webhuke.
12) Телеметрия наркын башкаруу
Метриктердин кардиналдуулугу: 'user _ id' маркаларын, 'route' жана 'provider' лимиттерин киргизбеңиз.
Downsampling жана retention класстар (ысык 7-14 күн, жылуу 30-90, муздак архив).
Логи: окуялардын секирүү - семплирлөө/дедуп күйгүзүү; stacktrace өзүнчө сактаңыз.
Tracks: "кымбат" жолдор боюнча динамикалык sampling (төлөмдөр/корутундулар).
13) Мониторинг коопсуздук жана купуялык
mTLS агенттерден инкассаторлорго чейин; at-rest шифрлөө.
Псевдонимизация 'user _ pid', тыюу электрондук почта/телефон/документтер логиндер.
RBAC/MFA, аудит үчүн WORM; Үчүнчү тараптын мониторинг провайдерлери менен DPA.
14) CI/CD жана AutoCat менен бириктирүү
SLI экспозициясы CD анализдери үчүн пром-метрик катары.
Release labels ('version', 'rollout _ step') метриктер/логдор/соодаларда.
Automatic Канарейка Гейтс: Деплой жашыл SLO менен гана уланат.
15) Fast старт-стек (шилтеме)
Жыйноо/транспорт: HOTEL Collector + Prometheus/VM агент + Fluent Bit.
Сактоо: VictoriaMetrics/Thanos (метрика), Loki/OpenSearch (логи), Tempo/Jaeger (соода).
Visual: Grafana + даяр dashboard k8s/Envoy/Postgres.
Синтетика & RUM: Checkly/k6 + Grafana RUM (же соода аналогу).
Alerting: Alertmanager → PagerDuty/Slack; шилтемелерде runbooks.
16) Чек-тизме киргизүү (prod-ready)
- SLO/SLI Логин/депозиттик/чендер/чыгаруу үчүн аныкталган.
- RED/USE + бизнес SLI метриктер; этикеткалардын бирдиктүү онтологиясы.
- JSON 'trace _ id', PII жашыруу, аудит үчүн WORM.
- OpenTelemetry end-to-end; 100% ката кетирүү.
- Негизги региондордон синтетика + Прод.
- Dashboard "Flow депозиттик", "WS", "API ден соолук", "DR".
- Alerting: SLO белгилери + ресурстук себептер; антишум.
- SLO-Гейтс CD туташтырылган; автооткат.
- Наркы планы: retenshen/семплирлөө/кардиналдуулук.
- DPA/коопсуздук: mTLS, RBAC, Privacy Log.
Резюме
Күчтүү мониторинг "кооз графиктердин" топтому эмес, байланыш системасы: RED/USE метриктери, 'trace _ id', OpenTelemetry-tracking, синтетика жана RUM, плюс дашборддор, алертинг жана СЛО-гейтс, сиздин CI/CDге орнотулган. Ачык стандарттардын тегерегиндеги стекти чогултуп, телеметриянын баасын көзөмөлдөп, этикеткалардын онтологиясын стандартташтырыңыз - ошондо API жана инфраструктура менен болгон ар кандай көйгөйлөр оюнчулар байкаганга чейин алдын ала көрүнүп, оңдолот.
