API және инфрақұрылым мониторингінің құралдары
1) Қағидаттар: мақсаттардан құралдарға
SLO-first: кері емес, азық-түлік мақсаттары (логин, депозит, мөлшерлеме) үшін құралдарды таңдаңыз және теңшеңіз.
Open standards: OpenTelemetry (трейстер/метриктер/логи), Prometheus exposition format, Loki JSON-логи.
Бірыңғай контекст: 'trace _ id '/' span _ id' логтар мен метриктерде; «дашборд → трейс → лог» линкалары.
Cost-aware: метриктердің кардиналдылығы, TTL логтары, sampling трестері - алдын ала.
2) Өлшемдер: жинау, сақтау, визуализациялау
Сбор: Prometheus / Agent-режим (VictoriaMetrics Agent, Grafana Agent, OpenTelemetry Collector).
Сақтау орындары (TSDB): Prometheus (single), Thanos/Cortex/Mimir (көлденең масштабтау), VictoriaMetrics (CPU/RAM үнемдеу).
Визуализация: Графана «шыны панель» ретінде.
API (RED) және инфрақұрылым (USE) үшін не өлшеу керек:- RED: `rate(requests)`, `error_ratio`, `latency p95/p99` по `route`, `method`, `provider`.
- USE: CPU/Mem, file descriptors, connection pools, queue lag, GC pauses.
- k8s: kube-state-metrics, node-exporter, cAdvisor, ingress/gateway exporters.
- БД/кэши: postgres_exporter, mysql_exporter, redis_exporter, kafka_exporter, rabbitmq_exporter.
- Сервис-меш: Envoy metrics, istio/Linkerd dashboards.
- PSP/внешние: custom exporters (webhook success, PSP success ratio, callback latency).
promql
Депозиттердің табыстылығы (SLI)
sum(rate(ig_payments_requests_total{route="/payments/deposit",status=~"2.."}[5m]))
/
sum(rate(ig_payments_requests_total{route="/payments/deposit"}[5m]))
p95 latency API histogram_quantile(0. 95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le, route))
db_connections_in_use/ db_connections_max ДБ қосылым пулын қанықтыру3) Логи: іздеу, корреляция, өзгермеу
Стек: OpenSearch/Elasticsearch + Beats/Vector/Fluent Bit немесе Grafana Loki (сақтауда арзан, «лог-стрим»).
Формат: JSON стандартты өрістері 'ts, level, service, env, trace_id, user_pid, route, status, latency_ms'.
Практикалар: PII бүркемелеу, аудит үшін WORM-бакеттер, TTL/ILM саясаты, 'env/region/brand' бойынша партиялану.
4) Трассировка: миллисекундтар жоғалған жерде
Стек: OpenTelemetry SDK/Collector → Jaeger/Tempo/Honeycomb/New Relic Traces.
Семплирлеу саясаты: 100% қателер, «баяу» сұраныстарға бейімделу, 1-5% табысты.
Теги iGaming: `provider`, `psp`, `risk_decision`, `bonus_id`, `market`, `ws_table_id`.
Жылдам дебаг рецепті: SLO → trace проблемалық маршруттан → PSP/ойын провайдеріндегі «қалың» спан → веб-хука.
5) APM-платформалар: «барлығы бір» кезде
Коммерциялық шешімдер (Datadog, New Relic, Dynatrace, Grafana Cloud) APM, логтар, трейдерлер, синтетика, RUM жабады.
Артықшылықтары: енгізу жылдамдығы, «қораптан» корреляция. Кемшіліктері: құны/вендор-лок.
Гибрид: OSS-дегі ядро (Prometheus + Grafana + Tempo + Loki), сыни флоу бойынша коммерциялық модульдермен синтетиканы/алертингті «аяқтау».
6) Синтетика және RUM: «сырт» және «ойыншының көзімен»
Синтетика: Checkly, Grafana Synthetic Monitoring, k6 Cloud, Uptrends, Pingdom, Catchpoint, ThousandEyes.
Скрипттер: логин → депозит (sandbox) → ойын іске қосу → вебхук тексеру.
Гео: EU/LatAm/MEA/APAC, мобильді желілер, ASN-микс.
RUM: Web-SDK (TTFB/LCP/CLS), мобильді SDK; ел/желі/құрылғы бойынша сегменттеу.
7) Kubernetes-мониторинг беті
Control plane: etcd, API-server (apiserver_request_total, latency), scheduler/controllermanager.
Data plane: kubelet, CNI, ingress/gateway; `PodDisruptionBudget` и эвикшены.
Автоскейл: HPA/VPA/Cluster Autoscaler метрика және оқиғалар; warm-пулдар.
Желі саясаты :/deny events, DNS latency.
8) Дерекқорлар, кезектер, кэштер
Postgres/MySQL: репликация, deadlocks, bloat, WAL, checkpoint duration, таймауттар.
Kafka/RabbitMQ: consumer lag, rebalances, queue depth, redeliveries.
Redis: evictions, blocked clients, latency percentiles, реплика-лаг.
PITR/бэкаптар: backup-операторлардың тапсырмалары + «қалпына келтірілгенге дейінгі уақыт» дашборды.
9) Желі, CDN, WAF, ойын провайдерлері және PSP
CDN/Edge: hit-ratio, өңірлер бойынша TTFB, shield hit, «қателіктер дауылы».
WAF/бот-менеджер: share челленджей/блоктар, ASN/елдер, FPR логин/депозитте.
Game providers: үстелді/слотты іске қосу уақыты, істен шығу/студиялар бойынша таймауттар.
PSP: success ratio/latency әдісі бойынша/BIN, қате кодтары 3DS/AVS, webhooks success & delay.
10) Алертинг және кезекшілік
Роутинг: Alertmanager → PagerDuty/Opsgenie/Slack.
Қағидалар: симптомдық (SLO) + себептік (ресурстар).
Антишум: топтастыру, тізбекті алерттерді басу, релизге тыныштық терезелері.
CD-дегі SLO-гейттер: бұзушылықтар кезінде авто-үзіліс/кері шегіну (Argo Rollouts/Flagger AnalysisRun).
Мысалдар (жеңілдетілген):- `login_success_ratio < 99. 9% for 10m`
- `p95 /payments/deposit > 0. 4s for 10m`
- `db_connections_saturation > 0. 85 for 5m`
- `kafka_consumer_lag > 30s`
- `cdn_hit_ratio drop > 15% in 10m (per region)`
11) Нақты көмектесетін дашбордтар
Депозит флоу: құйғыш, p95/p99, PSP/BIN/елдер бойынша қателер, вебхуктардың кідірісі.
Live-ойындар/WS: қосылымдар, RTT, resend/reconnect, провайдерлер бойынша қателер.
API денсаулығы: маршруттар бойынша RED, saturations, top slow endpoints, trace.
DR панелі: replication lag, WAL shipping, DR аймағынан synthetic login/deposit.
Security: WAF, bot score, 401/403 аномалиялар, қол қойылған вебхактар.
12) Телеметрия құнын басқару
Метриканың түбегейлілігі: 'user _ id' -ді лейблдерге қоспаңыз, 'route' және 'provider' лимиттері.
Downsampling және retention сыныптар (ыстық 7-14 күн, жылы 30-90, суық мұрағат).
Логи: оқиғалардың секірісі - семплирлеуді/дедупты қосыңыз; stacktrace жеке сақтаңыз.
Трестер: «қымбат» жолдар бойынша динамикалық sampling (төлемдер/қорытындылар).
13) Мониторингтегі қауіпсіздік пен құпиялылық
mTLS агенттерден коллекторларға дейін; at-rest шифрлау.
'user _ pid' псевдонимі, логдарда e-mail/телефон/құжаттарға тыйым салу.
аудит үшін RBAC/MFA, WORM; Басқа мониторинг провайдерлерімен DPA.
14) CI/CD және автооткатпен интеграциялау
SLI экспозициясы CD-талдауларға арналған пром-метрик ретінде.
Release labels ('version', 'rollout _ step') метриктер/логтар/трестерде.
Автоматты канареялық гейттер: деплой тек жасыл SLO-да ғана жалғасады.
15) Жылдам старт-стек (референс)
Жинау/тасымалдау: HOTEL Collector + Prometheus/VM Agent + Fluent Bit.
Сақтау орны: VictoriaMetrics/Thanos (метрика), Loki/OpenSearch (логи), Tempo/Jaeger (трейстер).
Визуализация: Grafana + дайын дашбордтар k8s/Envoy/Postgres.
Синтетика & RUM: Checkly/k6 + Grafana RUM (немесе коммерциялық аналог).
Алертинг: Alertmanager → PagerDuty/Slack; сілтемелердегі runbooks.
16) Енгізу чек-парағы (prod-ready)
- Логин/депозит/ставка/шығару үшін SLO/SLI анықталды.
- RED/USE + бизнес-SLI өлшемдері; лейблдердің бірыңғай онтологиясы.
- JSON 'trace _ id' логтары, PII бүркемелеу, аудит үшін WORM.
- OpenTelemetry end-to-end; қателерді жою 100%.
- Негізгі өңірлерден синтетика + өнімдегі RUM.
- «Флоу депозит», «WS», «API денсаулығы», «DR» дашбордтары.
- Алертинг: SLO-симптомдары + ресурстық себептер; антишум.
- SLO-гейттер CD-ге қосылған; автооткат.
- Құн жоспары: ретеншен/тұқымдастыру/түбегейлілік.
- DPA/қауіпсіздік: mTLS, RBAC, жеке логтар.
Түйіндеме
Күшті мониторинг - бұл «әдемі графиктердің» жиынтығы емес, байланыс жүйесі: RED/USE метриктері, 'trace _ id', OpenTelemetry-трассировкалары, синтетика және RUM, плюс дашбордтар, алертинг және CI/CD-ге орнатылған SLO-гейттер. Ашық стандарттардың айналасына стек жинаңыз, телеметрияның құнын бақылаңыз және лейблдердің онтологиясын стандарттаңыз - онда API және инфрақұрылыммен кез келген проблемалар ойыншылар оларды байқағанға дейін алдын ала көрінеді және жөнделеді.
