Воситаҳои назорати инфрасохтории API ва инфрасохтор
1) Принсипҳо: аз ҳадафҳо то воситаҳо
SLO-аввал: воситаҳоро барои мақсадҳои маҳсулот интихоб ва танзим кунед (воридшавӣ, амонат, меъёри), на баръакс.
Стандартҳои кушода: Open-Telemetry (роҳҳо/ченакҳо/гузоришҳо), формати экспозитсияи Prometheus, гузоришҳои Loki JSON.
Контексти ягона: 'trace _ id '/' span _ id' дар гузоришҳо ва ченакҳо; пайвандҳо "dashboard → trace → log".
Арзиши огоҳӣ: кардинализатсияи ченакҳо, гузоришҳои TTL, роҳҳои интихоб - пешакӣ.
2) Нишондиҳандаҳо: ҷамъоварӣ, нигоҳдорӣ, визуалӣ
Сбор: Prometheus/Agent-rejim (Victoria
Нигоҳдорӣ (TSDB): Prometheus (ягона), Thanos/Cortex/Mimir (миқёс), Victoria
Визуализатсия: Графана ҳамчун "панели шишагӣ".
Чиро барои API (RED) ва инфрасохтор (USE) чен кардан лозим аст:- RED: 'сатҳи (дархостҳо)', 'хатогӣ _ таносуб', 'таъхири p95/p99' po 'масир', 'усул', 'провайдер'.
- ИСТИФОДА: CPU/Mem, дескрипторҳои файл, ҳавзҳои пайвастшавӣ, ақибмонии навбат, таваққуфи GC.
- k8s: kube-state-metrics, гиреҳ-содиркунанда, CAdvisor, воридкунандагон/дарвозаҳо.
- БД/кеши: , , , .
- Машқи хидматӣ: Нишондиҳандаҳои фиристанда, истио/панели Linkerd.
- PSP/внешние: содиркунандагони фармоишӣ (муваффақияти webhook, таносуби муваффақияти PSP, таъхири бозгашт).
promql
Меъёри муваффақияти пасандозҳо (SLI)
сум (меъёр (ig_payments_requests_total{route="/payments/deposit,"status=~"2.."}[5m]))
/
сум (меъёр (ig_payments_requests_total{route="/payments/deposit"}[5m]))
p95 таъхири API histogram_quantile (0. 95, сум (меъёри (http_request_duration_seconds_bucket[5m])) аз рӯи (le, масир))
Пайвасти DB Saturation Pool db_connections_in_use/ db_connections_max3) Гузоришҳо: ҷустуҷӯ, коррелятсия, тағйирнопазирӣ
Анбор: Open-Search/Elasticsearch + Beats/Vector/Bit Fluent ё Grafana Loki (барои нигоҳдорӣ арзонтар, log-as-stream).
Формат: JSON бо майдонҳои стандартӣ, сатҳ, хидмат, env, trace_id, user_pid, масир, мақом, latency_ms'.
Амалияҳо: ниқоби PII, сатилҳои аудити WORM, сиёсати TTL/ILM, тақсимоти 'env/минтақа/бренд'.
4) Пайгирӣ: дар куҷо миллисекундҳо гум мешаванд
Стек: Open: Telemetry SDK/Collector → Jaeger/Tempo/Honeycomb/Traces New Relic.
Сиёсати интихоб: 100% хатогиҳо, ī барои дархостҳои "суст", 1-5% муваффақ.
Теги Igaming: 'провайдер', 'psp', 'risk _ decoment', 'bonus _ id', 'бозор', 'ws _ table _ id'.
Дорухат зуд барои мубоҳисаҳо: аз графикаи сурх SLO → пайгирии масири мушкилот → паҳнои "ғафс" дар провайдери PSP/бозӣ → сабти webhook.
5) платформаҳои APM: вақте ки ҳама дар як
Қарорҳои тиҷоратӣ (Datadog, New Relic, Dynatrace, Grafana Cloud) APM, гузоришҳо, роҳҳо, синтетика, RUM-ро пӯшед.
Тарафдор: суръати татбиқ, таносуб аз қуттӣ. Омӯз: қулфи арзиш/фурӯшанда.
Гибрид: ядро   дар OSS (Prometheus + Grafana + Tempo + Loki), синтетикаро "ба итмом расонед "/ҳушдор бо модулҳои тиҷоратӣ дар ҷараёни интиқодӣ.
6) Синтетика ва RUM: "берун" ва "ба чашми плеер"
Синтетика: Санҷиш, Мониторинги синтетикии Графана, Абрҳои k6, Uptrends, Pingdom, Catchpoint, Ҳазор чашм.
Скриптҳо: логин → амонат (қуттии қуттӣ) → оғози бозӣ → санҷиши webhook.
Geo: EU/Latam/MEA/APAC, шабакаҳои мобилӣ, омехтаи ASN.
RUM: Web-SDK (TTFB/LCP/CLS), SDK мобилӣ; сегментатсия аз рӯи кишвар/шабака/дастгоҳ.
7) Сатҳи мониторинги Кубернетес
Ҳавопаймои назоратӣ: etcd, API-сервер (apiserver_request_total, ниҳонӣ), банақшагир/контроллерманагер.
Ҳавопаймои иттилоотӣ: кубелет, CNI, воридшавӣ/дарвоза; 'Poddisruptionment' и эвикшены.
Autoscale: Нишондиҳандаҳо ва рӯйдодҳои HPA/VPA/Cluster Autoscaler; ҳавзҳои гарм.
Сиёсатҳои шабакавӣ: ҳодисаҳоро тарк/рад мекунад, таъхири DNS.
8) Пойгоҳи додаҳо, навбатҳо, кэшҳо
Postgres/My-SQL: ақибмонии такрорӣ, тангӣ, гулӯ, WAL, давомнокии гузаргоҳ, танаффус.
Кафка/Харгӯшҳо: ақибмонии истеъмолкунандагон, тавозун, чуқурии навбат, redeliveries.
Редис: чорабиниҳо, мизоҷони манъшуда, фоизи ниҳоӣ, ақибмонии нусхабардорӣ.
PITR/нусхабардорӣ: вазифаҳои оператори эҳтиётӣ + панели вақт барои барқарорсозӣ.
9) Шабака, CDN, WAF, провайдерҳои бозӣ ва PSP
CDN/Edge: таносуби хит, TTFB аз рӯи минтақа, зарбаи сипарӣ, "тӯфони пазмон".
Менеҷери WAF/бот: мушкилот/блокҳои мубодила, ASN/кишварҳо, FPR оид ба воридшавӣ/амонат.
Таъминкунандагони бозӣ: вақти оғози ҷадвал/слот, нокомӣ/танаффус аз ҷониби студия.
PSP: таносуби муваффақият/дермонӣ бо усул/кишвар/BIN, рамзҳои хатогӣ, муваффақияти вебҳукҳо ва таъхир.
10) Огоҳӣ ва вазифа
Масир: Alertmanager → PagER/Opsgenie/Slack.
Қоидаҳо: симптоматикӣ (SLO) + сабабӣ (захираҳо).
Анти-садо: гурӯҳбандӣ, хомӯш кардани огоҳиҳои занҷир, тирезаҳои хомӯшӣ барои озод кардан.
Дарвозаҳои SLO дар CD: худкор таваққуф/бозгардонидани қонунвайронкуниҳо (Argo Rollouts/Flagger Analysysis/Run).
Намунаҳои огоҳиҳо (соддакардашуда):- 'логин _ муваффақият _ таносуб <99. 9% барои 10 м '
- 'p95/пардохт/амонат> 0. 4s барои 10m '
- 'db _ connections _ saturation> 0. 85 барои 5 м '
- 'kafka _ consumer _ lag> 30s'
- 'cdn _ hit _ таносуби коҳиш> 15% дар 10м (дар як минтақа)'
11) Панели панелҳо, ки дар ҳақиқат кӯмак мекунанд
Ҷараёни амонат: ғалтак, p95/p99, хатогиҳои PSP/BIN/кишвар, таъхири webhook.
Бозиҳои зинда/WS: пайвастҳо, RTT, дубора пайваст кардан/пайваст кардан, хатогиҳо аз ҷониби провайдер.
Саломатии API: RED бо хатсайрҳо, пуррагӣ, нуқтаҳои сусти боло ↔ пайгирӣ.
Панели DR: ақибмонии такрорӣ, интиқоли WAL, воридшавӣ/кони синтетикӣ аз минтақаи DR.
Амният: WAF, холҳои бот, 401/403 аномалияҳо, веб-китобҳои имзошуда.
12) Идоракунии хароҷоти телеметрия
Кардиналии ченакҳо: 'корбар _ ид' -ро дар тамғакоғазҳо, маҳдудиятҳои 'масир' ва 'провайдер' дохил накунед.
Дарсҳои поёнӣ ва нигоҳдорӣ (7-14 рӯз гарм, 30-90 гарм, бойгонии хунук).
Гузоришҳо: ҷаҳиши ҳодиса - имкон додани интихоб/тарҳ; анборро алоҳида нигоҳ доред.
Нишонаҳо: интихоби динамикӣ дар масирҳои "гарон" (пардохт/хулоса).
13) Амният ва махфият дар мониторинг
mTLS аз агентҳо ба коллекторҳо; рамзгузорӣ дар истироҳат.
Тахаллуси 'user _ pid', манъи почтаи электронӣ/телефон/ҳуҷҷатҳо дар гузоришҳо.
RBAC/ВКХ, WORM барои аудит; DPA бо провайдерҳои мониторинги тарафи сеюм.
14) Ҳамгироӣ бо CI/CD ва гардиши худкор
Таъсир ба SLI ҳамчун ченакҳои таблиғотӣ барои таҳлили CD.
Барориши нишонаҳо ('версия', 'rollout _ step') дар ченакҳо/гузоришҳо/пайгирӣ.
Дарвозаҳои худкори канарӣ: фурудгоҳ танҳо бо SLO-ҳои сабз идома хоҳад ёфт.
15) Анбори оғози зуд (истинод)
Ҷамъоварӣ/нақлиёт: OTEL Collector + Prometheus/VM Agent + Fluent Bit.
Нигаҳдорӣ: Victoria .Metrics/Thanos (ченакҳо), Loki/Open-Search (гузоришҳо), Tempo/Jaeger (роҳҳо).
Визуализатсия: Grafana + панелҳои тайёр тайёр k8s/Envoy/Postgres.
& Синтетикаи RUM: Checkly/k6 + Grafana RUM (ё муодили тиҷоратӣ).
Огоҳӣ: Alertmanager → PagER/Slack; runbooks дар истинодҳо.
16) Рӯйхати назорати амалисозӣ (омодашуда)
- SLO/SLI барои воридшавӣ/амонат/дархост/баромад муайян карда шудааст.
- Нишондиҳандаҳои RED/USE + Business SLI; як нишони онтология.
- Гузоришҳои JSON бо 'trace _ id', ниқоби PII, WORM барои аудит.
- Охири охири Telemetry; 100% интихоби хато.
- Синтетика аз минтақаҳои калидӣ + RUM дар фурӯш.
- Панели панели "ҷараёни об", "WS", "API health", "DRS".
- Огоҳӣ: аломатҳои SLO + сабабҳои захираҳо; зидди садо.
- Дарвозаҳои SLO ба CD пайваст карда шудаанд; худкор-гардиш.
- Нақшаи хароҷот: нигоҳдорӣ/интихоб/кардиналӣ.
- DPA/амният: m: TLS, RBAC, махфияти сабти ном.
Хулосаи дубора
Мониторинги қавӣ ин маҷмӯи "графикҳои зебо" нест, балки системаи мувофиқ аст: ченакҳои RED/USE, гузоришҳо бо 'trace _ id', пайҳои Open-Telemetry, синтетика ва RUM, инчунин панели панелҳо, огоҳиҳо ва дарвозаҳои SLO, ки дар CI/CD сохта шудаанд. Дар атрофи стандартҳои кушода як стек созед, арзиши телеметрияро назорат кунед ва онтологияи стандартизатсияро стандартизатсия кунед - пас ҳама гуна мушкилоти API ва инфрасохтор пешакӣ намоён мешаванд ва пеш аз он ки бозигарон онҳоро пайхас кунанд, таъмир карда мешаванд.
