API و ابزارهای مانیتورینگ زیرساخت
1) اصول: از اهداف به ابزار
SLO اول: انتخاب و سفارشی کردن ابزار برای اهداف محصول (ورود، سپرده، نرخ)، و نه بالعکس.
استانداردهای باز: OpenTelemetry (مسیرهای پیاده روی/متریک/سیاهههای مربوط)، فرمت نمایشگاه Prometheus، سیاهههای مربوط Loki JSON.
زمینه واحد: 'trace _ id '/' span _ id' در سیاههها و معیارها ؛ پیوندها «داشبورد → ردیابی → ورود».
هزینه آگاه: کاردینالیتی از معیارها، سیاهههای مربوط TTL، مسیرهای نمونه برداری - در پیش است.
2) معیارها: جمع آوری، ذخیره سازی، تجسم
Сбор: Prometheus/Agent- режим (VictoriaMetrics Agent، Grafana Agent، OpenTelemetry Collector).
ذخیره سازی (TSDB): Prometheus (تک)، Thanos/Cortex/Mimir (مقیاس)، VictoriaMetrics (صرفه جویی در CPU/RAM).
تجسم: Grafana به عنوان «پانل شیشه ای».
چه چیزی برای API (RED) و زیرساخت (USE) اندازه گیری می شود:- RED: «نرخ (درخواست)»، «خطا _ نسبت»، «تاخیر p95/p99» по «مسیر»، «روش»، «ارائه دهنده».
- استفاده از: CPU/Mem، توصیفگرهای فایل، استخرهای اتصال، تاخیر صف، مکث GC.
- k8s: kube-state-metrics، node-exporter، cAdvisor، صادرکنندگان ورودی/دروازه.
- : ، ، .
- سرویس مش: معیارهای نماینده، داشبورد istio/Linkerd.
- PSP/внешние: صادر کنندگان سفارشی (موفقیت webhook، نسبت موفقیت PSP، تأخیر تماس).
قابل پیش بینی
نرخ موفقیت سپرده (SLI)
مجموع (نرخ (ig_payments_requests_total{route="/payments/deposit,"status=~"2.."}[5m]))
/
مجموع (نرخ (ig_payments_requests_total{route="/payments/deposit"}[5m]))
p95 تاخیر API histogram_quantile (0. 95، مجموع (نرخ (http_request_duration_seconds_bucket[5m])) توسط (لو، مسیر))
DB اتصال استخر اشباع db_connections_in_use/ db_connections_max3) سیاهههای مربوط: جستجو، همبستگی، غیر قابل تغییر
پشته: OpenSearch/Elasticsearch + Beats/Vector/Fluent Bit یا Grafana Loki (ارزان تر برای ذخیره، ورود به عنوان جریان).
فرمت: JSON با زمینه های استاندارد 'ts، سطح، خدمات، ENV، trace_id، user_pid، مسیر، وضعیت، latency_ms'.
شیوه ها: ماسک PII، سطل های حسابرسی WORM، سیاست های TTL/ILM، پارتیشن بندی «env/region/brand».
4) ردیابی: جایی که میلی ثانیه از دست رفته است
Стек: OpenTelemetry SDK/Collector → Jaeger/Tempo/Honeycomb/آثار جدید Relic.
خط مشی نمونه برداری: 100٪ خطا، † برای درخواست های «آهسته»، 1-5٪ موفقیت آمیز است.
Теги iGaming: «ارائه دهنده»، «psp»، «ریسک _ تصمیم»، «پاداش _ id»، «بازار»، «ws _ table _ id».
یک دستورالعمل سریع برای بحث: از نمودار قرمز SLO → ردیابی مسیر مشکل → یک «ضخامت» در ارائه دهنده PSP/بازی → یک وبلاگ وبلاگ.
5) سیستم عامل APM: زمانی که همه در یک
راه حل های تجاری (Datadog، New Relic، Dynatrace، Grafana Cloud) APM، سیاهههای مربوط، مسیرهای پیاده روی، مصنوعی، RUM را ببندید.
مزایا: سرعت پیاده سازی، همبستگی خارج از جعبه. معایب: قفل هزینه/فروشنده.
ترکیبی: هسته در OSS (Prometheus + Grafana + Tempo + Loki)، «پایان» synthetics/هشدار با ماژول های تجاری در جریان بحرانی.
6) مصنوعی و RUM: «خارج» و «از طریق چشم بازیکن»
Синтетика: بازرسی، نظارت مصنوعی Grafana، k6 Cloud، Uptrends، Pingdom، Catchpoint، ThousandEyes.
اسکریپت: ورود → سپرده (sandbox) → راه اندازی بازی → webhook check.
Geo: اتحادیه اروپا/LatAm/MEA/APAC، شبکه های تلفن همراه، مخلوط ASN.
رم: Web-SDK (TTFB/LCP/CLS)، SDK تلفن همراه ؛ تقسیم بندی بر اساس کشور/شبکه/دستگاه.
7) سطوح نظارت Kubernetes
صفحه کنترل: etcd، API-سرور (apiserver_request_total، تأخیر)، برنامه ریز/کنترل کننده.
هواپیمای داده: kubelet، CNI، ورود/دروازه ؛ 'PodDisruptionBudget' и эвикшены.
مقیاس خودکار: معیارها و رویدادهای HPA/VPA/Cluster Autoscaler ؛ استخرهای گرم
سیاست های شبکه: حوادث قطره/انکار، تاخیر DNS.
8) پایگاه داده ها، صف ها، انبارها
Postgres/MySQL: تاخیر تکرار، بن بست، نفخ، WAL، مدت زمان بازرسی، وقفه.
Kafka/RabbitMQ: تاخیر مصرف کننده، توازن، عمق صف، تحویل مجدد.
Redis: حوادث، مشتریان مسدود شده، درصد تاخیر، تاخیر ماکت.
PITR/پشتیبان گیری: وظایف اپراتور پشتیبان + زمان برای بازگرداندن داشبورد.
9) شبکه، CDN، WAF، ارائه دهندگان بازی و PSP ها
CDN/Edge: نسبت ضربه، TTFB توسط منطقه، سپر ضربه، «خانم طوفان».
مدیر WAF/ربات: به اشتراک گذاشتن چالش ها/بلوک ها، ASN/کشورها، FPR در ورود/سپرده.
ارائه دهندگان بازی: جدول/اسلات زمان شروع, شکست/وقفه توسط استودیو.
PSP: نسبت موفقیت/تاخیر توسط روش/کشور/BIN، کدهای خطای 3DS/AVS، موفقیت و تاخیر webhooks.
10) هشدار و وظیفه
مسیریابی: Alertmanager → PagerDuty/Opsgenie/Slack.
قوانین: علائم (SLO) + علت (منابع).
ضد سر و صدا: گروه بندی، سرکوب هشدارهای زنجیره ای، پنجره های سکوت برای انتشار.
دروازه های SLO در CD: مکث خودکار/بازگشت به نقض (Argo Rollouts/Flagger AnalysisRun).
نمونه هایی از هشدارها (ساده شده):- 'login _ success _ ratio <99. 9٪ برای 10 میلیون
- "p95/پرداخت/سپرده> 0. 4 برای 10 متر
- 'db _ connections _ saturation> 0. 85 برای 5 میلیون
- 'kafka _ consumer _ lag> 30 ثانیه
- 'cdn _ hit _ ratio> 15٪ در 10 متر (در هر منطقه)'
11) داشبورد هایی که واقعا کمک می کنند
جریان سپرده: قیف، p95/p99، خطاهای PSP/BIN/کشور، تاخیر webhook.
بازی های زنده/WS: اتصالات، RTT، ارسال مجدد/اتصال مجدد، خطاهای ارائه دهنده.
سلامت API: RED توسط مسیرها، اشباع ها، نقاط پایانی آهسته ↔ ردیابی.
پانل DR: تاخیر تکرار، حمل و نقل WAL، ورود مصنوعی/سپرده از منطقه DR.
امنیت: WAF، نمره ربات، 401/403 ناهنجاری، وب سایت های امضا شده.
12) مدیریت هزینه تله متری
کاردینالیتی معیارها: شامل «user _ id» در برچسب ها، محدودیت های «مسیر» و «ارائه دهنده» نیست.
کلاس های Downsampling و احتباس (گرم 7-14 روز، گرم 30-90، آرشیو سرد).
سیاهههای مربوط: پرش رویداد - فعال کردن نمونه برداری/dedup ؛ فروشگاه stacktrace به طور جداگانه.
ردیابی: نمونه گیری پویا در مسیرهای «گران» (پرداخت/نتیجه گیری).
13) امنیت و حریم خصوصی در نظارت
mTLS از عوامل به جمع ؛ رمزگذاری در حالت استراحت
نام مستعار 'user _ pid'، ممنوعیت ایمیل/تلفن/اسناد در سیاهههای مربوط.
RBAC/MFA، WORM برای ممیزی ؛ DPA با ارائه دهندگان نظارت شخص ثالث.
14) ادغام با CI/CD و بازگشت خودکار
قرار گرفتن در معرض SLI به عنوان معیارهای prom برای تجزیه و تحلیل CD.
برچسب انتشار ('version', 'rollout _ step') در متریک/سیاهههای مربوط/آثار.
دروازه های اتوماتیک قناری: نزول تنها با SLO های سبز ادامه خواهد یافت.
15) پشته شروع سریع (مرجع)
جمع آوری/حمل و نقل: OTEL Collector + Prometheus/VM Agent + Fluent Bit.
ذخیره سازی: VictoriaMetrics/Thanos (متریک)، Loki/OpenSearch (سیاهههای مربوط)، Tempo/Jaeger (مسیرهای پیاده روی).
تجسم: k8s/Envoy/Postgres داشبورد آماده Grafana +.
& RUM مصنوعی: Checkly/k6 + گرافانا RUM (یا معادل تجاری).
هشدار: Alertmanager → PagerDuty/Slack ؛ runbooks در منابع.
16) چک لیست پیاده سازی (prod-ready)
- SLO/SLI برای ورود/سپرده/پیشنهاد/خروجی تعریف شده است.
- قرمز/استفاده + معیارهای SLI کسب و کار ؛ تنها یک آنتولوژی برچسب.
- JSON با 'trace _ id'، PII masking، WORM برای حسابرسی وارد می شود.
- OpenTelemetry پایان به پایان ؛ 100٪ نمونه خطا.
- مصنوعی از مناطق کلیدی + RUM در فروش.
- داشبورد «سپرده جریان»، «WS»، «سلامت API»، «دکتر»
- هشدار: علائم SLO + علل منابع ؛ ضد سر و صدا
- دروازه های SLO به CD متصل می شوند ؛ بازگشت خودکار.
- طرح هزینه: نگهداری/نمونه برداری/کاردینالیتی.
- DPA/امنیت: mTLS، RBAC، حریم خصوصی ورود به سیستم.
خلاصه رزومه
نظارت قوی مجموعه ای از «نمودارهای زیبا» نیست، بلکه یک سیستم منسجم است: معیارهای RED/USE، سیاهههای مربوط به 'trace _ id'، ردیابی OpenTelemetry، synthetics و RUM، به علاوه داشبورد، هشدار و دروازه های SLO ساخته شده در CI/CD شما. ساخت یک پشته در اطراف استانداردهای باز، کنترل هزینه تله متری و استاندارد سازی هستی شناسی برچسب - پس از آن هر گونه API و مشکلات زیربنایی در پیش قابل مشاهده خواهد بود و تعمیر قبل از آنها توسط بازیکنان متوجه شده است.
