واجهة برمجة التطبيقات وأدوات مراقبة البنية التحتية
1) المبادئ: من الأهداف إلى الأدوات
SLO-أولاً: اختيار وتخصيص الأدوات لأغراض المنتج (تسجيل الدخول، الإيداع، السعر)، وليس العكس.
المعايير المفتوحة: OpenTelemetry (مسارات/مقاييس/سجلات)، تنسيق معرض Prometheus، سجلات Loki JSON.
السياق الفردي: 'تعقب - معرف '/' امتداد - معرف' في السجلات والمقاييس ؛ روابط «لوحة القيادة → تتبع → سجل».
إدراك التكلفة: كاردينالية المقاييس، وسجلات TTL، ومسارات أخذ العينات - مسبقًا.
2) المقاييس: الجمع والتخزين والتصور
Сбор: Prometheus/Agent- режим (VictoriaMetrics Agent، Grafana Agent، OpenTelemetry Collector).
التخزين (TSDB): Prometheus (مفرد)، Thanos/Cortex/Mimir (scale-out)، VictoriaMetrics (مدخرات CPU/RAM).
التصور: جرافانا كـ «لوح زجاجي».
ما يجب قياسه لواجهة برمجة التطبيقات (RED) والبنية التحتية (USE):- RED: «المعدل (الطلبات)»، «الخطأ _ النسبة»، «الكمون p95/p99» по «المسار»، «الطريقة»، «المزود».
- استخدم: وحدة المعالجة المركزية/Mem، واصفات الملفات، وحمامات الاتصال، وتأخر الانتظار، وتوقفات GC.
- k8s: kube-state-metrics, node-exporter, cAdvisor, inter/gateway exporters.
- : ، ، ، .
- مهروس الخدمة: مقاييس المبعوث، لوحات القيادة istio/Linkerd.
- PSP/внешние: المصدرون المخصصون (نجاح شبكة الإنترنت، نسبة نجاح PSP، وقت الاسترداد).
promql
معدل نجاح الودائع (SLI)
المبلغ (المعدل (ig_payments_requests_total{route="/payments/deposit,"status=~"2.."}[5m]))
/
المبلغ (المعدل (ig_payments_requests_total{route="/payments/deposit"}[5m]))
p95 latency API histogram_quantile (0. 95, sum (rate (http_request_duration_seconds_bucket[5m])) by (le, route))
DB Connection Pool Saturation db_connections_in_use/ db_connections_max3) السجلات: البحث، الارتباط، الثبات
Stack: OpenSearch/Elasticsearch + Beats/Vector/Fluent Bit أو Grafana Loki (أرخص للتخزين، log-as-stream).
التنسيق: JSON مع الحقول القياسية، المستوى، الخدمة، env، trace_id، user_pid، المسار، الحالة، latency_ms'.
الممارسات: إخفاء PII، دلاء تدقيق WORM، سياسات TTL/ILM، تقسيم «env/region/brand».
4) التعقب: حيث تضيع أجزاء من الثانية
Стек: OpenTelemetry SDK/Collector → Jaeger/Tempo/Honeycomb/New Relic Traces.
سياسة أخذ العينات: أخطاء 100٪، † للطلبات «البطيئة»، 1-5٪ ناجحة.
Теги iGaming: «مزود»، «psp»، «risk _ decision»، «bonus _ id»، «market'،» ws _ table _ id'.
وصفة سريعة للنقاش: من الرسم البياني الأحمر SLO → تتبع مسار المشكلة → امتداد «سميك» على مزود PSP/game → سجل webhook.
5) منصات APM: عندما يكون الجميع في واحد
الحلول التجارية (Datadog، New Relic، Dynatrace، Grafana Cloud) تغلق APM، جذوع الأشجار، المسارات، المواد التركيبية، RUM.
الإيجابيات: سرعة التنفيذ، الارتباط خارج الصندوق. السلبيات: التكلفة/قفل البائع.
Hybrid: core on OSS (Prometheus + Grafana + Tempo + Loki), «fine» synthetics/alert with commercial modules on critical flow.
6) المواد التركيبية و RUMs: «الخارج» و «من خلال عيون اللاعب»
Синтетика: Checkly، Grafana Synthetic Monitoring، k6 Cloud، Uptrends، Pingdom، Catchpoint، ThousandEyes.
النصوص: تسجيل الدخول → الإيداع (صندوق الرمل) → إطلاق اللعبة → فحص شبكة الويب.
Geo: EU/LatAM/MEA/APAC، شبكات الهاتف المحمول، مزيج ASN.
RUM: Web-SDK (TTFB/LCP/CLS)، SDK المتنقلة ؛ التقسيم حسب البلد/الشبكة/الجهاز.
7) أسطح مراقبة Kubernetes
مستوى التحكم: etcd, API-server (apiserver_request_total, latency), culturer/controllermanager.
مستوى البيانات: kubelet، CNI، الدخول/البوابة ؛ «PodDistructionBudget» и эвикшены.
المقياس الذاتي: مقاييس وأحداث HPA/VPA/Cluster Autoscaler ؛ برك دافئة.
سياسات الشبكة: إسقاط/رفض الأحداث، زمن انتقال DNS.
8) قواعد البيانات وقوائم الانتظار والمخابئ
Postgres/MySQL: تأخر النسخ، الجمود، الانتفاخ، WAL، مدة نقطة التفتيش، المهلة.
كافكا/RabbitMQ: تأخر المستهلك، إعادة التوازن، عمق قائمة الانتظار، إعادة التسليم.
Redis: الأحداث، العملاء المحظورون، نسب الكمون، تأخر النسخ المقلدة.
PITR/النسخ الاحتياطية: مهام مشغل النسخ الاحتياطي + وقت استعادة لوحة القيادة.
9) الشبكة، CDN، WAF، مزودي الألعاب و PSPs
CDN/Edge: نسبة الضرب، TTFB حسب المنطقة، ضرب الدرع، «ملكة جمال العاصفة».
WAF/bot manager: share challenges/blocks، ASN/countries، FPR على تسجيل الدخول/الإيداع.
مزودو اللعبة: وقت بدء الجدول/الفتحة، الفشل/المهلة حسب الاستوديو.
PSP: نسبة النجاح/زمن الوصول حسب الطريقة/البلد/BIN، رموز الخطأ 3DS/AVS، خطابات الويب النجاح والتأخير.
10) التنبيه والواجب
التوجيه: Alertmanager → PagerDuty/Opsgenie/Slack.
القواعد: الأعراض (SLO) + السببية (الموارد).
مكافحة الضوضاء: التجميع، وقمع تنبيهات السلسلة، ونوافذ الصمت للإفراج.
بوابات SLO في الأقراص المضغوطة: التوقف التلقائي/التراجع عن الانتهاكات (Argo Rollouts/Flagger AnalysisRun).
أمثلة على التنبيهات (مبسطة):- login _ success _ rato <99. 9٪ لمدة 10 م
- 'p95/المدفوعات/الإيداع> 0. 4 ثوانٍ مقابل 10 أمتار
- 'db _ connections _ sightation> 0. 85 لمدة 5 أمتار
- 'kafka _ consumer _ lag> 30'
- 'cdn _ hit _ ratio drown> 15٪ في 10 ملايين (لكل منطقة)'
11) لوحات القيادة التي تساعد حقًا
تدفق الودائع: القمع، p95/p99، PSP/BIN/أخطاء البلد، تأخير الشبكة.
الألعاب الحية/WS: الاتصالات، RTT، إعادة الإرسال/إعادة الاتصال، الأخطاء من قبل المزود.
صحة API: RED حسب الطرق والتشبع ونقاط النهاية البطيئة العليا ↔ الأثر.
لوحة DR: تأخر التكرار، شحن WAL، تسجيل الدخول/الإيداع الاصطناعي من منطقة DR.
الأمن: WAF، درجة الروبوت، 401/403 حالة شاذة، خطافات ويب موقعة.
12) إدارة تكاليف القياس عن بعد
Cardinality of metrics: do not including 'user _ id' in labels, restricts on 'rue' and 'provider'.
دروس التقليل والاحتفاظ (ساخنة 7-14 يومًا، دافئة 30-90، أرشيف بارد).
الجذوع: قفزة الأحداث - تمكين أخذ العينات/التخلص منها ؛ مسار المتجر بشكل منفصل.
الآثار: أخذ عينات ديناميكية على طول مسارات «باهظة الثمن» (المدفوعات/الاستنتاجات).
13) الأمن والخصوصية في المراقبة
MTLS من الوكلاء إلى هواة الجمع ؛ في الراحة التشفير.
التسمية المستعارة لـ 'user _ pid'، وحظر البريد الإلكتروني/الهاتف/المستندات في السجلات.
المكتب الإقليمي لآسيا والمحيط الهادئ/وزارة الخارجية، الإدارة العالمية للمواد الكيميائية لمراجعة الحسابات ؛ DPA مع موفري المراقبة الخارجيين.
14) التكامل مع CI/CD والتراجع التلقائي
التعرض لمبادرة الحد من الفقر كمقاييس للحفلة الراقصة لتحليلات الأقراص المدمجة.
ملصقات الإصدار («إصدار»، «طرح _ خطوة») في المقاييس/السجلات/الآثار.
بوابات الكناري التلقائية: سيستمر الهبوط فقط مع SLOs الخضراء.
15) كومة البداية السريعة (مرجع)
الجمع/النقل: OTEL Collector + Prometheus/VM Agent + Fluent Bit.
التخزين: VictoriaMetrics/Thanos (المقاييس)، Loki/OpenSearch (السجلات)، Tempo/Jaeger (المسارات).
التصور: Grafana + لوحات القيادة الجاهزة k8s/Envoy/Postgres.
& RUM synthetics: Checkly/k6 + Grafana RUM (أو المكافئ التجاري).
تنبيه: Alertmanager → PagerDuty/Slack ؛ في المراجع.
16) قائمة مرجعية للتنفيذ (جاهزة)
- SLO/SLI محدد لتسجيل الدخول/الإيداع/العطاء/الناتج.
- مقاييس RED/USE + Business SLI ؛ علامة واحدة أنطولوجيا.
- سجلات JSON مع 'trace _ id'، قناع PII، WORM للتدقيق.
- OpenTelemetry من طرف إلى طرف ؛ أخذ عينات خطأ 100٪.
- المواد التركيبية من المناطق الرئيسية + RUM في المبيعات.
- لوحات المعلومات «وديعة التدفق»، «WS»، «API health»، «DR.»
- التنبيه: أعراض SLO + أسباب الموارد ؛ مضاد للضوضاء.
- تتصل بوابات المنظمات غير الحكومية بالقرص ؛ التراجع التلقائي.
- خطة التكاليف: الاحتفاظ/أخذ العينات/الكاردينالية.
- DPA/security: mTLS، RBAC، log privaty.
ملخص السيرة الذاتية
المراقبة القوية ليست مجموعة من «الرسوم البيانية الجميلة»، ولكنها نظام متماسك: مقاييس RED/USE، والسجلات ذات «trace _ id»، وآثار OpenTelemetry، والمواد التركيبية و RUM، بالإضافة إلى لوحات القيادة والتنبيهات وبوابات SLO المدمجة في CI/C. قم ببناء كومة حول المعايير المفتوحة، وتحكم في تكلفة القياس عن بعد وتوحيد أنطولوجيا الملصقات - ثم سيتم رؤية أي واجهة برمجة التطبيقات ومشاكل البنية التحتية مسبقًا وإصلاحها قبل أن يلاحظها اللاعبون.
