API וכלים לניטור תשתיות
1) עקרונות: ממטרות לכלים
SLO-first: לבחור ולהתאים אישית כלים למטרות מוצר (התחברות, הפקדה, קצב), ולא להפך.
סטנדרטים פתוחים: OpenTelemetry (שבילים/מטריים/לוגים), פורמט אקספוזיציה של פרומתאוס, יומני Loky JSON.
הקשר יחיד: ”trace _ id'/” span _ id' בלוגים ובמטרים; קישורים ”לוח מחוונים = race log”.
מודעות עלות: קרדיטליות של מדדים, יומני TTL, דגימת שבילים - מראש.
2) מטריות: אוסף, אחסון, הדמיה
Prometheus/Agent-Agency Metrics Agent, Grafana Agent, OpenTelemetry Collector).
אחסון (TSDB): Prometheus (סינגל), Thanos/Cortex/Mimir (סולם-אאוט), CPU/RAM חיסכון.
ויזואליזציה: Grafana כמו ”לוח זכוכית”.
מה למדוד עבור API (אדום) ותשתית (שימוש):- 'Red:' קצב (בקשות) ',' טעות _ יחס ',' latency p95/p99 'מסלול', 'שיטה', 'ספק'.
- שימוש: CPU/Mem, תיאורי קבצים, בריכות חיבור, תור lag, GC pauses.
- K8: kube-state-metrics, node-exporter, CAdvisor, ingress/gateway.
- , , .
- מחית שירות: Metrics שליח, istio/Linkerd לוח מחוונים.
- PSP/Elecency: יצואנים מותאמים אישית (webhook הצלחה, PSP יחס הצלחה, callback latency).
Promql
אחוזי הצלחה בהפקדה (SLI)
סכום (שיעור (ig_payments_requests_total{route="/payments/deposit,"status=~"2.."}[5m]))
/
סכום (שיעור (ig_payments_requests_total{route="/payments/deposit"}[5m]))
p95 latency API histogram_quantile (0. 95, סכום (שיעור) (http_request_duration_seconds_bucket[5m])) על ידי (לה, מסלול)
רווית בריכת חיבור DB db_connections_in_use/ db_connections_max3) יומנים: חיפוש, קורלציה, חוסר תזוזה
Stack: OpenSearch/Elasticsearch + Beats/Vector/Fluent Bit או Grafana Loki (זול יותר לאחסון, log-as-stream).
פורמט: JSON עם שדות סטנדרטיים, רמה, שירות, env, trace_id, user_pid, מסלול, מעמד, latency_ms'.
פרקטיקות: מיסוך פיל, דלי ביקורת תולעת, מדיניות TTL/ILM, חלוקת איזור/מותג.
4) איתור: היכן שאובדות אלפיות ־ שנייה
OpenTelemetry SDK/Collector # Jager/Tempo/Honeycomb/New Relic Traces.
מדיניות דגימה: 100% שגיאות, בקשות ”איטיות”, 1-5% הצלחה.
TetariGaming: ”ספק”, ”psp”, ”סיכון _ החלטה”, ”בונוס _ id',” שוק ”,” ws _ table _ id'.
מתכון מהיר לדיון: מהגרף האדום SLO # עקבות של מסלול בעיה = תוחלת ”עבה” על ספקית PSP/משחק = יומן webhook.
5) פלטפורמות APM:
- פתרונות מסחריים (Datadog, New Relic, Dynatrace, Grafana Cloud) סוגרים APM, רישומים, שבילים, סינתטיים, רום.
- מקצוענים: מהירות יישום, התאמה מחוץ לקופסה. חסרונות: מנעול עלות/ספק.
- היברידי: ליבה על OSS (Prometheus + Grafana + Tempo + Loki), סיום סינתטי/התראה עם מודולים מסחריים על זרימה קריטית.
6) סינתטיים ו ־ RUMs: ”בחוץ” ו ־ ”מבעד לעיניו של השחקן” 
Checkly, Grafana Synthetic Motoring, k6 Cloud, Uptrends, Pingdom, Catchpoint, BoyEyes.
תסריטים: Login # peckbox (sandbox) # game law law webhook check.
גיאו: EU/LATAM/MEA/APAC, רשתות ניידות, תערובת ASN.
רום: Web-SDK (TTFB/LCP/CLS), SDK נייד; קטעים על ידי מדינה/רשת/מכשיר.
7) משטחים לניטור קוברנטס
מישור בקרה: etcd, שרת API (apiserver_request_total, latency), לוחות זמנים/בקרה.
מישור נתונים: kubelet, CNI, כניסה/שער, PodGoogle Budger, Extreme Butch.
אוטוסקלה: HPA/VPA/Cluster Autoscaler Metrics ואירועים; בריכות חמות.
מדיניות רשת: טיפות/הכחשות אירועים, איחור DNS.
8) מסדי נתונים, תורים, מטמונים
Postgres/MySQL: lag שכפול, deflocks, bloat, WAL, teast point, timeouts.
קפקא/RabbitMQ: פיגור צרכני, איזון מחדש, עומק התור, הגדרות מחודשות.
רדיס: אירועים, לקוחות חסומים, אחוזי איחור, העתק לג.
PITR/גיבויים: משימות מפעיל גיבוי + זמן-לשחזר לוח מחוונים.
9) רשת, CDN, WAF, ספקי משחקים ו ־ PSPs
CDN/Edge: להיט-ratio, TTFB לפי אזור, מגן פגע, ”מיס סטורם”.
מנהל WAF/bot: לשתף אתגרים/בלוקים, ASN/מדינות, FPR על התחברות/הפקדה.
ספקי משחקים: זמן התחלת שולחן/חריץ, כישלון/פסק זמן באולפן.
PSP: יחס הצלחה/latency by method/country/BIN, קודי שגיאה 3DS/AVS, webhooks process & direction.
10) התראה וחובה
ניתוב: Elertmanager # Pgare Duty/Opsgenie/Slack.
חוקים: סימפטומים (SLO) + סיבתיות (משאבים).
אנטי-רעש: קיבוצים, דיכוי של התראות שרשרת, חלונות של שקט לשחרור.
שערי SLO בדיסק: עצור אוטומטי/rollback על הפרות (Argo Rollouts/Flagger Voice Run).
דוגמאות להתראות (מפושטות):- Login _ success _ ratio <99. 9% עבור 10 &fost
- 'p95/תשלומים/הפקדה> 0. 4s עבור 10 &fost
- 'db _ קשרים _ רוויה> 0. 85 עבור 5 &fost
- 'kafka _ conserver _ lag> 30 &sfos
- 'cdn _ hit _ ratio drop> 15% ב-10 מ' (לכל אזור) "
11) לוחות מחוונים שבאמת עוזרים
זרימת הפקדה: משפך, p95/p99, שגיאות PSP/BIN/country, עיכוב webhook.
משחקי Live/WS: חיבורים, RTT, מחדש/להתחבר מחדש, שגיאות על ידי ספק.
בריאות: אדום על ידי נתיבים, רוויה, קצה איטי עליון ↔ עקבות.
ד "ר פאנל: שכפול לאג, משלוח WAL, התחברות סינתטית/הפקדה מאזור DR.
אבטחה: WAF, ציון בוט, 401/403 חריגות, חתומות באינטרנט.
12) ניהול עלויות טלמטריה
Cardinality of metrics: אל תכלול את "user _ id' בתוויות, הגבלות על" מסלול "ו" ספק ".
כיתות הורדה ושימור (חם 7-14 ימים, חם 30-90, קר ארכיון).
יומנים: קפיצת אירוע - אפשר דגימה/dedup; סטארק חנות בנפרד.
עקבות: דגימה דינמית לאורך נתיבים ”יקרים” (תשלומים/מסקנות).
13) ביטחון ופרטיות בניטור
MTLS מסוכנים לאספנים; הצפנת במנוחה.
Pseudonimization of 'user _ pid', איסור על דואר אלקטרוני/טלפון/מסמכים ברישומים.
RBAC/MFA, תולעת לביקורת; שירותי הרווחה עם משגיחי צד שלישי.
14) אינטגרציה עם CI/CD וגלגול אוטומטי
חשיפה ל-SLI כמדדי הנשף לניתוח תקליטורים.
שחרר תוויות (”גרסה”, ”rollout _ step”) במדדים/לוגים/עקבות.
שערי קנרית אוטומטיים: ירידה תימשך רק עם סלאו ירוק.
15) ערמה התחלה מהירה (התייחסות)
Collection/Transport: OTEL Collector + Prometheus/VM Agent + Floent Bit.
אחסון: Metrics/Thanos (מטריצות), Loki/OpenSearch (יומנים), Tempo/Jager (שבילים).
הדמיה: Grafana + לוח מחוונים מוכן k8s/Envoy/Postgres.
& רום סינתטי: Checkly/k6 + GRAFANA RUM (או מקבילה מסחרית).
התראה: Elertmanager # Pgare Duty/Slack; חשבונות בהמלצות.
16) בדיקת מימושים (פרוד-מוכן)
[ ] SLO/SLI מוגדרת עבור כניסה/הפקדה/הצעה/פלט.[ ] RED/USE + Business SLI Metrics; אונטולוגיה תווית אחת.[ ] יומני JSON עם "trace _ id', מסווה PII, תולעת לביקורת.[ ] OpenTelemetry מקצה לקצה; 100% טעות בדגימה.[ ] סינתטיים מאזורי מפתח + RUM במכירות.[ ] לוחות מחוונים ”הפקדת זרימה”, ”WS”, ”בריאות API”, ”DR”[ ] התראה: תסמינים SLO + סיבות משאב; נגד רעש.[ ] שערי SLO מחוברים לתקליטור; רולבים אוטומטיים.[ תוכנית עלות ]: שימור/דגימה/קרדינליות.[ ] DPA/אבטחה: mTLS, RBAC, פרטיות יומן.המשך תקציר
ניטור חזק אינו קבוצה של "גרפים יפים", אלא מערכת קוהרנטית: RED/USE metrics, יומנים עם "trace _ id', עקבות OpenTelemetry, סינתטיים ו-RUM, בתוספת לוחות מחוונים, התראות ושערי SLO שנבנו לתוך CI/CD שלך. לבנות ערימה מסביב לסטנדרטים פתוחים, לשלוט בעלויות של טלמטריה ולתקן תוויות אונטולוגיה - ואז כל בעיות API ותשתית יהיו גלויות מראש ותוקנו לפני ששחקנים יבחינו בהן.
