एपीआई और बुनियादी ढांचा निगरानी उपकरण
1) सिद्धांत: लक्ष्यों से उपकरण तक
SLO-first: उत्पाद उद्देश्यों (लॉगिन, जमा, दर) के लिए उपकरण चुनें और अनुकूलित करें, और इसके विपरीत नहीं।
खुला मानक: OpenTelemetry (trails/metrics/logs), Prometheus exposition प्रारूप, Loki JSON लॉग।
एकल संदर्भ: लॉग और मेट्रिक्स में 'ट्रेस _ आईडी '/' स्पैन _ आईडी'; लिंक "डैशबोर्ड → ट्रेस → लॉग"।
लागत-जागरूक: मेट्रिक्स की कार्डिनैलिटी, टीटीएल लॉग, नमूना ट्रेल्स - पहले से।
2) मेट्रिक्स: संग्रह, भंडारण, दृश्य
: प्रोमेथियस/एजेंट- (विक्टोरिया मेट्रिक्स एजेंट, ग्राफाना एजेंट, ओपनटेलीमेट्री कलेक्टर)।
भंडारण (टीएसडीबी): प्रोमेथियस (एकल), थानोस/कॉर्टेक्स/मिमिर (स्केल-आउट), विक्टोरियन मेट्रिक्स (सीपीयू/रैम बचत)।
दृश्य: ग्राफाना "ग्लास पैनल" के रूप में।
API (RED) और बुनियादी ढांचे (USE) के लिए क्या मापना है:- RED: 'दर (अनुरोध)', 'त्रुटि _ अनुपात', 'विलंबता p95/p99' по 'मार्ग', 'विधि', 'प्रदाता'।
- उपयोग: सीपीयू/मेम, फ़ाइल विवरणकर्ता, कनेक्शन पूल, कतार लैग, जीसी ठहराव।
- k8s: kube-state-metrics, नोड-निर्यातक, cAdvisor, ingress/गेटवे निर्यातक।
- : , , , , , ।
- सेवा मैश: दूत मेट्रिक्स, इस्तियो/लिंकर्ड डैशबोर्ड।
- PSP/внешние: कस्टम निर्यातकों (वेबहुक सफलता, पीएसपी सफलता अनुपात, कॉलबैक विलंबता)।
प्रोमकल
जमा सफलता दर (SLI)
योग (दर (ig_payments_requests_total{route="/payments/deposit,"status=~"2.."}[5m]))
/
योग (दर (ig_payments_requests_total{route="/payments/deposit"}[5m]))
p95 विलंबता API histogram_quantile (0। 95, योग (दर (http_request_duration_seconds_bucket[5m])) द्वारा (ले, मार्ग))
डीबी कनेक्शन पूल संतृप्ति db_connections_in_use/ db_connections_max3) लॉग: खोज, सहसंबंध, अपरिवर्तनीयता
स्टैक: OpenSearch/Elasticsearch + Beats/Vector/Fluent Bit या Grafana Loki (स्टोर करने के लिए सस्ता, लॉग-as-stream)।
प्रारूप: मानक क्षेत्रों के टी, स्तर, सेवा, एनवी, trace_id, user_pid, मार्ग, स्थिति, latency_ms' के साथ JSON।
अभ्यास: पीआईआई मास्किंग, वर्म ऑडिट बाल्टी, टीटीएल/आईएलएम नीतियां, 'एनवी/क्षेत्र/ब्रांड' विभाजन।
4) ट्रेसिंग: जहां मिलीसेकेंड खो जाते हैं
Стек: ओपनटेलीमेट्री एसडीके/कलेक्टर → जैगर/टेम्पो/हनीकॉम्ब/न्यू रेलिक ट्रेसेस।
नमूना नीति: 100% त्रुटियां, † "धीमी" अनुरोधों के लिए, 1-5% सफल।
Теги iGaming: 'प्रदाता', 'psp', 'जोखिम _ निर्णय', 'बोनस _ id', 'बाजार', 'ws _ table _ id'।
एक बहस के लिए एक त्वरित नुस्खा: लाल ग्राफ एसएलओ से एक समस्या मार्ग का पता लगाना - एक पीएसपी/गेम प्रदाता पर "मोटी" अवधि - एक वेबहुक लॉग।
5) एपीएम प्लेटफॉर्म: जब ऑल-इन-वन
वाणिज्यिक समाधान (डाटाडोग, न्यू रेलिक, डायनाट्रेस, ग्राफाना क्लाउड) एपीएम, लॉग, ट्रेल्स, सिंथेटिक्स, आरयूएम को बंद करते हैं।
पेशेवरों: कार्यान्वयन की गति, बॉक्स से बाहर सहसंबंध। विपक्ष: लागत/विक्रेता लॉक।
हाइब्रिड: OSS (Prometheus + Grafana + Tempo + Loki) पर कोर, महत्वपूर्ण प्रवाह पर वाणिज्यिक मॉड्यूल के साथ "खत्म" सिंथेटिक्स/अलर्ट।
6) सिंथेटिक्स और आरयूएम: "बाहर" और "खिलाड़ीकी आंखों के माध्यम से"
Синтетика: चेकली, ग्राफाना सिंथेटिक मॉनिटरिंग, k6 क्लाउड, अपट्रेंड्स, पिंगडोम, कैचपॉइंट, इयर्स।
स्क्रिप्ट: लॉगइन → डिपॉजिट (सैंडबॉक्स) → गेम लॉन्च → वेबहुक जांच।
Geo: EU/LatAM/MEA/APAC, मोबाइल नेटवर्क, ASN मिश्रण।
RUM: वेब-SDK (TTFB/LCP/CLS), मोबाइल SDK; देश/नेटवर्क/उपकरण द्वारा विभाजन।
7) कुबर्नेट्स-निगरानी सतहों
नियंत्रण विमान: etcd, API-सर्वर (apiserver_request_total, विलंबता), अनुसूचक/नियंत्रक।
डेटा प्लेन: kubelet, CNI, ingress/गेटवे; 'PodDis बजट' ।
ऑटोस्केल: एचपीए/वीपीए/क्लस्टर ऑटोस्केलर मैट्रिक्स और इवेंट्स; गर्म पूल।
नेटवर्क नीतियां: ड्रॉप/इनकार घटनाएं, डीएनएस विलंबता।
8) डेटाबेस, कतारें, कैश
Postgres/MySQL: प्रतिकृति अंतराल, गतिरोध, ब्लोट, WAL, चेकपॉइंट अवधि, टाइमआउट।
काफ्का/रैबिटएमक्यू: उपभोक्ता अंतराल, पुनर्संतुलन, कतार की गहराई, पुनर्वितरण।
रेडिस: घटनाएं, अवरुद्ध ग्राहक, विलंबता प्रतिशत, प्रतिकृति अंतराल।
PITR/बैकअप: बैकअप ऑपरेटर कार्य + टाइम-टू-रिस्टोर डैशबोर्ड।
9) नेटवर्क, सीडीएन, डब्ल्यूएएफ, गेम प्रदाता और पीएसपी
सीडीएन/एज: हिट-अनुपात, क्षेत्र द्वारा टीटीएफबी, ढाल हिट, "मिस स्टॉर्म"।
WAF/बॉट मैनेजर: लॉगिन/डिपॉजिट पर चुनौतियां/ब्लॉक, ASN/देश, FPR साझा करें।
खेल प्रदाता: स्टूडियो द्वारा टेबल/स्लॉट प्रारंभ समय, विफलता/समय समाप्ति।
PSP: विधि/देश/बिन द्वारा सफलता अनुपात/विलंबता, 3DS/AVS त्रुटि कोड, वेबहुक सफलता और देरी।
10) अलर्टिंग और ड्यूटी
रूटिंग: Alertmanager → PagerDuty/Opsgenie/Slack।
नियम: रोगसूचक (एसएलओ) + कारण (संसाधन)।
एंटी-शोर: समूह बनाना, चेन अलर्ट का दमन, रिलीज के लिए मौन की खिड़कियां।
सीडी में एसएलओ गेट: उल्लंघन पर ऑटो-पॉज ़/रोलबैक (आर्गो रोलआउट्स/फ्लैगर रन)।
अलर्ट के उदाहरण (सरलीकृत):- 'login _ amety _ ratio <99। 10 मी के लिए 9% '
- 'p95/भुगतान/जमा> 0। 10m के लिए 4s '
- 'db _ connections _ saturation> 0। 5m के लिए 85 '
- 'काफ्का _ उपभोक्ता _ लैग> 30'
- 'cdn _ hit _ ratio drop> 10 मीटर (प्रति क्षेत्र) में 15%'
11) डैशबोर्ड जो वास्तव में मदद करते हैं
जमा प्रवाह: फ़नल, p95/p99, PSP/BIN/देश की त्रुटियां, वेबहुक देरी।
लाइव गेम्स/डब्ल्यूएस: कनेक्शन, आरटीटी, रिसेन्ड/फिर से कनेक्ट, प्रदाता द्वारा त्रुटियां।
एपीआई स्वास्थ्य: मार्गों, संतृप्तियों, शीर्ष धीमी समापन बिंदुओं - ट्रेस द्वारा RED।
डीआर पैनल: प्रतिकृति लैग, डब्ल्यूएएल शिपिंग, सिंथेटिक लॉगिन/डीआर क्षेत्र से जमा।
सुरक्षा: WAF, बॉट स्कोर, 401/403 विसंगतियां, वेबहुक पर हस्ताक्षर किए।
12) टेलीमेट्री लागत प्रबंधन
मेट्रिक्स की कार्डिनैलिटी: लेबल में 'यूजर _ आईडी', 'रूट' और 'प्रदाता' पर सीमाएं शामिल नहीं हैं।
डाउनसैम्पलिंग और रिटेंशन क्लासेस (गर्म 7-14 दिन, गर्म 30-90, ठंडा संग्रह)।
लॉग: इवेंट जंप - नमूना/डीडअप सक्षम करें; स्टोर स्टैक्ट्रेस अलग से।
निशान: "महंगे" रास्तों (भुगतान/निष्कर्ष) के साथ गतिशील नमूना।
13) निगरानी में सुरक्षा और गोपनीयता
एजेंटों से कलेक्टरों तक एमटीएलएस; बाकी एन्क्रिप्शन पर।- 'user _ pid' का छद्म नामकरण, लॉग में ई-मेल/फोन/दस्तावेजों का निषेध।
- RBAC/MFA, ऑडिट के लिए WORM; तृतीय-पक्ष निगरानी प्रदाताओं के साथ डीपीए।
14) सीआई/सीडी और ऑटो रोलबैक के साथ एकीकरण
सीडी विश्लेषण के लिए प्रोम मेट्रिक्स के रूप में एसएलआई के संपर्क में।
मेट्रिक्स/लॉग/ट्रेस में लेबल ('संस्करण', 'रोलआउट _ स्टेप') जारी करें।
स्वचालित कैनरी गेट: वंश केवल हरे एसएलओ के साथ जारी रहेगा।
15) तेजी से शुरुआत स्टैक (संदर्भ)
संग्रह/परिवहन: ओटीईएल कलेक्टर + प्रोमेथियस/वीएम एजेंट + धाराप्रवाह बिट।
भंडारण: विक्टोरियामेट्रिक्स/थानोस (मैट्रिक्स), लोकी/ओपनसर्च (लॉग), टेम्पो/जैगर (ट्रेल्स)।
विज़ुअलाइज़ेशन: ग्राफ़ाना + तैयार डैशबोर्ड।
RUM सिंथेटिक्स: Checkly/k6 + Grafana RUM (या वाणिज्यिक समकक्ष)।
अलर्टिंग: Alertmanager → PagerDuty/Slack; संदर्भों में रनबुक।
16) कार्यान्वयन चेकलिस्ट (प्रोड-रेडी)
- SLO/SLI लॉगिन/डिपॉजिट/बिड/आउटपुट के लिए परिभाषित।
- RED/USE + बिजनेस SLI मैट्रिक्स; एक एकल लेबल ऑन्कोलॉजी।
- JSON 'trace _ id', PII मास्किंग, ऑडिट के लिए WORM के साथ लॉग करता है।
- ओपनटेलीमेट्री एंड-टू-एंड; 100% त्रुटि नमूना।
- बिक्री में प्रमुख क्षेत्रों + RUM से सिंथेटिक्स।
- डैशबोर्ड "प्रवाह जमा", "डब्ल्यूएस", "एपीआई स्वास्थ्य", "डीआरआई"।
- अलर्टिंग: एसएलओ लक्षण + संसाधन कारण; शोर विरोधी।
- एसएलओ गेट सीडी से जुड़े हैं; ऑटो-रोलबैक।
- लागत योजना: प्रतिधारण/नमूना/कार्डिनैलिटी।
- डीपीए/सुरक्षा: एमटीएलएस, आरबीएसी, लॉग गोपनीयता।
सारांश फिर से शुरू करें
मजबूत निगरानी "सुंदर रेखांकन" का एक सेट नहीं है, बल्कि एक सुसंगत प्रणाली है: RED/USE मेट्रिक्स, 'ट्रेस _ id' के साथ लॉग, ओपनटेलीमेट्री निशान, सिंथेटिक्स और RUM, साथ। खुले मानकों के आसपास एक ढेर का निर्माण करें, टेलीमेट्री की लागत को नियंत्रित करें और लेबल ऑन्कोलॉजी को मानकीकृत करें - फिर खिलाड़ियों द्वारा देखे जाने से पहले किसी भी एपीआई और बुनियादी ढांचे की समस्याएं पहले से दिखाई देंगी।
