कैसीनो 24/7 और ऑन-कॉल प्रथाओं
1) 24/7 ऑपरेशन के लक्ष्य
बिजनेस एसएलओ: लॉगइन ≥ 99। 9%, जमा ≥ 99। 85%, दर/निपटान ≥ 99। 9%, p95 WS RTT ≤ 120 ms।
हादसा लक्ष्य: नकदी प्रवाह के लिए MTTD ≤ 1 मिनट (सिंथेटिक), MTTR ≤ 15-30 मिनट।
समर्थन की गुणवत्ता: <3% टिकट बिना प्रतिक्रिया के दूसरे दिन जाते हैं, समर्थन का CSAT ≥ 90%।
2) ऑन-कॉल संगठन: मॉडल और शेड्यूल
मॉडल
फॉलो-द-सन: 3 जियो-टीमें (यूरोप/अमेरिका/APAC), न्यूनतम रात का भार।
क्षेत्र में रात का रोटेशन: हर एन सप्ताह एक बार प्रति व्यक्ति रात का एक सप्ताह (मुआवजा/समय बंद)।
सेल-आधारित: उत्पाद सेल (ब्रांड/बाजार) + कुल एल 1 द्वारा शुल्क।
शिफ्ट में भूमिकाएँ
L1 ऑन-कॉल (डिफ़ॉल्ट रूप से हादसा कमांडर) - अलर्ट स्वीकार करता है, निर्देशांक करता है, समर्थन के साथ संपर्क में रहता है।
L2 डोमेन इंजीनियर - भुगतान, गेम-गेटवे/WS, डेटाबेस/वॉलेट, प्लेटफ़ॉर्म SRE।
कम्स अधिकारी - स्थिति पृष्ठ, भागीदार/प्रदाता, आंतरिक अद्यतन- ड्यूटी मैनेजर - व्यापार वृद्धि, प्राथमिकता, अपवाद (वीआईपी/नियामक)।
शिफ्ट टेम्पलेट (12 × 7 या 8 × 5 + शिफ्ट)
शिफ्ट: 8/10/12 घंटे। शिफ्ट 15-30 मिनट "गर्म हैंडओवर" बदलता है।
14-दिवसीय खिड़की में लगातार 2 रातों के नियम का अधिकतम और 7 से अधिक कॉल-दिनों का पालन करें।
प्रत्येक शिफ्ट में एक रोस्टर होता है: ड्यूटी, रिजर्व, कॉल मैनेजर, संपर्क एल 2।
3) घटनाओं और एसएलए का वर्गीकरण
4) शोर के बिना सचेत करना
सिद्धांत: रोगसूचक एसएलओ अलर्ट - कारण संसाधन - संदर्भ।
Симптомы: : 'login_success_ratio↓', 'deposit_success_by_psp↓', 'ws_rtt_p95↑', 'game_launch_success↓'।
Причины: : 'db_conn_saturation↑', 'queue_lag↑', 'psp_timeout↑', 'provider_launch_latency↑'।
शोर सुरक्षा: आवश्यक अनुक्रमिक उल्लंघन ≥ 3, रिलीज पर ऑटो-सुपररेस, डीडुप्लिकेशन और समूह।
ड्यूटी सेट: क्रिटिकल - PagerDuty/Opsgenie; बाकी स्लैक/मेल है।
चेतावनी पाठ: "क्या/कहाँ/कितना/क्रिया। "उदाहरण:5) रनबुक 'और वृद्धि
रनबुक मिनी टैम्पलेट
1. पता लगाना: डैशबोर्ड (एसएलओ, कारण), ट्रेस, लॉग से लिंक।
2. त्वरित जांच: स्वास्थ्य पीएसपी/प्रदाता, डीआर-क्षेत्र सिंथेटिक्स, डीबी/कैश स्थिति।
3. अस्थायी उपाय: सुविधा-झंडे/किल-स्विच, दर-सीमा, पीएसपी/प्रदाता स्विचिंग, भारी सुविधाओं का क्षरण।
4. वृद्धि: कौन L2/L3, 24 × 7 प्रदाता से संपर्क करता है।
5. ग्रीन ज़ोन मानदंड: SLO सामान्य N मिनट, कतारें  6. कम्स: स्थिति टेम्पलेट, प्रभावित बाजार/ब्रांड, ईटीए/अगला अपडेट। T0-5 मिनट: L1 स्वीकार करता है, IC असाइन करता है, रनबुक शुरू करता है। T5-10 मिनट: हम प्रोफाइल L2 + Comms अधिकारी को कॉल करते हैं। T10-15 मिनट: यदि आवश्यक हो तो ड्यूटी मैनेजर/उत्पाद, कानूनी/अनुपालन। बाहरी: PSP/गेम प्रदाता - नियमों के अनुसार (SLA चैनल, टिकट, कॉल)। 6) संचार और स्थिति पृष्ठ आंतरिक SEV-1/2 के लिए हर 10-15 मिनट में अपडेट करता है (# ware-roum चैनल, message template)। स्थिति पृष्ठ: वर्तमान स्थिति, प्रभावित बाजार, अंतरिम उपाय, एक्स मिनट में अगला अप समर्थन/सहयोगी/भागीदारों के लिए पोस्ट-घटना नोट: क्या हुआ, कैसे क्षतिपूर्ति करें। अग्रिम में साँचा: छोटा, कोई "आंतरिक रसोई", कोई अपराध नहीं। 7) बाहरी निर्भरताओं के साथ काम करना (पीएसपी/गेम/सीडीएन) संपर्क निर्देशिका 24 × 7: PSP A/B, गेम प्रदाता, CDN/WAF, क्लाउड। एसएलए निगरानी: जमा/लॉन्चिंग गेम, स्वचालित टिकट ट्रिगर पर सिंथेटिक्स। विफल नीतियाँ: 'सफलता <99% 10 मिनट' पर PSP-B के लिए मार्ग, 'TTFS> 800ms' पर गेम प्रदाता को स्विच करना। इनबॉक्स वेबहूक: प्रदाता गिरावट के बाद कतार से एचएमएसी हस्ताक्षर, पहचान, फिर से खेलना। 8) गेमडे और वर्कआउट साप्ताहिक टेबलटॉप अभ्यास (30-45 मिनट): रेखांकन पढ़ ना, निर्णय लेना। मासिक तकनीकी डीआर-ड्राइव (60-90 मिनट): पीएसपी विफलता, प्रदाता अंतराल, डब्ल्यूएस डेटाबेस/क्लस्टर ड्रॉप। केपीआई का व्यायाम करें: कारण, संचार की गुणवत्ता, फीचफ्लैग पर निर्णयों की शुद्धता को पहचानने का समय। 9) हैंडओवर और प्रलेखन 10) ऑन-कॉल स्वास्थ्य और स्थिरता नियम 8/8/8: काम/नींद/व्यक्तिगत। रात की शिफ्ट - टाइम ऑफ। शुरुआती, छाया शुल्क 2-3 सप्ताह के लिए बडी प्रणाली। मनोवैज्ञानिक सुरक्षा: "दोषहीन" रेट्रो, गंभीर घटनाओं के लिए समर्थन। लोड ऑडिट: ≤ 2 "जागृति" प्रति रात औसतन प्रति इंजीनियर - लक्ष्य; → अलर्ट/वास्तुकला का पुनर्चक्रण। 11) परिचालन प्रदर्शन मेट्रिक्स 12) "परिचर" के उपकरण और पैनल "रेड" डैशबोर्ड SLO: लॉगिन/डिपॉजिट/दांव/लॉन्च गेम, 5xx/429, p95, क्षेत्र। कारण पैनल: डीबी/कतारें/कैश, पीएसपी/प्रदाता, सीडीएन/डब्ल्यूएएफ। ऑन-कॉल डिस्पैचर: सक्रिय घटनाएं, अपडेट टाइमर, रनबुक और फिचफ्लैग्स के लिए एक-क्लिक लिंक। समयरेखा - एसएलओ के संदर्भ में, कब, किसने क्या किया। 13) विशिष्ट परिदृश्य और त्वरित सुधार क्रियाएं: कैनरी marshrut→ PSP-B 50%; वेबहुक का समय बढ़ाएं; बॉट्स से WAF में JS चैलेंज शामिल करें। Comms: "DEgradation DE PSP-A के माध्यम से जमा" स्थिति पृष्ठ। आउटपुट: सफलता ≥ 99% 15 मिनट, रिट्रे कतार  एपीएसी लाइव गेम्स में पी 95 डब्ल्यूएस का बी। उदय क्रियाएं: डब्ल्यूएस गेटवे की प्रतिकृतियों को बढ़ाएं, नोड्स के गर्म पूल को चालू करें; दर-सीमा प्रसारण संदेश; प्रदाता - आरटीटी टिकट। आउटपुट: p95 WS RTT ≤ 120 ms 20 मिनट। सी। गेम प्रदाता लैग (TTFS> 1। 2 एस) क्रियाएं: लॉबी को वैकल्पिक टेबल/स्टूडियो में स्विच करें, मेटाडेटा कैश सक्षम करें; स्थिति अद्यतन आउटपुट: TTFS <800 ms, ↓ शिकायतें। 14) 24/7 तत्परता जाँच सूची 15) पोस्टमार्टम टेम्पलेट (दोषरहित) 1. संक्षेप में: क्या हुआ, क्या एसईवी, प्रभाव और गुंजाइश। 2. समय रेखा: पता लगाना → वृद्धि → क्रिया → स्थिरीकरण। 3. मूल कारण: वे/प्रक्रियाएं/लोग/आपूर्तिकर्ता (5 क्यों)। 4. क्या काम किया/क्या नहीं किया: अलर्ट, रैनबुक, संचार। 5. कार्रवाई आइटम: तकनीकी, प्रक्रिया, भागीदार - जिम्मेदार और समय सीमा। 6. रोकथाम: परीक्षण/निगरानी/ड्रिल, एसएलओ/अलर्ट परिवर्तन। सफल 24/7 कैसीनो ऑपरेशन एसएलओ अनुशासन हैं, जिन्हें बिना शोर, स्पष्ट रनबुक और वृद्धि, नियमित अभ्यास और ऑन-कॉल लोगों के लिए सम्मान के बिना ठीक से डिज़ाइन किया गया है। तेज लीवर के लिए एसएलओ पैनल (फिचफ्लैग, पीएसपी/प्रदाता स्विचिंग, भारी विशेषताओं का क्षरण), खिलाड़ियों और भागीदारों के साथ संचार बनाए रखना, दक्षता मापना (एमटीटीडी/एमटीटीआर/अलर्ट गुणवत्ता) - और आपका मंच्छा होगा।एस्केलेटर सीढ़ी
ए। जमा PSP-A में DE में गिरता है
सारांश फिर से शुरू करें
