Καζίνο 24/7 και πρακτικές εφημερίας
1) Στόχοι των 24/7 πράξεων
Business SLO: login ≥ 99. 9%, καταθέσεις ≥ 99. 85%, επιτόκιο/διακανονισμός 99 ευρώ. 9%, p95 WS RTT ≤ 120 ms.
Στόχοι περιστατικών: MTTD ≤ 1 λεπτό (συνθετικό), MTTR ≤ 15-30 λεπτά για ταμειακές ροές.
Ποιότητα στήριξης: <3% των εισιτηρίων διανέμονται τη δεύτερη ημέρα χωρίς ανταπόκριση, CSAT υποστήριξης ≥ 90%.
2) Οργάνωση εφημεριών: μοντέλα και χρονοδιαγράμματα
Μοντέλα
Ακολουθήστε τον ήλιο: 3 γεω-ομάδες (Ευρώπη/Αμερική/APAC), ελάχιστο νυχτερινό φορτίο.
Νυχτερινή εναλλαγή στην περιοχή: μια εβδομάδα νυχτερινών βάρδιων ανά άτομο μία φορά κάθε N εβδομάδες (αποζημίωση/άδεια).
Με βάση τις κυψέλες: δασμός ανά κυψέλη προϊόντος (εμπορικά σήματα/αγορές) + σύνολο L1.
Ρόλοι στη στροφή
L1 On-call (Ο Διοικητής Περιστατικού εξ ορισμού) - δέχεται συναγερμό, συντεταγμένες, διατηρεί επαφή με την υποστήριξη.
L2 Μηχανικοί τομέα - πληρωμές, πύλη παιχνιδιών/WS, βάση δεδομένων/πορτοφόλι, πλατφόρμα SRE.
Comms officer - status page, partners/providers, εσωτερικές ενημερώσεις.
Διαχειριστής καθηκόντων - κλιμάκωση επιχειρήσεων, ιεράρχηση προτεραιοτήτων, εξαιρέσεις (VIP/ρυθμιστική αρχή).
Πρότυπο μετατόπισης (12 × 7 ή 8 × 5 + βάρδιες)
8/10/12 ώρες. Αλλαγή βάρδιας 15-30 λεπτά «θερμή παράδοση».
Ακολουθήστε τον κανόνα των 2 συνεχόμενων διανυκτερεύσεων κατ "ανώτατο όριο και όχι περισσότερες από 7 ημέρες εφημερίας σε παράθυρο 14 ημερών.
Κάθε βάρδια έχει ένα Roster: καθήκον, αποθεματικό, διαχειριστή κλήσεων, επαφή L2.
3) Ταξινόμηση των συμβάντων και των SLA
4) Προειδοποίηση χωρίς θόρυβο
Αρχές: συμπτωματική προειδοποίηση SLO → πλαίσιο → αιτιώδους δυναμικού.
: ' ', ' ', ' ', ' '.
: ' ', ' ', ' ', ' '.
Προστασία από το θόρυβο: απαιτούμενες διαδοχικές παραβιάσεις ≥ 3, αυτόματο-supress κατά την απελευθέρωση, αφαίρεση και ομαδοποίηση.
Καθορισμός δασμού: κρίσιμη - PagerDuty/Opsgenie. το υπόλοιπο είναι Slack/mail.
Κείμενο προειδοποίησης: "Τι/Πού/Πόση/Δράση. "Παράδειγμα:5) Runbook "και κλιμακώσεις
Πρότυπο Runbook Mini
1. Ανίχνευση: σύνδεσμοι με ταμπλό (SLO, αιτιώδης συνάφεια), ίχνη, κούτσουρα.
2. Γρήγοροι έλεγχοι: υγειονομικό PSP/πάροχοι υπηρεσιών, συνθετικά της περιοχής DR, κατάσταση DB/cache.
3. Προσωρινά μέτρα: σημαίες-χαρακτηριστικά/διακόπτης θανάτωσης, όρια ταχύτητας, μεταγωγή PSP/παρόχου, υποβάθμιση βαρέων χαρακτηριστικών.
4. Κλιμάκωση: ποιος L2/L3, επικοινωνεί με τον πάροχο 24 × 7.
5. Κριτήρια πράσινης ζώνης: SLO κανονική N λεπτά, ουρές αναμονής  6. Comms: πρότυπο κατάστασης, επηρεαζόμενες αγορές/εμπορικά σήματα, ETA/επόμενη επικαιροποίηση. min: L1 δέχεται, αναθέτει IC, ξεκινά runbook. min: ονομάζουμε το προφίλ L2 + Comms αξιωματικός. min: Διευθυντής καθηκόντων/προϊόν, νομική/συμμόρφωση εάν είναι απαραίτητο. Εξωτερικά: πάροχος PSP/παιχνιδιού - σύμφωνα με τους κανονισμούς (κανάλι SLA, εισιτήριο, κλήση). 6) Ανακοινώσεις και σελίδα κατάστασης Εσωτερικές ενημερώσεις κάθε 10-15 λεπτά για SEV-1/2 (# war-room channel, πρότυπο μηνυμάτων). Σελίδα κατάστασης: τρέχουσα κατάσταση, επηρεαζόμενες αγορές, προσωρινά μέτρα, επόμενη επικαιροποίηση σε X min. Σημείωση μετά το συμβάν για υποστήριξη/θυγατρικές/εταίρους: τι συνέβη, πώς να αποζημιωθεί. Πρότυπα εκ των προτέρων: σύντομη, χωρίς «εσωτερική κουζίνα», χωρίς ενοχές. 7) Συνεργασία με εξωτερικές εξαρτήσεις (PSP/παιχνίδια/CDN) Κατάλογος επικοινωνίας 24 × 7: PSP A/B, πάροχοι παιχνιδιών, CDN/WAF, cloud. Παρακολούθηση SLA: συνθετικά σε καταθέσεις/παιχνίδια έναρξης, αυτόματες ενεργοποιήσεις εισιτηρίων. Πολιτικές αποτυχίας: διαδρομή προς PSP-B σε 'επιτυχία <99% 10 λεπτά', αλλαγή παρόχου παιχνιδιού σε 'TTFS> 800ms'. Εισερχόμενα webhooks: υπογραφή HMAC, ταυτότητα, αναπαραγωγή από την ουρά μετά την υποβάθμιση του παρόχου. 8) Ημέρα παιχνιδιού και προπονήσεις Εβδομαδιαίες ασκήσεις tabletop (30-45 λεπτά): ανάγνωση γραφημάτων, λήψη αποφάσεων. Μηνιαίες τεχνικές μηχανές DR (60-90 λεπτά): βλάβη PSP, υστέρηση παρόχου, πτώση βάσης δεδομένων WS/συμπλέγματος. Άσκηση KPI: χρόνος αναγνώρισης της αιτίας, της ποιότητας των επικοινωνιών, της ορθότητας των αποφάσεων για τις phicheflags. 9) Παράδοση και τεκμηρίωση 10) Υγεία και βιωσιμότητα των εφημεριών Άρθρο 8/8/8: εργασία/ύπνος/προσωπικό. Νυχτερινές βάρδιες → άδεια. Σύστημα Buddy για αρχάριους, σκιώδες καθήκον 2-3 εβδομάδες. Ψυχολογική ασφάλεια: «άμεμπτη» ρετρό, υποστήριξη για σοβαρά περιστατικά. Έλεγχος φορτίου: ≤ 2 «αφύπνιση» ανά διανυκτέρευση κατά μέσο όρο ανά μηχανικό - στόχος. πάνω από → ανακύκλωση της ειδοποίησης/αρχιτεκτονικής. 11) Μετρήσεις επιχειρησιακών επιδόσεων MTTD/MTTR ανά τομέα (σύνδεση/κατάθεση/WS/παιχνίδια). Ποιότητα συναγερμού:% θορυβώδες/κλειστό χωρίς δράση, μέσος αριθμός καταχωρίσεων/βάρδιες. Ποσοστό αστοχίας μεταβολής:% των συμβάντων που προκλήθηκαν από ελευθερώσεις· μέσος χρόνος μεταξύ αστοχιών. Μόχλευση: μερίδιο επαναλαμβανόμενων χειροκίνητων εργασιών → σχέδιο αυτοματοποίησης. Αντίκτυπος παρόχου: μερίδιο των SEV-2/1 που οφείλονται σε εξωτερικούς εταίρους (επιχείρημα για SLA/μετάβαση). 12) Εργαλεία και πάνελ του «συνοδού» «Κόκκινο» ταμπλό SLO: σύνδεση/κατάθεση/στοιχήματα/παιχνίδια έναρξης, 5xx/429, p95, περιφέρειες. Πίνακες αιτιώδους συνάφειας: DB/ουρά/κρύπτη, PSP/πάροχοι, CDN/WAF. Αποστολέας εφημερίας: ενεργά περιστατικά, χρονοδιακόπτες επικαιροποίησης, σύνδεσμοι ενός κλικ με το runbook και phicheflags. Χρονοδιάγραμμα - ποιος έκανε τι, πότε, σε σχέση με την SLO. 13) Τυπικά σενάρια και ταχείες διορθώσεις Δράσεις: καναρίνι marshrut→ PSP-B 50% αύξηση του χρονοδιαγράμματος των webhooks· Συμπεριλάβετε το JS Challenge στο WAF από ρομπότ. Comms: «Αποβάθρες υποβάθμισης DE μέσω της σελίδας κατάστασης PSP-A». Έξοδος: επιτυχία ≥ 99% 15 λεπτά, αναμονή αναμονής  Β. Αύξηση του p95 WS σε ζωντανά παιχνίδια APAC Δράσεις: αύξηση των αντιγράφων των πυλών WS, ενεργοποίηση της θερμής δεξαμενής κόμβων· τα μηνύματα εκπομπής ορίου ταχύτητας· Πάροχος - εισιτήριο RTT. Έξοδος: p95 WS RTT ≤ 120 ms 20 min. C. Game Provider Lag (TTFS> 1. 2 s) Ενέργειες: μετάβαση από λόμπι σε εναλλακτικούς πίνακες/στούντιο, δυνατότητα μνήμης μεταδεδομένων· επικαιροποίηση της κατάστασης. Παραγωγή: TTFS <800 ms, ↓ καταγγελίες. 14) 24/7 Κατάλογος ελέγχου ετοιμότητας 15) Υπόδειγμα μετά θάνατον (άμεμπτο) 1. Εν συντομία: τι συνέβη όταν, τι SEV, επιπτώσεις και πεδίο εφαρμογής. 2. Χρονική γραμμή: ανίχνευση → κλιμάκωση → δράσης → σταθεροποίηση. 3. Βασικές αιτίες: αυτές/διαδικασίες/άτομα/προμηθευτές (5 Γιατί). 4. Τι λειτούργησε/τι όχι: ειδοποιήσεις, εγχειρίδια, επικοινωνίες. 5. Θέματα δράσης: τεχνική, διαδικασία, εταίρος - υπεύθυνος και προθεσμίες. 6. Πρόληψη: δοκιμές/παρακολούθηση/ασκήσεις, αλλαγές SLO/συναγερμού. Επιτυχείς λειτουργίες καζίνο 24/7 είναι η πειθαρχία SLO, κατάλληλα σχεδιασμένη ανησυχητική χωρίς θόρυβο, σαφή runbooks και κλιμακώσεις, τακτικές ασκήσεις και σεβασμός για τους ανθρώπους εφημερίας. Συνδέστε τα πάνελ SLO με γρήγορους μοχλούς (phicheflags, PSP/provider switching, υποβάθμιση των βαρέων χαρακτηριστικών), διατηρήστε επικοινωνίες με παίκτες και συνεργάτες, μετρήστε την απόδοση (MTTD/MTTR/alert quality) - και η πλατφόρμα σας θα είναι σταθερή όλο το εικοσόλον.Σκάλα κυλιόμενης κλίμακας
Α. Οι καταθέσεις μειώνονται σε DE σε PSP-A
Επανάληψη σύνοψης
