קזינו 24/7 והתנהלות תורנית
1) מטרות של 24/7 פעולות
עסקים SLO: כניסה ל-99. 9%, הפקדה 99. 85%, קצב/הסדר 99. 9%, p95 WS RTT 120 טרשת נפוצה.
מטרות תקרית: MTTD 1 min (סינתטי), MTTR 15-30 min עבור תזרים מזומנים.
איכות התמיכה: <3% מהכרטיסים הולכים ביום השני ללא תגובה, CSAT של תמיכה ב-90%.
2) ארגון תורן: מודלים ולוחות זמנים
מודלים
3 קבוצות גיאו (אירופה/אמריקה/APAC), עומס מינימלי ללילה.
סיבוב לילי באזור: שבוע של משמרות לילה לאדם פעם בשבוע (פיצוי/פסק זמן).
מבוסס תא: חובה על ידי תא מוצר (מותגים/שווקים) + סך הכל L1.
תפקידים במשמרת
L1 בכוננות (מפקד תקרית כברירת מחדל) - מקבל התראה, קואורדינטות, שומר על קשר עם תמיכה.
מהנדסי L2 דומיין - תשלומים, שער משחק/WS, מסד נתונים/ארנק, פלטפורמה SRE.
קצין תקשורת - דף מצב, שותפים/ספקים, עדכונים פנימיים.
מנהל תפקידי - הסלמה עסקית, סדר עדיפויות, יוצאים מן הכלל (VIP/רגולטור).
תזוזה (12 × 7 או 8 × 5 + משמרות)
משמרת: 8/10/12 שעות. החלפת משמרת 15-30 דקות ”מסירה חמה”.
עקוב אחר הכלל של 2 לילות רצופים מקסימום ולא יותר מ-7 ביום בכוננות בחלון של 14 ימים.
לכל משמרת יש לוח תורנויות: חובה, מילואים, מנהל שיחות, קשר עם אל-2.
3) סיווג תקריות ותאונות SLA
4) התראה ללא רעש
עקרונות: SLO סימפטומטי מתריע = = הקשר משאב סיבתי.
Login _ succession _ ratio at "", deposition _ success _ by _ psp "," ws _ rt _ p95 dlocked "," game _ launce _ supple ".
"db _ conn _ רוויה", "תור _ לאג", "psp _ timeout'," ספק _ lastency _ latency broader ".
הגנה מפני רעש: נדרשות הפרות רציפות של 3, הפרה אוטומטית של תנאי השחרור, כפילות וקיבוצים.
הגדרת חובה: קריטי - Pagre Duty/Opsgenie; השאר הוא רפוי/דואר.
התראה: "מה/איפה/כמה/פעולה. "דוגמה:5) ריצות והסלמה
תבנית מיני ריצה
1. גילוי: קישורים ללוחות מחוונים (SLO, Causal), עקבות, יומנים.
2. בדיקות מהירות: בריאות PSP/ספקים, DR-אזור סינתטי, מצב DB/מטמון.
3. אמצעים זמניים: הדגלים/מתג-חיסול, מגבלות קצב, מתג PSP/ספק, הידרדרות תכונות כבדות.
4. הסלמה: מי L2/L3, יוצר קשר עם ספק 24 × 7.
5. קריטריון אזור ירוק: SLO נורמלי N דקות, תורים  6. תקשורת: תבנית מצב, שווקים/מותגים מושפעים, ETA/העדכון הבא. T0-5 min: L1 מקבל, מקצה IC, מתחיל runbook. T5-10 דקות: אנו קוראים פרופיל קצין L2 + תקשורת. T10-15 דקות: מנהל חובה/מוצר, חוקי/ציות במידת הצורך. חיצוני: PSP/Game - על פי התקנות (ערוץ SLA, כרטיס, שיחה). 6) תקשורת ועמוד מצב עדכונים פנימיים כל 10-15 דקות עבור SEV-1/2 (# ערוץ חדר מלחמה, תבנית הודעה). עמוד מצב: מצב נוכחי, שווקים מושפעים, אמצעי ביניים, עדכון הבא באיקס מין. הערת פוסט-אירוע לתמיכה/השתייכות/שותפים: מה קרה, איך לפצות. תבניות מראש: קצר, אין ”מטבח פנימי”, אין אשמה. 7) עבודה עם תלות חיצונית (PSP/Games/CDN) ספריית מגע 24 × 7: PSP A/B, ספקי משחקים, CDN/WAF, ענן. ניטור SLA: סינתטיים על הפקדות/שיגור משחקים, הפעלת כרטיסים אוטומטית. מדיניות כשל: מסלול ל-PSP-B ב "הצלחה <99% 10 דקות, החלפת ספק משחקים ב-TTFS> 800ms. inbox webhooks: חתימת HMAC, idempotency, משחק מחדש מהתור לאחר הידרדרות הספק. 8) יום משחק ואימונים תרגילי שולחן שבועיים (30-45 דקות): קריאת גרפים, קבלת החלטות. כוננים טכניים חודשיים (60-90 דקות): כשל PSP, פיגור ספק, מסד נתונים/אשכול WS. תרגיל KPI: זמן להכיר את הסיבה, איכות התקשורת, תקינות ההחלטות על פישפלאגים. 9) מסירה ותיעוד 10) בריאות תורנית וקיימות חוק 8/8/8: עבודה/שינה/אישי. משמרות לילה = פסק זמן. מערכת חברים למתחילים, חובת צל 2-3 שבועות. בטיחות פסיכולוגית: ”ללא רבב” רטרו, תמיכה בתקריות חמורות. ביקורת: 2 ”התעוררות” ללילה בממוצע לכל מהנדס - מטרה; = מעל מחזור של התראה/ארכיטקטורה. 11) מטריצות ביצועים מבצעיות MTTD/MTTR by domain (כניסה/הפקדה/WS/games). איכות התראה:% רועש/סגור אין פעולה, מספר התראות/הזזה ממוצע. שינוי שיעור הכישלון:% מהתקריות נגרמו על ידי שחרור; זמן ממוצע בין כשלונות. עמל: נתח של משימות ידניות שחוזרות על עצמן * תוכנית אוטומציה. השפעת ספק: נתח SEV-2/1 בשל שותפים חיצוניים (טענה עבור SLA/הגירה). 12) כלים ולוחות של ”הסדרן” ”רד” לוח מחוונים SLO: כניסה/הפקדה/הימורים/שיגור משחקים, 5xx/429, p95, אזורים. לוחות סיבתיים: DB/תורים/מטמון, PSP/ספקים, CDN/WAF. מוקדן בכוננות: תקריות פעילות, טיימרים עדכניים, קישורים בלחיצה אחת לרנטגן ופישפלאגים. ציר זמן - מי עשה מה, מתי, עם התייחסות ל-SLO. 13) תרחישים טיפוסיים ותיקונים מהירים פעולות: מרשרוט קנרי = PSP-B 50%; להעלות את הזמן של פנקסי אינטרנט; כולל אתגר JS ב-WAF מרובוטים. תקשורת: Degradation DE deposits vy PSP-A status page. פלט: הצלחה ב ־ 99% 15 דקות, תור מגש מחדש  ב. עלייה של p95 WS במשחקים חיים של APAC פעולות: להגדיל את ההעתקים של שערי WS, להפעיל את הבריכה החמה של צמתים; דרגה מוגבלת הודעות שידור; ספק כרטיס אר-טי-טי. פלט: p95 WS RTT 120 ms 20 min. ג. ספקית משחקים לג (TTFS> 1. 2 אס) פעולות: לעבור לובי לטבלאות/אולפנים אלטרנטיביים, לאפשר מטמון metadata; עדכון מצב. פלט: TFS <800 ms, תלונות. 14) 24/7 רשימת מוכנות 15) תבנית שלאחר המוות (ללא אשמה) 1. בקיצור: מה קרה כאשר, מה סוו, השפעה והיקף. 2. ציר זמן: איתור = הסלמה = פעולה = = ייצוב. 3. סיבות שורש: אלה/תהליכים/אנשים/ספקים (5 למה). 4. מה שעבד/מה שלא עבד: התראות, חוואים, תקשורת. 5. פריטי פעולה: טכני, תהליך, שותף - אחראי ומועדים. 6. מניעה: בדיקות/ניטור/תרגילים, שינויי SLO/התראה. מבצעי קזינו מוצלחים 24/7 הם משמעת SLO, מעוצבים כראוי מדאיגים ללא רעש, ספרי הפעלה ברורים והסלמה, תרגילים קבועים וכבוד לאנשים בכוננות. לוחות Link SLO למנופים מהירים (Phicheflags, PSP/Special Witing, Direction of Heavy Flights), שומרים על תקשורת עם שחקנים ושותפים, מודדים יעילות (MTTD/MTTR/Adventing) והפלטפורמה.סולם מדרגות נעות
הפיקדונות נופלים בדה-סי-אס-פי-איי
[ ] סיבובים ומשמרות מאושרים, ”מספר שני” בכל משמרת.[ ] התראות SLO + סיבתיות, אנטי-רעש, דפוסי מסרים אחידים.[ ] ספר ריצות מלא "ועם" מנופים מהירים "(פישפלאגים, PSP/ספקים, גבולות).[ ] יוצר קשר עם 24 × 7 שותפים חיצוניים,[ ] עמוד מצב ותבנית עדכון חיצונית.[ ] תרגילי GameDay/DR לפי לוח הזמנים, נקודות מבט לאחור ללא האשמות.[ ] כלים תורניים: לוחות מחוונים, ציר זמן, יומן פתרונות.[ ] מדיניות פיצוי/פסק זמן, הגבלת התעוררות לילה, תמיכה בריאותית.[ תהליך ] לאחר אירוע: RCA ב 48 שעות, משימות תיקון עם בעלים ומועדים.
המשך תקציר
