كازينو 24/7 والممارسات تحت الطلب
1) أهداف عمليات 24/7
Business SLO: تسجيل الدخول ≥ 99. 9٪، وديعة ≥ 99. 85٪، معدل/تسوية ≥ 99. 9٪، p95 WS RTT ≤ 120 مللي ثانية.
أهداف الحادث: MTTD ≤ 1 دقيقة (اصطناعية)، MTTR ≤ 15-30 دقيقة للتدفق النقدي.
جودة الدعم: <3٪ من التذاكر تذهب في اليوم الثاني دون استجابة، دعم CSAT ≥ 90٪.
2) التنظيم عند الطلب: النماذج والجداول الزمنية
نماذج
متابعة الشمس: 3 فرق جغرافية (أوروبا/الأمريكتان/آسيا والمحيط الهادئ)، الحد الأدنى من الحمل الليلي.
التناوب الليلي في المنطقة: نوبات ليلية لمدة أسبوع للفرد مرة كل أسبوع N (تعويض/إجازة).
تعتمد على الخلية: الرسوم حسب خلية المنتج (العلامات التجارية/الأسواق) + إجمالي L1.
الأدوار في التحول
L1 تحت الطلب (قائد الحادث افتراضيًا) - يقبل التنبيه والإحداثيات ويبقى على اتصال بالدعم.
L2 Domain Engineers - المدفوعات، بوابة الألعاب/WS، قاعدة البيانات/المحفظة، النظام الأساسي SRE.
ضابط الاتصالات - صفحة الحالة، الشركاء/مقدمو الخدمات، التحديثات الداخلية.
المدير المناوب - تصعيد الأعمال، تحديد الأولويات، الاستثناءات (VIP/المنظم).
قالب التحويل (12 × 7 أو 8 × 5 + نوبات)
المناوبة: 8/10/12 ساعة. تغيير التحول 15-30 دقيقة «تسليم دافئ».
اتبع قاعدة 2 ليالي متتالية كحد أقصى وليس أكثر من 7 أيام عند الطلب في نافذة مدتها 14 يومًا.
تحتوي كل نوبة على قائمة: الواجب، الاحتياطي، مدير الاتصال، الاتصال L2.
3) تصنيف الحوادث وجيش تحرير السودان
4) التنبيه بدون ضوضاء
المبادئ: تنبيهات الأعراض → سياق → الموارد السببية.
Симптомы: «login_success_ratio↓»، «deposit_success_by_psp↓»، «ws_rtt_p95↑»، «game_launch_success↓».
Причины: «db_conn_saturation↑»، «queue_lag↑»، «psp_timeout↑»، «provider_launch_latency↑».
الحماية من الضوضاء: الانتهاكات المتتالية المطلوبة ≥ 3، القمع التلقائي عند الإفراج والتفريغ والتجميع.
مجموعة الواجبات: حاسمة - PagerDuty/Opsgenie ؛ والباقي هو Slack/mail.
نص تنبيه: "ماذا/أين/كم/عمل. مثال:5) كتاب التشغيل والتصعيد
قالب مصغر Runbook
1. الكشف: روابط إلى لوحات القيادة (SLO، سببية)، تتبع، سجلات.
2. الفحوصات السريعة: PSP/مقدمو الخدمات الصحية، DR-region synthetics، DB/cache status.
3. المقاييس المؤقتة: أعلام الميزة/مفتاح القتل، حدود الأسعار، تبديل PSP/المزود، تدهور الميزات الثقيلة.
4. التصعيد: من L2/L3، يتصل بمزود 24 × 7.
5. معايير المنطقة الخضراء: SLO الدقائق N العادية، قوائم الانتظار  6. الاتصالات: نموذج الحالة، الأسواق/العلامات التجارية المتأثرة، ETA/التحديث التالي. T0-5 دقيقة: يقبل L1، ويعين IC، ويبدأ دفتر التشغيل. T5-10 دقيقة: نسمي الملف الشخصي L2 + ضابط الاتصالات. T10-15 دقيقة: مدير/منتج مناوب، قانوني/امتثال إذا لزم الأمر. خارجي: مزود PSP/Game - وفقًا للوائح (قناة SLA، تذكرة، مكالمة). 6) صفحة الاتصالات والحالة تحديثات داخلية كل 10-15 دقيقة SEV-1/2 (# قناة غرفة الحرب، نموذج الرسالة). صفحة الحالة: الوضع الحالي، الأسواق المتأثرة، التدابير المؤقتة، التحديث التالي في X min. مذكرة ما بعد الحادث للدعم/الشركات التابعة/الشركاء: ما حدث وكيفية التعويض. القوالب مقدمًا: قصيرة، لا «مطبخ داخلي»، لا ذنب. 7) العمل مع التبعيات الخارجية (PSP/games/CDN) دليل الاتصال 24 × 7: PSP A/B، مزودي الألعاب، CDN/WAF، السحابة. مراقبة SLA: المواد التركيبية على الودائع/إطلاق الألعاب، مشغلات التذاكر التلقائية. سياسات الفشل: الطريق إلى PSP-B عند "النجاح <99٪ 10 دقائق"، تبديل مزود اللعبة على "TTFS> 800 ms'. خطوط الويب الواردة: توقيع HMAC، الخصوصية، إعادة اللعب من قائمة الانتظار بعد تدهور المزود. 8) GameDay والتمارين تمارين الطاولة الأسبوعية (30-45 دقيقة): قراءة الرسوم البيانية واتخاذ القرارات. محركات DR-drives التقنية الشهرية (60-90 دقيقة): فشل PSP، تأخر المزود، قاعدة بيانات WS/قطرة العنقود. تمرين KPI: وقت التعرف على السبب ونوعية الاتصالات وصحة القرارات بشأن phicheflags. 9) التسليم والوثائق 10) الصحة والاستدامة تحت الطلب القاعدة 8/8/8: العمل/النوم/الشخصية. نوبات ليلية → إجازة. نظام الأصدقاء للمبتدئين، واجب الظل 2-3 أسابيع. السلامة النفسية: رجعية «بلا لوم»، دعم الحوادث الخطيرة. مراجعة الأحمال: ≤ 2 «استيقاظ» في الليلة في المتوسط لكل مهندس - هدف ؛ أعلاه → إعادة تدوير التنبيه/الهندسة المعمارية. 11) مقاييس الأداء التشغيلي MTTD/MTTR حسب المجال (تسجيل الدخول/الإيداع/WS/الألعاب). جودة التنبيه:% صاخبة/مغلقة بدون إجراء، متوسط عدد التنبيهات/الوردية. معدل فشل التغيير: النسبة المئوية للحوادث الناجمة عن الإطلاقات ؛ متوسط الوقت بين الفشل. الكدح: حصة المهام اليدوية القابلة للتكرار → خطة الأتمتة. تأثير مقدمي الخدمات: حصة SEV-2/1 المستحقة للشركاء الخارجيين (حجة لجيش تحرير السودان/الهجرة). 12) أدوات وأفرقة «المصاحب» لوحة القيادة SLO «الحمراء»: تسجيل الدخول/الإيداع/الرهانات/ألعاب الإطلاق، 5xx/429، p95، المناطق. اللوحات السببية: DB/قوائم الانتظار/المخبأ، PSP/مقدمو الخدمات، CDN/WAF. المرسل عند الطلب: حوادث نشطة، وأجهزة توقيت التحديث، وروابط بنقرة واحدة إلى دفتر التشغيل و phicheflags. الجدول الزمني - من فعل ماذا ومتى بالإشارة إلى SLO. 13) السيناريوهات النموذجية والحلول السريعة الإجراءات: الكناري marshrut→ PSP-B 50٪ ؛ ورفع مهلة الخطابات الشبكية ؛ قم بتضمين تحدي JS في WAF من الروبوتات. الاتصالات: صفحة حالة «تحلل ودائع DE عبر PSP-A». الناتج: النجاح ≥ 99٪ 15 دقيقة، إعادة الطابور  ب. صعود p95 WS في ألعاب APAC الحية الإجراءات: زيادة النسخ المتماثلة من بوابات WS، وتشغيل مجموعة العقد الدافئة ؛ ورسائل البث ذات الحد الأقصى للمعدل ؛ المزود - تذكرة RTT. الناتج: p95 WS RTT ≤ 120 ms 20 min. C. Game Provider Lag (TTFS> 1. 2 s) الإجراءات: تحويل اللوبي إلى جداول/استوديوهات بديلة، وتمكين مخبأ البيانات الوصفية ؛ تحديث الحالة. الناتج: TTFS <800 ms، ↓ شكاوى. 14) 24/7 قائمة التحقق من الاستعداد 15) نموذج ما بعد الوفاة (بلا لوم) 1. باختصار: ماذا حدث عندما، وماذا SEV، والتأثير والنطاق. 2. الجدول الزمني: الكشف → التصعيد → العمل → الاستقرار. 3. الأسباب الجذرية: تلك/العمليات/الأشخاص/الموردين (5 لماذا). 4. ما الذي نجح/ما لم ينجح: التنبيهات ودفاتر الرانات والاتصالات. 5. بنود العمل: التقنية والعملية والشريك - المسؤولة والمواعيد النهائية. 6. الوقاية: الاختبارات/الرصد/التدريبات، تغييرات SLO/التنبيه. عمليات الكازينو 24/7 الناجحة هي انضباط SLO، مصمم بشكل صحيح بشكل ينذر بالخطر دون ضوضاء، وكتب تشغيل وتصعيد واضحة، وتمارين منتظمة واحترام الأشخاص تحت الطلب. ربط لوحات SLO بالرافعات السريعة (phicheflags، تبديل PSP/المزود، تدهور الميزات الثقيلة)، والحفاظ على الاتصالات مع اللاعبين والشركاء، وقياس الكفاءة (MTTD/MTTR/جودة التنبيه) - وستكون نظامك الأساسي مستقرًا على مدار الساعة، والفريق - منتج ومستقر.سلم متحرك
ألف - انخفاض الودائع في DE في PSP-A
ملخص السيرة الذاتية
