کازینو 24/7 و در تماس شیوه
1) اهداف عملیات 24/7
SLO کسب و کار: ورود ≥ 99. 9٪، سپرده ≥ 99. 85٪، نرخ/حل و فصل ≥ 99. 9٪، p95 WS RTT ≤ 120 ms.
اهداف حادثه: MTTD ≤ 1 دقیقه (مصنوعی)، MTTR ≤ 15-30 دقیقه برای جریان نقدی.
کیفیت پشتیبانی: <3٪ از بلیط ها در روز دوم بدون پاسخ، CSAT پشتیبانی ≥ 90٪.
2) سازمان در تماس: مدل ها و برنامه ها
مدل ها
Follow-the-sun: 3 تیم جغرافیایی (اروپا/آمریکا/APAC)، حداقل بار شبانه.
چرخش شب در منطقه: یک هفته از شیفت شب برای هر فرد یک بار در هر N هفته (جبران/زمان خاموش).
مبتنی بر سلول: وظیفه سلول محصول (مارک ها/بازارها) + کل L1.
نقش در تغییر
L1 On-call (فرمانده حادثه به طور پیش فرض) - هشدار، مختصات را می پذیرد، با پشتیبانی تماس می گیرد.
L2 مهندسین دامنه - پرداخت، بازی دروازه/WS، پایگاه داده/کیف پول، SRE پلت فرم.
افسر ارتباطات - صفحه وضعیت, همکاران/ارائه دهندگان, به روز رسانی داخلی.
مدیر وظیفه - تشدید کسب و کار، اولویت بندی، استثنا (VIP/تنظیم کننده).
قالب شیفت (12 × 7 یا 8 × 5 + شیفت)
ساعت کاری: 8/10/12 تغییر شیفت 15-30 دقیقه «تحویل گرم».
از قانون حداکثر 2 شب متوالی و حداکثر 7 روز تماس در یک پنجره 14 روزه پیروی کنید.
هر تغییر یک فهرست دارد: وظیفه، رزرو، مدیر تماس، تماس با L2.
3) طبقه بندی حوادث و SLA ها
4) هشدار بدون سر و صدا
اصول: هشدارهای SLO علامتدار → منابع علمی → زمینه.
: " "، " "، "
: " "، " "، "
حفاظت از سر و صدا: مورد نیاز نقض متوالی ≥ 3، خودکار supress در انتشار، deduplication و گروه بندی.
مجموعه وظیفه: بحرانی - PagerDuty/Opsgenie ؛ بقیه اش پست است.
متن هشدار: "چه/کجا/چقدر/اقدام. "مثال:5) Runbook "و افزایش
قالب مینی کتاب اجرا
1. تشخیص: لینک به داشبورد (SLO، علی)، ردیابی، سیاهههای مربوط.
2. چک های سریع: PSP سلامت/ارائه دهندگان، DR-منطقه مصنوعی، وضعیت DB/کش.
3. اقدامات موقت: ویژگی های پرچم/کشتن سوئیچ، نرخ محدودیت، PSP/سوئیچینگ ارائه دهنده، تخریب ویژگی های سنگین.
4. تشدید: چه کسی L2/L3، تماس با ارائه دهنده 24 × 7.
5. معیارهای منطقه سبز: SLO طبیعی N دقیقه، صف  6. Comms: قالب وضعیت، بازارها/مارک های آسیب دیده، به روز رسانی ETA/بعدی. دقیقه T0-5: L1 می پذیرد، IC را اختصاص می دهد، runbook را شروع می کند. دقیقه T5-10: ما مشخصات را افسر L2 + Comms می نامیم. T10-15 دقیقه: مدیر وظیفه/محصول، قانونی/انطباق در صورت لزوم. خارجی: PSP/ارائه دهنده بازی - با توجه به مقررات (کانال SLA، بلیط، تماس). 6) صفحه ارتباطات و وضعیت به روز رسانی داخلی هر 10-15 دقیقه برای SEV-1/2 (# کانال جنگ اتاق، قالب پیام). صفحه وضعیت: وضعیت فعلی، بازارهای آسیب دیده، اقدامات موقت، به روز رسانی بعدی در X min. یادداشت پس از حادثه برای پشتیبانی/وابستگان/شرکا: چه اتفاقی افتاده است، چگونه جبران شود. قالب در پیش: کوتاه، بدون «آشپزخانه داخلی»، بدون گناه. 7) کار با وابستگی های خارجی (PSP/بازی/CDN) دایرکتوری تماس 24 × 7: PSP A/B، ارائه دهندگان بازی، CDN/WAF، ابر. نظارت SLA: synthetics در سپرده/راه اندازی بازی ها، راه اندازی بلیط اتوماتیک. سیاست های شکست خورده: مسیر به PSP-B در موفقیت <99٪ 10 دقیقه، ارائه دهنده بازی سوئیچینگ در 'TTFS> 800ms'. Webhooks صندوق ورودی: امضای HMAC، idempotency، دوباره بازی از صف پس از تخریب ارائه دهنده. 8) GameDay و تمرینات تمرینات هفتگی (30-45 دقیقه): خواندن نمودار، تصمیم گیری. DR-درایوهای فنی ماهانه (60-90 دقیقه): خرابی PSP، تأخیر ارائه دهنده، افت پایگاه داده/خوشه WS. KPI ورزش: زمان به رسمیت شناختن علت، کیفیت ارتباطات، صحت تصمیم گیری در phicheflags. 9) تحویل و اسناد و مدارک 10) سلامت و پایداری در تماس قانون 8/8/8: کار/خواب/شخصی شیفت شب، زمان استراحت سیستم دوستان برای مبتدیان، وظیفه سایه 2-3 هفته. امنیت روانی: «بی گناه» یکپارچهسازی با سیستمعامل، حمایت از حوادث جدی است. ممیزی بار: ≤ 2 «بیداری» در هر شب به طور متوسط در هر مهندس - هدف ؛ در بالا → بازیافت هشدار/معماری. 11) معیارهای عملکرد عملیاتی MTTD/MTTR توسط دامنه (ورود/سپرده/WS/بازی ها). کیفیت هشدار:٪ پر سر و صدا/بسته هیچ عمل، تعداد متوسط هشدار/تغییر. نرخ شکست تغییر: درصد حوادث ناشی از انتشار ؛ میانگین زمان بین شکست ها Toil: سهم کارهای دستی قابل تکرار → برنامه اتوماسیون. تأثیر ارائه دهنده: سهم SEV-2/1 به دلیل شرکای خارجی (استدلال برای SLA/مهاجرت). 12) ابزار و پانل های «همراه» «قرمز» SLO داشبورد: ورود/سپرده/شرط/راه اندازی بازی, 5xx/429, p95, مناطق. پانل های علی: DB/صف/کش، PSP/ارائه دهندگان، CDN/WAF. On-call dispatcher: active incidents, update timers, one-click links to runbook and phicheflags را انتخاب کنید. جدول زمانی - چه کسی، چه زمانی، با اشاره به SLO. 13) سناریوهای معمول و رفع سریع اقدامات: قناری → PSP-B 50٪ ؛ بالا بردن زمان از webhooks ؛ شامل چالش JS در WAF از رباتها. Comms: «تجزیه DE سپرده از طریق PSP-A» صفحه وضعیت. خروجی: موفقیت ≥ 99٪ 15 دقیقه، retray صف  B. ظهور P95 WS در بازی های زنده APAC اقدامات: کپی دروازه های WS را افزایش دهید، استخر گرم گره ها را روشن کنید. نرخ محدود پخش پیام; ارائه دهنده - بلیط RTT. خروجی: p95 WS RTT ≤ 120 ms 20 دقیقه. C. ارائه دهنده بازی تاخیر (TTFS> 1. 2 بازدید کنندگان) اقدامات: لابی را به جداول/استودیوهای جایگزین تغییر دهید، ذخیره سازی ابرداده را فعال کنید ؛ به روز رسانی وضعیت خروجی: TTFS <800 ms، ↓ شکایات. 14) چک لیست آمادگی 24/7 15) قالب پس از مرگ (بی گناه) 1. به طور خلاصه: چه اتفاقی افتاد، چه SEV، تاثیر و دامنه. 2. خط زمان: تشخیص → تشدید → عمل → تثبیت. 3. علل ریشه: این/فرآیندها/مردم/تامین کنندگان (5 چرا). 4. چه چیزی کار می کرد/چه چیزی نمی کرد: هشدار، ranbooks، ارتباطات. 5. موارد اقدام: فنی، فرآیند، شریک - مسئول و مهلت. 6. پیشگیری: تست/نظارت/تمرین، تغییرات SLO/هشدار. 24/7 عملیات کازینو موفق هستند نظم و انضباط SLO، به درستی طراحی هشدار دهنده بدون سر و صدا، runbooks روشن و تشدید، تمرینات منظم و احترام به مردم در تماس. پانل های SLO را به اهرم های سریع (phicheflags، سوئیچینگ PSP/ارائه دهنده، تخریب ویژگی های سنگین)، حفظ ارتباط با بازیکنان و شرکا، اندازه گیری کارایی (MTTD/MTTR/کیفیت هشدار) - و پلت فرم شما در سراسر ساعت پایدار خواهد بود و تیم سازنده و پایدار است.نردبان پله برقی
A. سپرده سقوط در DE در PSP-A
خلاصه رزومه
