Casino 7/24 ve nöbetçi uygulamalar
1) 7/24 operasyonların hedefleri
İş SLO'su: 99 ≥ giriş yapın. %9, depozito ≥ 99. %85, oran/yerleşim ≥ 99. 9 %, p95 WS RTT ≤ 120 ms.
Olay hedefleri: MTTD ≤ 1 dakika (sentetik), MTTR ≤ nakit akışı için 15-30 dakika.
Destek kalitesi: Biletlerin <%3'ü yanıt vermeden ikinci güne gider, CSAT desteği %90 ≥.
2) Çağrı üzerine organizasyon: modeller ve programlar
Modeller
Güneşi takip et: 3 coğrafi ekip (Avrupa/Amerika/APAC), minimum gece yükü.
Bölgede gece rotasyonu: Her N haftada bir kişi başına bir hafta gece vardiyası (tazminat/izin süresi).
Hücre tabanlı: ürün hücresine göre görev (markalar/pazarlar) + toplam L1.
Vardiyadaki roller
L1 On-call (varsayılan olarak Olay Komutanı) - uyarıyı kabul eder, koordine eder, destekle iletişimde kalır.
L2 Domain mühendisleri - ödemeler, oyun ağ geçidi/WS, veritabanı/cüzdan, platform SRE.
İletişim görevlisi - durum sayfası, ortaklar/sağlayıcılar, dahili güncellemeler.
Görev Yöneticisi - iş artışı, önceliklendirme, istisnalar (VIP/düzenleyici).
Shift şablonu (12 × 7 veya 8 × 5 + vardiya)
Vardiya: 8/10/12 saat. Vardiya değişimi 15-30 dakika "sıcak devir".
14 günlük bir pencerede maksimum 2 ardışık gece ve en fazla 7 çağrı günü kuralına uyun.
Her vardiyanın bir Kadrosu vardır: görev, rezerv, çağrı yöneticisi, L2 ile iletişim.
3) Olayların ve SLA'ların sınıflandırılması
4) Gürültü olmadan uyarı
İlkeler: semptomatik SLO uyarıları - nedensel kaynak - bağlam.
Симптомы: 'login_success_ratio↓', 'deposit_success_by_psp↓', 'ws_rtt_p95↑', 'game_launch_success↓'.
Причины: 'db_conn_saturation↑', 'queue_lag↑', 'psp_timeout↑', 'provider_launch_latency↑'.
Gürültü koruması: gerekli sıralı ihlaller ≥ 3, serbest bırakıldığında otomatik supress, veri tekilleştirme ve gruplama.
Görev seti: kritik - PagerDuty/Opsgenie; Gerisi Slack/mail.
Uyarı metni: "Ne/Nerede/Ne kadar/Eylem. "Örnek:5) Runbook've yükselişler
Runbook mini şablon
1. Algılama: gösterge panolarına bağlantılar (SLO, nedensel), izleme, günlükler.
2. Hızlı kontroller: sağlık PSP/sağlayıcıları, DR-bölge sentetikleri, DB/önbellek durumu.
3. Geçici önlemler: özellik bayrakları/kill-switch, hız sınırları, PSP/sağlayıcı anahtarlama, ağır özelliklerin bozulması.
4. Eskalasyon: kim L2/L3, 7 × 24 sağlayıcı ile iletişim kurar.
5. Yeşil bölge kriterleri: SLO normal N dakika, kuyruklar  6. İletişim: durum şablonu, etkilenen pazarlar/markalar, ETA/sonraki güncelleme. T0-5 min: L1 kabul eder, IC atar, runbook başlatır. T5-10 dk: profile L2 + Comms görevlisi diyoruz. T10-15 min: Görev Yöneticisi/ürün, gerekirse yasal/uygunluk. Harici: PSP/Oyun sağlayıcısı - düzenlemelere göre (SLA kanalı, bilet, çağrı). 6) İletişim ve durum sayfası SEV-1/2 için her 10-15 dakikada bir dahili güncellemeler (# war-room kanalı, mesaj şablonu). Durum sayfası: mevcut durum, etkilenen pazarlar, geçici önlemler, X min'deki bir sonraki güncelleme. Destek/bağlı kuruluşlar/ortaklar için olay sonrası not: ne oldu, nasıl telafi edilir. Şablonlar önceden: kısa, "iç mutfak" yok, suçluluk yok. 7) Dış bağımlılıklarla çalışma (PSP/oyunlar/CDN) İletişim rehberi 24 × 7: PSP A/B, oyun sağlayıcıları, CDN/WAF, bulut. SLA izleme: mevduat/başlatma oyunlarında sentetikler, otomatik bilet tetikleyicileri. Yük devretme politikaları: PSP-B'ye 'başarı <%99 10 dakika', oyun sağlayıcısını 'TTFS> 800ms'de değiştirin. Gelen kutusu webhooks: HMAC imzası, idempotency, sağlayıcı bozulduktan sonra kuyruktan yeniden oynatma. 8) GameDay ve egzersizler Haftalık masa üstü egzersizleri (30-45 dakika): grafikleri okumak, karar vermek. Aylık teknik DR sürücüleri (60-90 dakika): PSP arızası, sağlayıcı gecikmesi, WS veritabanı/küme düşüşü. KPI egzersizi: nedeni, iletişimin kalitesini, phicheflags üzerindeki kararların doğruluğunu tanıma zamanı. 9) Devir ve belgeler 10) Çağrı üzerine sağlık ve sürdürülebilirlik Kural 8/8/8: iş/uyku/kişisel. Gece vardiyaları - izin saatleri. Yeni başlayanlar için Buddy sistemi, gölge görev 2-3 hafta. Psikolojik güvenlik: "Suçsuz" retro, ciddi olaylara destek. Yük denetimi: Mühendis başına ortalama gece başına ≤ 2 "uyanış" - hedef; Yukarıda - uyarı/mimarinin geri dönüşümü. 11) Operasyonel Performans Ölçümleri Etki alanına göre MTTD/MTTR (login/deposit/WS/games). Uyarı kalitesi: % gürültülü/kapalı işlem yok, ortalama uyarı/vardiya sayısı. Değişim hatası oranı: Bültenlerin neden olduğu olayların %'si; Başarısızlıklar arasındaki ortalama zaman. Toil: tekrarlanabilir manuel görevlerin paylaşımı - otomasyon planı. Sağlayıcı etkisi: dış ortaklar nedeniyle SEV-2/1 payı (SLA/migration argümanı). 12) "Görevli'nin araçları ve panelleri "Kırmızı" pano SLO: giriş/para yatırma/bahisler/başlatma oyunları, 5xx/429, p95, bölgeler. Nedensel paneller: DB/kuyruklar/önbellek, PSP/sağlayıcılar, CDN/WAF. On-call dispatcher: aktif olaylar, güncelleme zamanlayıcıları, runbook ve phicheflags için tek tıklamayla bağlantılar. Zaman çizelgesi - kim ne yaptı, ne zaman, SLO'ya atıfta bulunarak. 13) Tipik senaryolar ve hızlı düzeltmeler Eylemler: kanarya marshrut PSP-B 50 %; Webhook'ların zaman aşımını yükseltmek; JS Challenge'ı botlardan WAF'a dahil edin. İletişim: "Degradation DE deposits via PSP-A" durum sayfası. Çıkış: başarı ≥ %99 15 dakika, retray kuyruğu  B. APAC canlı oyunlarında p95 WS'nin yükselişi Eylemler: WS ağ geçitlerinin kopyalarını artırın, sıcak düğüm havuzunu açın; Hız sınırı yayın mesajları; Sağlayıcı - RTT bilet. Çıkış: P95 WS RTT ≤ 120 ms 20 dk. C. Oyun Sağlayıcısı Gecikmesi (TTFS> 1. 2 s) Eylemler: lobiyi alternatif tablolara/stüdyolara geçirin, meta veri önbelleğini etkinleştirin; Durum güncellemesi. Çıktı: TTFS <800 ms, ↓ şikayetler. 14) 24/7 Hazırlık Kontrol Listesi 15) Ölüm sonrası şablon (suçsuz) 1. Kısaca: ne zaman ne oldu, hangi SEV, etki ve kapsam. 2. Zaman çizelgesi: algılama - eskalasyon - eylem - stabilizasyon. 3. Kök nedenler: bu/süreçler/insanlar/tedarikçiler (5 Neden). 4. Ne işe yaradı/yaramadı: uyarılar, ranbooks, iletişim. 5. Eylem öğeleri: teknik, süreç, ortak - sorumlu ve son tarihler. 6. Önleme: testler/izleme/matkaplar, SLO/uyarı değişiklikleri. Başarılı 24/7 casino operasyonları, SLO disiplini, gürültü olmadan endişe verici bir şekilde tasarlanmış, runbook'ları ve tırmanışları temizler, düzenli egzersizler ve çağrı yapan insanlara saygı duyar. SLO panellerini hızlı kollara bağlayın (phicheflags, PSP/provider switching, ağır özelliklerin bozulması), oyuncular ve ortaklarla iletişimi sürdürün, verimliliği ölçün (MTTD/MTTR/uyarı kalitesi) - ve platformunuz günün her saatinde kararlı olacak ve ekip - üretken ve istikrarlı.Yürüyen merdiven
A. mevduat PSP-A DE düşmek
Özgeçmiş Özeti
