24時間年中無休のカジノと通話中のプラクティス
1)24時間365日の業務目標
ビジネスSLO:ログイン≥ 99。9%、預金≥ 99。85%、レート/決済≥ 99。9%、 p95 WS RTT ≤ 120ミリ秒。
インシデントターゲット:MTTD ≤ 1分(合成)、MTTR ≤キャッシュフロー用15-30分。
サポートの質:チケットの<3%は応答なしで2日目に行く、サポートのCSAT ≥ 90%。
2)オンコール組織: モデルとスケジュール
モデル一覧
太陽に従って:3つの地理チーム(ヨーロッパ/アメリカ/APAC)、最低夜間負荷。
地域の夜間回転:1人1週間に1回の夜間シフト(補償/休暇)。
細胞ベース:プロダクトセル(ブランド/市場)による義務+合計L1。
シフトの役割
L1オンコール(デフォルトではインシデントコマンダー)-アラート、座標、サポートとの連絡を受け付けます。
L2ドメインエンジニア-決済、ゲームゲートウェイ/WS、データベース/ウォレット、プラットフォームSRE。
Comms Officer-ステータスページ、パートナー/プロバイダ、内部更新。
デューティマネージャー-ビジネスエスカレーション、優先順位付け、例外(VIP/レギュレータ)。
シフトテンプレート(12 × 7または8 × 5+シフト)
シフト:8/10/12時間。シフトチェンジ15-30分「暖かいハンドオーバー」。
14日間のウィンドウで、連続した最大2泊と7日以内のオンコール日のルールに従ってください。
各シフトには、duty、 reserve、 call manager、 contact L2があります。
3)インシデントとSLAの分類
4)騒音のない警報
原則:症状SLOアラート→因果リソース→コンテキスト。
「login_success_ratio」、 「deposit_success_by_psp」、 「ws_rtt_p95」、 「game_launch_success」。
その他:'db_conn_saturation'、 'queue_lag'、 'psp_timeout'、 'provider_launch_latency'。
ノイズ保護:必要なシーケンシャル違反≥ 3、リリース時の自動supress、重複排除およびグループ化。
デューティセット:クリティカル-PagerDuty/Opsgenie;残りはSlack/mailです。
アラートテキスト:"What/Where/How Much/Action。"例:5)ランブックとエスカレーション
Runbookミニテンプレート
1.検出:ダッシュボードへのリンク(SLO、因果)、トレース、ログ。
2.クイックチェック:健康PSP/プロバイダ、 DR領域合成、DB/キャッシュのステータス。
3.一時的な対策:フィーチャーフラグ/キルスイッチ、レート制限、PSP/プロバイダスイッチング、重い機能の劣化。
4.エスカレーション:誰がL2/L3、 24 × 7プロバイダに連絡します。
5.グリーンゾーン基準:SLO通常のN分、キュー 6.Comms:ステータステンプレート、影響を受ける市場/ブランド、ETA/次の更新。 T0-5 min: L1はICを受け付け、runbookを開始します。 T5-10分:プロフィールをL2+Comms Officerと呼びます。 T10-15分:デューティマネージャー/製品、法的/コンプライアンス必要に応じて。 外部:PSP/ゲームプロバイダー-規制に従って(SLAチャンネル、チケット、コール)。 6)コミュニケーションとステータスページ 内部更新はSEV-1/2のための10-15分ごとに(#war-roomチャネル、メッセージテンプレート)。 ステータスページ:現在のステータス、影響を受ける市場、暫定的な措置、X minの次の更新。 サポート/アフィリエイト/パートナーのための事件後のメモ:何が起こったのか、どのように補償するのか。 事前にテンプレート:短い、ない「内部のキッチン」、ない罪悪感。 7)外部依存関係(PSP/ゲーム/CDN)の操作) コンタクトディレクトリ24 × 7: PSP A/B、ゲームプロバイダ、CDN/WAF、クラウド。 SLAの監視:沈殿物/進水のゲーム、自動切符の制動機の合成物。 フェイルオーバーポリシー:'成功<99%10分'でPSP-Bにルーティングし、'TTFS> 800ms'でゲームプロバイダを切り替えます。 受信トレイのwebhook: HMAC署名、idempotency、プロバイダの劣化後にキューから再プレイします。 8) GameDayとトレーニング 毎週の卓上演習(30-45分):グラフを読み、意思決定を行います。 毎月の技術的なDRドライブ(60-90分):PSP障害、プロバイダの遅延、WSデータベース/クラスタドロップ。 運動KPI:原因を認識する時間、コミュニケーションの質、フィッシュフラグの決定の正しさ。 9)引き渡しとドキュメント 10)電話での健康と持続可能性 ルール8/8/8:仕事/睡眠/個人。ナイトシフト→タイムオフ。 初心者のためのバディシステム、シャドウデューティ2-3週間。 心理的な安全性:「責任のない」レトロ、重大な事件のサポート。 負荷監査:≤ 2「目覚め」エンジニアあたりの平均1泊あたり-ターゲット;上記→アラート/アーキテクチャのリサイクル。 11)運用パフォーマンス指標 ドメイン別MTTD/MTTR (ログイン/デポジット/WS/ゲーム) アラート品質:%noisy/closed no action、平均アラート数/シフト。 変更の失敗率:リリースによって引き起こされるインシデントの%;失敗の間の平均時間。 Toil:再現可能な手動タスクの共有→自動化プラン。 プロバイダへの影響:外部パートナーによるSEV-2/1の共有(SLA/移行の引数)。 12)「アテンダント」のツールとパネル" 「赤」ダッシュボードSLO:ログイン/デポジット/ベット/ローンチゲーム、5xx/429、 p95、リージョン。 原因パネル:DB/キュー/キャッシュ、 PSP/プロバイダ、 CDN/WAF。 コールディスパッチャー:アクティブインシデント、アップデートタイマー、ランブックとフィッシュフラグへのワンクリックリンク。 タイムライン-誰がSLOを参照して、いつ、何をしたか。 13)典型的なシナリオと迅速な修正 アクション:カナリアマシュルート→PSP-B 50%;Webhookのタイムアウトを上げます。ボットからWAFにJS Challengeを含める。 Comms: 「Degradation DE deposits via PSP-A」ステータスページ。 出力:成功≥ 99%15分、リトレイキュー B。 APACライブゲームにおけるp95 WSの上昇 アクション:WSゲートウェイのレプリカを増やし、ノードの暖かいプールをオンにします。rate-limitブロードキャストメッセージ;プロバイダ-RTTチケット。 出力:p95 WS RTT ≤ 120 ms 20分。 C。 Game Provider Lag (TTFS> 1。2台) アクション:ロビーを代替テーブル/スタジオに切り替え、メタデータキャッシュを有効にします。ステータスの更新。 出力:TTFS <800ミリ秒以下、苦情の件。 14)24/7準備チェックリスト 15)死後のテンプレート(blameless) 1.簡単に言うと:何が起こったとき、何SEV、影響と範囲。 2.タイムライン:検出→エスカレーション→アクション→安定化。 3.根本原因:それら/プロセス/人/サプライヤー(5なぜ)。 4.何が働いた/何がしなかった:アラート、ランブック、通信。 5.アクション項目:技術、プロセス、パートナー-責任と期限。 6.予防:テスト/監視/ドリル、SLO/アラートの変更。 24時間365日のカジノ運営を成功させることは、SLOの規律であり、騒音のないアラーム、明確なランブックとエスカレーション、定期的な演習、通話中の人々の尊敬を適切に設計しています。SLOパネルを高速レバー(phicheflags、 PSP/プロバイダの切り替え、重い機能の劣化)にリンクし、プレーヤーやパートナーとの通信を維持し、効率(MTTD/MTTR/アラート品質)を測定します。エスカレーターラダー
A。 PSP-AのDEに預金が落ちる
履歴書のサマリー
