카지노 24/7 및 통화 중 관행
1) 24/7 운영 목표
비즈니스 SLO: 로그인 9%, 99 이상 입금. 85%, 요율/결제 9%, p95 WS RTT λ120 ms.
사고 대상: 현금 흐름의 경우 MTTD
지원 품질: 티켓의 <3% 는 응답없이 2 일째에, CSAT는 90% 이상입니다.
2) 통화 중 조직: 모델 및 일정
모델
Follow-the-sun: 3 개의 지오 팀 (유럽/아메리카/APAC), 최소 야간 하중.
이 지역의 야간 교체: N 주에 한 번 1 인당 1 주일 야간 교대 (보상/시간 할인).
셀 기반: 제품 셀 (브랜드/시장) 별 의무 + 총 L1.
교대 역할
L1 On-call (기본적으로 Incident Commander) -경고, 좌표, 지원을 유지합니다.
L2 도메인 엔지니어-결제, 게임 게이트웨이/WS, 데이터베이스/지갑, 플랫폼 SRE.
Comms Officer-상태 페이지, 파트너/공급자, 내부 업데이트.
직무 관리자-비즈니스 에스컬레이션, 우선 순위 지정, 예외 (VIP/규제 기관).
시프트 템플릿 (12 × 7 또는 8 × 5 + 시프트)
교대: 8/10/12 시간. 교대 변경 15-30 분 "따뜻한 핸드 오버".
14 일 동안 최대 2 박 연속 7 일 이하의 규칙을 따르십시오.
각 교대 근무에는 명단이 있습니다: 직무, 예비, 통화 관리자, 연락처 L2.
3) 사건 및 SLA 분류
4) 소음없이 경고
원칙: 증상 SLO 경고 → 인과 자원 → 컨텍스트.
게 이름은 '로그인 _ success _ ratio', 'depost _ success _ by _ psp', 'ws _ rtt _ p95', 'game _ launch _ success' 입니다.
'db _ conn _ shature', 'queu _ lag q', 'psp _ tameasing', 'provesser _ launch _ latency'.
노이즈 보호: 필요한 순차적 위반
듀티 세트: 크리티컬-PagerDuty/Opsgenie; 나머지는 슬랙/메일입니다.
경고 텍스트: "무엇/어디서/얼마나/행동. "예:5) 런북 및 에스컬레이션
런북 미니 템플릿
1. 탐지: 대시 보드 (SLO, 인과), 추적, 로그에 대한 링크.
2. 빠른 점검: 건강 PSP/제공자, DR- 지역 합성, DB/캐시 상태.
3. 임시 조치: 기능 플래그/킬 스위치, 속도 제한, PSP/제공자 전환, 무거운 기능의 저하.
4. 에스컬레이션: 누가 L2/L3이고 24 × 7 공급자에게 연락합니다.
5. 녹색 영역 기준: SLO 정상 N 분, 대기열  6. Comms: 상태 템플릿, 영향을받는 시장/브랜드, ETA/다음 업데이트. T0-5 분: L1은 IC를 수락하고 할당하며 런북을 시작합니다. T5-10 분: 프로필 L2 + Comms 임원이라고합니다. T10-15 분: 의무 관리자/제품, 필요한 경우 법률/준수. 외부: PSP/게임 제공 업체-규정에 따라 (SLA 채널, 티켓, 통화). 6) 커뮤니케이션 및 상태 페이지 SEV-1/2 (# war-room 채널, 메시지 템플릿) 의 내부 업데이트는 10-15 분마다 업데이트됩니다. 상태 페이지: 현재 상태, 영향을받는 시장, 중간 조치, 다음 X 분 업데이트. 지원/제휴사/파트너에 대한 사후 메모: 발생한 일, 보상 방법. 사전 템플릿: 짧고 "내부 주방", 죄책감 없음. 7) 외부 종속성 작업 (PSP/게임/CNC) 디렉토리 24 × 7: PSP A/B, 게임 제공 업체, CNC/WAF, 클라우드에 문의하십시오. SLA 모니터링: 예금/런칭 게임에 대한 합성, 자동 티켓 트리거. 실패 정책: '성공 <99% 10 분' 에 PSP-B로가는 경로, 'TTFS> 800ms' 에서 게임 제공 업체 전환. 받은 편지함 웹 후크: HMAC 서명, demempotency, 공급자 저하 후 큐에서 다시 재생. 8) 게임 데이 및 운동 주간 탁상 운동 (30-45 분): 그래프 읽기, 결정. 월간 기술 DR 드라이브 (60-90 분): PSP 고장, 공급자 지연, WS 데이터베이스/클러스터 드롭. KPI 운동: 원인, 의사 소통의 질, 피체 플래그에 대한 의사 결정의 정확성을 인식 할 시간. 9) 핸드 오버 및 문서 10) 통화 중 건강 및 지속 가능성 규칙 8/8/8: 일/수면/개인. 밤 이동 → 시간 종료. 초보자를위한 버디 시스템, 그림자 의무 2-3 주. 심리적 안전: "흠없는" 복고풍, 심각한 사건에 대한 지원. 로드 감사: 엔지니어 당 평균 1 박 2 일 "각성" - 대상; 위 → 경보/아키텍처의 재활용. 11) 운영 성능 지표 도메인 별 MTTD/MTTR (로그인/예금/WS/게임). 경고 품질:% 시끄러운/닫힌 작업 없음, 평균 경보/시프트 수. 실패율 변경: 릴리스로 인한 사고의%; 실패 사이의 시간을 의미합니다. 수건: 반복 가능한 수동 작업의 공유 → 자동화 계획. 공급자 영향: 외부 파트너로 인한 SEV-2/1의 지분 (SLA/마이그레이션에 대한 인수). 12) "승무원" 의 도구 및 패널 "빨간색" 대시 보드 SLO: 로그인/예금/베팅/런칭 게임, 5xx/429, p95, 지역. 인과 패널: DB/대기열/캐시, PSP/제공 업체, CNC/WAF. 통화 중 디스패처: 활성 사건, 업데이트 타이머, 런북 및 피체 플래그에 대한 원 클릭 링크. 타임 라인-언제 SLO와 관련하여 무엇을했는지. 13) 전형적인 시나리오 및 빠른 수정 동작: 카나리아 marshrut → PSP-B 50%; 웹 후크의 타임 아웃을 높입니다. 봇의 WAF에 JS 챌린지 포함. Comms: "PSP-A를 통한 분해 DE 예금" 상태 페이지. 출력: 성공 99% 15 분, 대기열  APAC 라이브 게임에서 p95 WS의 B. 상승 동작: WS 게이트웨이의 복제본을 늘리고 따뜻한 노드 풀을 켜십시오. 속도 제한 방송 메시지; 공급자-RTT 티켓. 출력: p95 WS RTT λ120 ms 20 분 C. Game Provider Lag (TTFS> 1. 2 초) 동작: 로비를 대체 테이블/스튜디오로 전환하고 메타 데이터 캐시를 활성화하십시오. 상태 업데이트. 출력: TTFS <800 ms, ° 불만. 14) 24/7 준비 점검표 15) 사후 템플릿 (흠없는) 1. 간단히 말해서: 언제, 어떤 SEV, 영향 및 범위가 발생했는지. 2. 시간선: 감지 → 에스컬레이션 → 동작 → 안정화. 3. 근본 원인: 해당/프로세스/사람/공급 업체 (5 이유). 4. 효과가 있었던 것/그렇지 않은 것: 경고, 목장, 커뮤니케이션. 5. 행동 항목: 기술, 프로세스, 파트너-책임 및 마감일. 6. 예방: 테스트/모니터링/드릴, SLO/경보 변경. 성공적인 24/7 카지노 운영은 SLO 분야이며, 소음, 명확한 런북 및 에스컬레이션, 정기적 인 운동 및 통화 중 사람들에 대한 존중없이 올바르게 설계되었습니다. SLO 패널을 빠른 레버 (phicheflags, PSP/제공자 전환, 무거운 기능의 저하) 에 연결하고, 플레이어 및 파트너와의 통신을 유지하고, 효율성 측정 (MTTD/MTTR/경고 품질) -플랫폼은 24 시간 내내 안정적입니다. 생산적이고 안정적인 팀.에스컬레이터 사다리
A. 예금이 PSP-A에서 DE로 떨어짐
요약 다시 시작
