관찰 가능성: iGaming의 메트릭, 로그, 추적
1) 관찰 가능성이 iGaming에있는 이유
플레이어는 실시간 지연 및 충돌 (실시간 게임, 베팅, 토너먼트) 에 민감합니다. 로그인/예금/인출의 저하는 수익과 신뢰에 영향을 미칩니다. 관찰 가능성:- L3-L7, 응용 프로그램 및 비즈니스 스냅 샷 제공
- 전면, API, 게임 제공 업체, 지불 사이에 병목 현지화;
- "아름다운" 기술 지표와 제품 파일 (내기가 불가능함) 을 명확하게 분리합니다.
키: SLO (서비스 레벨 객체) 제품 흐름으로 시작한 다음 메트릭/로그/추적 만 선택하십시오.
2) 제품 SLO 및 오류 예산
SLO의 예 (30 일 이상):- 로그인: 성공 99 이상. 90%, p95 대기 시간 약 250 ms.
- 예금 ('/결제/예금 ') 및 결론: 99 이상 성공. 85%, p95 λ400 ms.
- 실시간 내기: 99 이상의 성공. 9%, p95 WS 메시지는 120ms입니다.
- 라이브 게임의 슬롯/세션 시작: 99 이상 성공. 8%, p95 λ800 ms.
오류 예산은 릴리스 정책으로 변환됩니다.> 50% 가 소진 된 경우-정지 기능/카나리아 예금 만;> 80% - 버그 수정 만.
3) 원격 측정의 "세 고래"
측정 항목 (상태 정량)
사용자 지정 API의 RED: 각 엔드 포인트/방법에 대한 속도, 오류, 지속 시간.
인프라 사용: 활용, 포화, 오류 (CPU, 메모리, IO, 연결, 대기열).
비즈니스 지표: registratsii → depozit 전환, 성공률, 활성 라이브 카지노 테이블 수, 평균 견적 지연.
통나무 (사실과 맥락)
필요한 필드가있는 구조화 된 JSON 이벤트: 'ts', 'level', 'service', 'trace _ id', 'span _ id', 'user _ id' (가명), 'set _ id', 'route', 'state', 'latency _ ms', 'amount', 통화 ',' 공급자 '.
카테고리: 감사 (권리/균형 변경), 비즈니스 이벤트 (요율, 예금), 오류 (스택/코드), 기술 지원 (경고/정보).
추적 (원인 및 효과)
프론트 → API → 위험 엔진을 통한 엔드 투 엔드 → 게임 제공 업체/지불 → 대기열/데이터베이스.
와이드 오류 샘플링 (100%), "느린" 요청의 적응 형 샘플링 (예: p95 +), 기본적으로 1-5% 성공 트래픽.
4) 메트릭 디자인: 촬영 대상 및 호출 대상
Prometheus metrics (의사) 의 예:
RED
카운터 ig _ pleasing _ oorts _ total {route = "/payment/depent ", 코드 =" 5xx ", 제공자 =" card "}
(PHP 3 = 3.0.6, PHP 4) 25"}
(PHP 3 = 3.0.6, PHP 4)
보급자 = "PragmaticPlay", 통화 = "EUR"}
hist ig _ bet _ rtt _ ms _ bucket {game = "live _ blackjack", le = "100"}
gauge ig _ active _ tables {provider = "Evolution", market = "EU"}- 레이블의 단일 온톨로지: 'env', 'region', 'market', 'provesser', 'route', 'game', 'payment _ method'.
- 카디널리티를 폭파하지 마십시오: 메트릭에서 'user _ id' 를 제한하십시오 (로그/트랙에서만).
5) 로그: 구조, 개인 정보 보호, 유지
중요한 조치를위한 최소 JSON:json
{
"ts": "2025-10-23T17: 41:26. 123Z "," 레벨 ":" INFO "," 서비스 ":" payment-api "," env ":" prod "," trace _ id ":" b3f7 "...," "span _ id": "ab12"..., 사용자 _ pid ":" u _ 9fd "... ,/별칭, 이메일/전화가 아님
"세션 _ id": "s _ 78a"..., "경로": "/지불/예금 "," 상태 ": 200," 대기 시간 _ ms ": 182," 금액 ": 100. 0, "통화": "EUR", "제공자": "카드", "bin _ country": "DE"
}- 디버그에서도 마스크/제외 PAN/CVV, 토큰, 암호, JWT.
- 추적 ('trace _ id') 및 고객 (별칭 'user _ pid') 으로 바인드 로그합니다.
- TTL: "잡음" 기술자 14-30 일, 감사 추적 1-3 년 (정책 및 법률에 따라), 비즈니스 기록 6-24 개월 (가명).
- 감사에 대한 세계/면역 (변경되지 않은 버킷), 역할 별 ACL.
6) 추적: 전면에서 공급자까지
확장 된 흐름
로그인/등록 → 안티 봇/WAF → Auth-API → 프로필/지갑.
예금 → 지불 -API → 공급자 → 웹 후크 → 월렛 서비스.
내기 → 게임 게이트웨이 (웹 소켓) → 게임 제공 업체 → → 월렛의 상금을 계산합니다.
전술
OpenTelemetry는 어디에나 있습니다: 전면 SDK (XHR/Fetch), 모바일, API, 작업자.
상황 프로토콜: W3C traceparent/tracestate; gRPC/TH/WebSocket (WS-첫 번째 메타 데이터/메시지) 을 통해 넘깁니다.
적응 형 샘플링: 오류의 경우 100%, 지불 결론의 경우 50% 이상, "새로운" 릴리스/카나리아의 경우 10% 이상, 1-5% 배경.
트레이스보기의 시각적 태그: 'risk _ decision', 'provider _ Name', 'bonus _ id', 'jackpot _ round'.
7) 실시간 채널: WebSocket/WebRTC
(PHP 3 = 3.0.6, PHP 4)
트레이스 이벤트: 'ws _ inquition _ table', 'ws _ bet _ place', 'ws _ deposition'.
로그: 메시지 크기/주파수를 정규화합니다. "빈 핑" 및 홍수 패턴을 추적하십시오.
WebRTC (라이브 카지노) 의 경우: 'jitter _ ms', 'packet _ loss', 'round _ trip _ time _ ms', 'keyframe _ interface _ s'.
8) 경고: 증상에서 원인으로
증상 경보 (SLO/SLA):- 로그인 SLI 오류> 0. 5 분 만에 3%.
- p95 '/결제/예금 '> 400 ms 10 분 연속.
- 베팅 성공 <99. 15 분 만에 7%.
- (PHP 3 = 3.0.6, PHP 4) (PHP 3 = 3.0.6, PHP 4)
- 하나의 ASN → 신호에서 WAF/봇 관리자에게 '429 '/' 5xx' 버스트.
- 지속적인 손상에서만 알레르기; 중복의 자동 방해; 런북으로가는 경로.
9) 정말 도움이되는 대시 보드
"예금 흐름"
깔때기: 요청 → 공급자에게 리디렉션합니다 → 플로피 → 지갑 업데이트.
공급자 별 성공/오류, BIN 국가 맵, p95/99 대기 시간, 오류 코드 배포.
"라이브 게임/베팅"
활성 테이블, 온라인 플레이어, p95 WS 지연, 타임 아웃/중단 공유, 최고 오류 게임.
"API 건강"
주요 경로, 4xx/5xx, 연결 풀 포화/CPU/GC, 상위 N 느린 엔드 포인트 (추적에 링크 포함) 에 대한 RED.
10) 비용 및 보관: 파산하지 않는 방법
카디널리티 예산: 레이블/속성 제한; 지표를 추가하는 PR 리뷰.
계층 형 스토리지: 핫 3-7 일 (빠른 검색), 따뜻한 30-90 일 (S3/객체), 콜드 아카이브 (덜 자주).
다운 샘플링 메트릭 (1s → 10s → 1m) 및 롤링 집계.
배상 및 dempotent 호출에서 로그의 중복 제거.
11) 개인 정보 보호 및 규정 준수 (짧음)
Pseudonymize 'user _ id' 는 로그에 전자 메일, 전화, 여권을 저장하지 마십시오.
암호화 전송 (mSL) 및 휴식, 차별 액세스 (RBAC/MFA), 데이터 액세스 로그 유지 관리
데이터 행렬에서와 같이 TTL/보존; "삭제권" 은 과거 세트의 비활성화 플래그 및 가명을 통해 구현됩니다.
12) 사고 및 추적 디버깅: 빠른 레시피
1. 증상 경보 (예금 성공) 가 작동했습니다.
2. 대시 보드는 각각 한 명의 공급자가 급증했습니다.
3. 추적보기를 클릭하십시오: 'provider _ callback' (p99 2. 3), 많은 retras.
4. 로그: '타임 아웃' + ASN = 봇 패턴 호스팅.
5. 액션: 콜백에서 타임 아웃이 증가했으며 ASN, 제한된 레트라에 대한 WAF의 JS 챌린지가 포함되었습니다.
6. 레트로: 'callback _ success _ ratio' 에 SLI를 추가하고 'queu _ lag _ seconds' 에 경고하십시오.
13) 단계별 구현
1. 4-6 개의 중요한 흐름을위한 SLO 디자인 (로그인, 예금, 출력, 게임 출시, 베팅).
2. RED/USE + 비즈니스 SLI 지표; 단일 레이블 체계.
3. 'trace _ id' 가있는 구조 로그; 민감한 필드 마스킹.
4. OpenTelemetry는 어디에나 있습니다. 적응 형 샘플링.
5. 대시 보드 + 경고 (증상 및 인과 관계), 런북.
6. 비용 관리: 카디널리티, 다운 샘플링, 스토리지 수준.
7. 운동: GameDay 시나리오 (결제 중단, 공급자 지연, WS 급증).
8. 지속적인 개선: 새로운 기능이 나타날 때 SLI를 추가하고 "사각 지대" 를 닫으십시오.
14) 체크리스트 (prod-ready)
- SLO/SLI 승인, 릴리스 정책의 오류 예산.
- 단일 레이블 온톨로지가있는 RED/USE 메트릭 + 비즈니스 메트릭스.
- 각 메시지에서 JSON 로그, 마스킹 비밀, 'trace _ id'.
- 엔드-투-엔드 트레이싱 (TH/gRPC/WebSocket/WebRTC), W3C 컨텍스트.
- 경고는 소음이없는 런북의 링크에서 증상이 있고 인과 관계가 있습니다.
- 예금, 요금, API 상태를위한 대시 보드; '제공자/시장' 별 빠른 필터.
- 제어중인 샘플링/카디널리티, 계층 형 스토리지.
- 개인 정보 보호: 노출, 암호화, RBAC/MFA, 메타 로그.
- 드릴 및 레트로, 정기적 인 SLO 개정.
요약 다시 시작
iGaming의 관찰 가능성은 "CPU 그래픽" 이 아니라 SLO 중요 흐름, RED/USE 메트릭, 일관된 로그 및 플레이어의 전체 경로와 비용을 통한 추적과 같은 실시간 제품 그림입니다. 잘못된 예산에 대한 경고 규율을 추가하고 원격 측정 비용을 통제하며 개인 정보를 관찰하십시오. 팀은 추측하지 않지만 문제의 원인을보고 플레이어가 알아 채기 전에 해결하십시오.
