WinUpGo
Ძებნა
CASWINO
SKYSLOTS
BRAMA
TETHERPAY
777 FREE SPINS + 300%
Კრიპტოვალუტის კაზინო Კრიპტო კაზინო Torrent Gear არის თქვენი უნივერსალური ტორენტის ძებნა! Torrent Gear

24/7-ექსპლუატაციის პრაქტიკა და კაზინოში

1) მიზნები 24/7-ოპერაციები

ბიზნეს SLO: ლოგინი 99. 9%, ანაბარი 99. 85%, განაკვეთი/ნაკადი - 99. 9%, p95 WS RTT - 120 ms.

ინციდენტის სამიზნეები: MTTD - 1 წთ (სინთეზისთვის), MTTR - 15-30 წთ ფულადი სახსრებისთვის.

მხარდაჭერის ხარისხი: თიკეტების <3 3% მეორე დღეს პასუხის გარეშე მიდის, CSAT sapport - 90%.


2) ორგანიზაცია on-call: მოდელები და გრაფიკები

მოდელები

Follow-the-sun: 3 გეო-გუნდი (ევროპა/ამერიკა/APAC), მინიმალური ღამის დატვირთვა.

ღამის როტაცია რეგიონში: ღამის ცვლა ერთ კვირაში ერთხელ N კვირაში ერთხელ (ანაზღაურება/შვებულება).

უჯრედები (cell-based): მოვალეობა სასურსათო უჯრედებზე (ბრენდები/ბაზრები) + საერთო L1.

როლები ცვლაში

L1 On-call (ნაგულისხმევი Commander) - იღებს ალერტს, კოორდინაციას უწევს, ინარჩუნებს კავშირს საფორტთან.

L2 აფეთქების ღუმელის ინჟინრები - გადახდები, game-gateway/WS, BD/საფულე, პლატფორმის SRE.

კომკავშირის ოფიცერი - სტატუსის გვერდი, პარტნიორები/პროვაიდერები, შიდა აპდეიტები.

Duty Manager არის ბიზნესის ესკალაცია, პრიორიტეტული, გამონაკლისი (VIP/რეგულატორი).

ცვლის შაბლონი (12 × 7 ან 8 × 5 + მოვალეობა)

შეცვლა: 8/10/12 საათი. 15-30 წუთის შეცვლა „warm handover“.

დაიცავით წესი 2 ღამე ზედიზედ მაქსიმუმ და არაუმეტეს 7 დღე 14-დღიან ფანჯარაში.

თითოეულ ცვლას აქვს როსტერი: მოვალეობის შემსრულებელი, რეზერვი, ზარის მენეჯერი, საკონტაქტო L2.


3) ინციდენტების კლასიფიკაცია და SLA

SEVმაგალითიგავლენაSLA რეაქციაSLA გადაწყვეტილებები
SEV-1დეპოზიტების მასობრივი უკმარისობა, ლოგინი მიუწვდომელიაშემოსავლის დაკარგვა/მარეგულირებელი რისკი5 წუთზე მეტი ხნის წინსტაბილიზაციამდე 30 წუთით ადრე
SEV-2განაკვეთების მაღალი შეფერხება, თამაშების პროვაიდერის ლაგიკონვერტაციის შემცირება10 წუთზე მეტი ხნით ადრე• 2 საათი
SEV-3პრომო/მოხსენებების ნაწილობრივი უკმარისობაშეზღუდული გავლენა30 წუთიევრო 8 საათი
SEV-4უმცირესობის შეცდომები/ხარისხის ალერტებიდაუყოვნებლივი გავლენა არ არსებობსდაგეგმილიდაგეგმილი

4) ალერტინგი ხმაურის გარეშე

პრინციპები: სიმპტომური SLO ალერტები და მიზეზობრივი რესურსების კონტექსტი.

Симптомы: `login_success_ratio↓`, `deposit_success_by_psp↓`, `ws_rtt_p95↑`, `game_launch_success↓`.

Причины: `db_conn_saturation↑`, `queue_lag↑`, `psp_timeout↑`, `provider_launch_latency↑`.

ხმაურისგან დაცვა: required consecutive violations - 3, auto-supress გამოშვებისას, დედოპლიკაცია და ჯგუფი.

მოვალეობის შემსრულებელი: კრიტიკული - PagerDuty/Opsgenie; დანარჩენი არის Slack/ფოსტა.

ალერტის ტექსტი: „რა/სად/რამდენი/მოქმედება“. მაგალითი:
💡 SEV-2: deposit success DE/PSP-A 97. 1% < 99% 10m. Impact: EU. Probable cause: PSP timeout↑. Runbook: `PD-42`.

5) Runbook 'და ესკალაცია

მინი შაბლონი runbook

1. დეტაჟი: ბმულები დაშბორდებზე (SLO, მიზეზი), ტრეისი, ლოგები.

2. სწრაფი შემოწმებები: ჯანმრთელობის PSP/პროვაიდერები, სინთეზური DR რეგიონი, BD/ქეში სტატუსი.

3. დროებითი ზომები: fich დროშები/kill-switch, rate-limits, PSP/პროვაიდერის გადართვა, მძიმე ფიკების დეგრადაცია.

4. ესკალაცია: ვინ არის L2/L3, კონტაქტები 24 × 7 პროვაიდერი.

5. მწვანე ზონის კრიტერიუმები: SLO ნორმალურ წუთებში, რიგები

6. კომსი: სტატუსის შაბლონი, რომელიც ეფუძნება ბაზრებს/ბრენდებს, ETA/შემდეგი განახლება.

ესკალაციის კიბე

T0-5 წუთი: L1 იღებს, განსაზღვრავს IC- ს, იწყებს runbook- ს.

T5-10 წუთი: დარეკეთ პროფილის L2 + კომკავშირის ოფიცერი.

T10-15 წთ: Duty Manager/პროდუქტი, საჭიროების შემთხვევაში, იურიდიული/შესაბამისობა.

გარე: PSP/Game provider - რეგლამენტის შესაბამისად (SLA არხი, ტიკეტი, ზარი).


6) კომუნიკაციები და სტატუსის გვერდი

შიდა აპდეიტები ყოველ 10-15 წუთში SEV-1/2 (არხი # ომის ოთახი, შეტყობინებების შაბლონი).

სტატუსის გვერდი: ბაზრებზე დაზარალებული ამჟამინდელი სტატუსი, დროებითი ზომები, შემდეგი განახლება X წუთის შემდეგ.

Post-incident note saport/affiliat/პარტნიორებისთვის: რა იყო, როგორც კომპენსაცია.

შაბლონები წინასწარ: მოკლედ, „შიდა სამზარეულოს“ გარეშე, დანაშაულის გარეშე.


7) გარე დამოკიდებულებასთან მუშაობა (PSP/თამაშები/CDN)

კონტაქტების კატალოგი 24 × 7: PSP A/B, თამაშების პროვაიდერები, CDN/WAF, ღრუბელი.

SLA მონიტორინგი: სინთეტიკა დეპოზიტებზე/თამაშების გაშვებაზე, თიკეტების ავტომატური გამომწვევი.

Failover პოლიტიკა: მარშრუტი PSP-B- ზე 'success <99% 10 წუთის განმავლობაში ", თამაშის პროვაიდერის შეცვლა' TTFS> 800ms '- ში.

Inbox-webhuks: HMAC ხელმოწერა, imempotence, re-play მიმწოდებლის დეგრადაციის შემდეგ.


8) GameDay და ვარჯიში

ყოველკვირეული tabletop სწავლებები (30-45 წუთი): გრაფიკის კითხვა, გადაწყვეტილების მიღება.

ყოველთვიური ტექნიკური DR დისკები (60-90 წთ): PSP უკმარისობა, პროვაიდერის ლაგი, BD/WS კლასტერის დაცემა.

KPI სავარჯიშოები: მიზეზის ამოცნობის დრო, კომუნიკაციების ხარისხი, ფიჩეფლაგების შესახებ გადაწყვეტილებების სისწორე.


9) ჰენდოვერი და დოკუმენტაცია

Warm handover ჩეკის სია (15-20 წუთი):
  • მიმდინარე რისკები (ლაგების ზრდა, PSP ლიმიტები, ცხელი გამოშვებები).
  • უსასრულო თიკეტები/ესკალაცია.
  • დროებითი ძაფები/ლიმიტები და როდის ამოიღეთ.
  • ცვლის ინციდენტების რეზიუმე (SEV/დრო/მოქმედება/ნარჩენი რისკები).
  • დოკუმენტაცია: runbook- ის ცოცხალი ბაზა, კონტაქტები, სქემები, flow ბარათი ფული/თამაშები.

10) ჯანმრთელობის დაცვა და სტაბილურობა

წესი 8/8/8: სამუშაო/ოცნება/პირადი. ღამის ცვლა - შვებულება.

ბადი სისტემა დამწყებთათვის, shadow მოვალეობა 2-3 კვირის განმავლობაში.

ფსიქოლოგიური უსაფრთხოება: „blameless“ რეტრო, მხარდაჭერა მძიმე ინციდენტებში.

დატვირთვის აუდიტი: ღამით 2 „გაღვიძება“ საშუალოდ ინჟინერზე - მიზანი; ზემოთ - ალერტინგის/არქიტექტურის დამუშავება.


11) ოპერატიული ეფექტურობის მეტრიკა

MTTD/MTTR დომენებისთვის (ლოგინი/დეპოზიტი/WS/თამაშები).

ალტერნატივა:% ხმაურიანი/დახურული მოქმედებების გარეშე, ალერტების/შეცვლის საშუალო რაოდენობა.

განთავისუფლების შედეგად გამოწვეული ინციდენტების%; mean time between failures.

Toil: განმეორებითი ხელით დავალებების წილი - ავტომატიზაციის გეგმა.

Provider impact: SEV-2/1 წილი გარე პარტნიორების გამო (არგუმენტი SLA/მიგრაციისთვის).


12) „მოვალეობის შემსრულებლის“ ხელსაწყოები და პანელები

„წითელი“ დაშბორდის SLO: ლოგინი/ანაბარი/განაკვეთები/თამაშების გაშვება, 5xx/429, p95, რეგიონები.

მიზეზობრივი პანელები: BD/რიგები/ქეში, PSP/პროვაიდერები, CDN/WAF.

On-call დისპეტჩერი: აქტიური ინციდენტები, apdate ტაიმერები, ერთჯერადი ბმულები runbook 'და ficeflages.

სამოქმედო ჟურნალი (Timeline) - ვინ გააკეთა რა, როდესაც, SLO- ს მითითებით.


13) ტიპიური სცენარები და სწრაფი გადაწყვეტილებები

A. დეპოზიტები DE- ში ეცემა PSP-A- ში

მოქმედებები: კანარის მარშრუტი - PSP-B 50%; აამაღლეთ ვებჰუკების ტაიმუტი; ჩართეთ JS გამოწვევა WAF- ში ბოტებიდან.

კომსი: Degradation DE deposits via PSP-A სტატუსის გვერდი.

გამოსავალი: success - 99% 15 წუთი, Retrais ხაზი

B. Rost p95 WS ლაივ თამაშებში APAC

მოქმედებები: ჩვენ ვზრდით WS კარიბჭეების რეპლიკებს, მათ შორის warm-pul nod- ს; მაუწყებლობის შეტყობინებები; პროვაიდერი - RTT თიკეტი.

გამოსავალი: p95 WS RTT - 120 ms 20 წთ

C. თამაშის პროვაიდერი (TTFS> 1. 2 ს)

მოქმედებები: გადაიტანეთ ლობი ალტერნატიულ მაგიდებზე/სტუდიებში, ჩართეთ მეტამონაცემების კეში; სტატუსის განახლება.

გამოსავალი: TTFS <800 ms, საჩივრები.


14) მზადყოფნის სია 24/7

დამტკიცებულია როტაცია და მოვალეობა, „მეორე ნომერი“ თითოეულ ცვლაში.

  • SLO-alertes + გამომწვევი, ანტენა, შეტყობინებების ერთიანი შაბლონები.
  • სრული runbook 'და „სწრაფი ბერკეტებით“ (ficheflages, PSP/პროვაიდერები, ლიმიტები).
  • გარე პარტნიორების 24 × 7 კონტაქტები, კვარტალში ერთხელ ზარის ტესტი.
  • სტატუსის გვერდი და გარე აფდიტების შაბლონები.
  • GameDay/DR გრაფიკის სწავლებები, რეტროსპექტივები ბრალდების გარეშე.
  • ინსტრუმენტები on-call: დაშბორდები, დრო, გადაწყვეტილებების ჟურნალი.
  • კომპენსაციის/შვებულების პოლიტიკა, ღამის გამოღვიძების ზღვარი, ჯანმრთელობის მხარდაჭერა.
  • პოსტ-ინციდენტის პროცესი: RCA 48 საათზე, მესაკუთრეთა კორექტირების დავალებები და ვადები.

15) პოსტმელესის შაბლონი

1. მოკლედ: რა მოხდა, როდის, რა SEV, გავლენა და მასშტაბები.

2. Timline: დეტალი - ესკალაცია, მოქმედება - სტაბილიზაცია.

3. ფესვის მიზეზები: ეს/პროცესები/ხალხი/მომწოდებლები (5 რატომ).

4. რა მუშაობდა/რა არა: ალერტები, რანბუკები, კომუნიკაციები.

5. Action items: ტექნიკური, პროცესორი, პარტნიორი - პასუხისმგებელი და ვადები.

6. პრევენცია: ტესტები/მონიტორინგი/სავარჯიშოები, SLO/ალერტების ცვლილებები.


რეზიუმე

კაზინოში წარმატებული 24/7 ოპერაციები არის SLO დისციპლინა, სწორად შექმნილი ალარმინგი ხმაურის გარეშე, მკაფიო რუნბოუ "და ესკალაცია, რეგულარული წვრთნები და ფრთხილად დამოკიდებულება ონკანის ხალხისადმი. დააკავშირეთ SLO პანელები სწრაფი ბერკეტებით (ficheflages, PSP/პროვაიდერების გადართვა, მძიმე დარტყმების დეგრადაცია), შეინარჩუნეთ კომუნიკაციები მოთამაშეებთან და პარტნიორებთან, გაზომეთ ეფექტურობა (MTTD/MTR/ალერტის კვალი) - და თქვენი პლატფორმა იქნება სტაბილური საათის განმავლობაში, და გუნდი - პროდუქტიული და სტაბილური.

× Თამაშების ძებნა
Ძებნის დასაწყებად შეიყვანეთ მინიმუმ 3 სიმბოლო.