24/7-ექსპლუატაციის პრაქტიკა და კაზინოში
1) მიზნები 24/7-ოპერაციები
ბიზნეს SLO: ლოგინი 99. 9%, ანაბარი 99. 85%, განაკვეთი/ნაკადი - 99. 9%, p95 WS RTT - 120 ms.
ინციდენტის სამიზნეები: MTTD - 1 წთ (სინთეზისთვის), MTTR - 15-30 წთ ფულადი სახსრებისთვის.
მხარდაჭერის ხარისხი: თიკეტების <3 3% მეორე დღეს პასუხის გარეშე მიდის, CSAT sapport - 90%.
2) ორგანიზაცია on-call: მოდელები და გრაფიკები
მოდელები
Follow-the-sun: 3 გეო-გუნდი (ევროპა/ამერიკა/APAC), მინიმალური ღამის დატვირთვა.
ღამის როტაცია რეგიონში: ღამის ცვლა ერთ კვირაში ერთხელ N კვირაში ერთხელ (ანაზღაურება/შვებულება).
უჯრედები (cell-based): მოვალეობა სასურსათო უჯრედებზე (ბრენდები/ბაზრები) + საერთო L1.
როლები ცვლაში
L1 On-call (ნაგულისხმევი Commander) - იღებს ალერტს, კოორდინაციას უწევს, ინარჩუნებს კავშირს საფორტთან.
L2 აფეთქების ღუმელის ინჟინრები - გადახდები, game-gateway/WS, BD/საფულე, პლატფორმის SRE.
კომკავშირის ოფიცერი - სტატუსის გვერდი, პარტნიორები/პროვაიდერები, შიდა აპდეიტები.
Duty Manager არის ბიზნესის ესკალაცია, პრიორიტეტული, გამონაკლისი (VIP/რეგულატორი).
ცვლის შაბლონი (12 × 7 ან 8 × 5 + მოვალეობა)
შეცვლა: 8/10/12 საათი. 15-30 წუთის შეცვლა „warm handover“.
დაიცავით წესი 2 ღამე ზედიზედ მაქსიმუმ და არაუმეტეს 7 დღე 14-დღიან ფანჯარაში.
თითოეულ ცვლას აქვს როსტერი: მოვალეობის შემსრულებელი, რეზერვი, ზარის მენეჯერი, საკონტაქტო L2.
3) ინციდენტების კლასიფიკაცია და SLA
4) ალერტინგი ხმაურის გარეშე
პრინციპები: სიმპტომური SLO ალერტები და მიზეზობრივი რესურსების კონტექსტი.
Симптомы: `login_success_ratio↓`, `deposit_success_by_psp↓`, `ws_rtt_p95↑`, `game_launch_success↓`.
Причины: `db_conn_saturation↑`, `queue_lag↑`, `psp_timeout↑`, `provider_launch_latency↑`.
ხმაურისგან დაცვა: required consecutive violations - 3, auto-supress გამოშვებისას, დედოპლიკაცია და ჯგუფი.
მოვალეობის შემსრულებელი: კრიტიკული - PagerDuty/Opsgenie; დანარჩენი არის Slack/ფოსტა.
ალერტის ტექსტი: „რა/სად/რამდენი/მოქმედება“. მაგალითი:5) Runbook 'და ესკალაცია
მინი შაბლონი runbook
1. დეტაჟი: ბმულები დაშბორდებზე (SLO, მიზეზი), ტრეისი, ლოგები.
2. სწრაფი შემოწმებები: ჯანმრთელობის PSP/პროვაიდერები, სინთეზური DR რეგიონი, BD/ქეში სტატუსი.
3. დროებითი ზომები: fich დროშები/kill-switch, rate-limits, PSP/პროვაიდერის გადართვა, მძიმე ფიკების დეგრადაცია.
4. ესკალაცია: ვინ არის L2/L3, კონტაქტები 24 × 7 პროვაიდერი.
5. მწვანე ზონის კრიტერიუმები: SLO ნორმალურ წუთებში, რიგები  6. კომსი: სტატუსის შაბლონი, რომელიც ეფუძნება ბაზრებს/ბრენდებს, ETA/შემდეგი განახლება. T0-5 წუთი: L1 იღებს, განსაზღვრავს IC- ს, იწყებს runbook- ს. T5-10 წუთი: დარეკეთ პროფილის L2 + კომკავშირის ოფიცერი. T10-15 წთ: Duty Manager/პროდუქტი, საჭიროების შემთხვევაში, იურიდიული/შესაბამისობა. გარე: PSP/Game provider - რეგლამენტის შესაბამისად (SLA არხი, ტიკეტი, ზარი). 6) კომუნიკაციები და სტატუსის გვერდი შიდა აპდეიტები ყოველ 10-15 წუთში SEV-1/2 (არხი # ომის ოთახი, შეტყობინებების შაბლონი). სტატუსის გვერდი: ბაზრებზე დაზარალებული ამჟამინდელი სტატუსი, დროებითი ზომები, შემდეგი განახლება X წუთის შემდეგ. Post-incident note saport/affiliat/პარტნიორებისთვის: რა იყო, როგორც კომპენსაცია. შაბლონები წინასწარ: მოკლედ, „შიდა სამზარეულოს“ გარეშე, დანაშაულის გარეშე. 7) გარე დამოკიდებულებასთან მუშაობა (PSP/თამაშები/CDN) კონტაქტების კატალოგი 24 × 7: PSP A/B, თამაშების პროვაიდერები, CDN/WAF, ღრუბელი. SLA მონიტორინგი: სინთეტიკა დეპოზიტებზე/თამაშების გაშვებაზე, თიკეტების ავტომატური გამომწვევი. Failover პოლიტიკა: მარშრუტი PSP-B- ზე 'success <99% 10 წუთის განმავლობაში ", თამაშის პროვაიდერის შეცვლა' TTFS> 800ms '- ში. Inbox-webhuks: HMAC ხელმოწერა, imempotence, re-play მიმწოდებლის დეგრადაციის შემდეგ. 8) GameDay და ვარჯიში ყოველკვირეული tabletop სწავლებები (30-45 წუთი): გრაფიკის კითხვა, გადაწყვეტილების მიღება. ყოველთვიური ტექნიკური DR დისკები (60-90 წთ): PSP უკმარისობა, პროვაიდერის ლაგი, BD/WS კლასტერის დაცემა. KPI სავარჯიშოები: მიზეზის ამოცნობის დრო, კომუნიკაციების ხარისხი, ფიჩეფლაგების შესახებ გადაწყვეტილებების სისწორე. 9) ჰენდოვერი და დოკუმენტაცია 10) ჯანმრთელობის დაცვა და სტაბილურობა წესი 8/8/8: სამუშაო/ოცნება/პირადი. ღამის ცვლა - შვებულება. ბადი სისტემა დამწყებთათვის, shadow მოვალეობა 2-3 კვირის განმავლობაში. ფსიქოლოგიური უსაფრთხოება: „blameless“ რეტრო, მხარდაჭერა მძიმე ინციდენტებში. დატვირთვის აუდიტი: ღამით 2 „გაღვიძება“ საშუალოდ ინჟინერზე - მიზანი; ზემოთ - ალერტინგის/არქიტექტურის დამუშავება. 11) ოპერატიული ეფექტურობის მეტრიკა MTTD/MTTR დომენებისთვის (ლოგინი/დეპოზიტი/WS/თამაშები). ალტერნატივა:% ხმაურიანი/დახურული მოქმედებების გარეშე, ალერტების/შეცვლის საშუალო რაოდენობა. განთავისუფლების შედეგად გამოწვეული ინციდენტების%; mean time between failures. Toil: განმეორებითი ხელით დავალებების წილი - ავტომატიზაციის გეგმა. Provider impact: SEV-2/1 წილი გარე პარტნიორების გამო (არგუმენტი SLA/მიგრაციისთვის). 12) „მოვალეობის შემსრულებლის“ ხელსაწყოები და პანელები „წითელი“ დაშბორდის SLO: ლოგინი/ანაბარი/განაკვეთები/თამაშების გაშვება, 5xx/429, p95, რეგიონები. მიზეზობრივი პანელები: BD/რიგები/ქეში, PSP/პროვაიდერები, CDN/WAF. On-call დისპეტჩერი: აქტიური ინციდენტები, apdate ტაიმერები, ერთჯერადი ბმულები runbook 'და ficeflages. სამოქმედო ჟურნალი (Timeline) - ვინ გააკეთა რა, როდესაც, SLO- ს მითითებით. 13) ტიპიური სცენარები და სწრაფი გადაწყვეტილებები მოქმედებები: კანარის მარშრუტი - PSP-B 50%; აამაღლეთ ვებჰუკების ტაიმუტი; ჩართეთ JS გამოწვევა WAF- ში ბოტებიდან. კომსი: Degradation DE deposits via PSP-A სტატუსის გვერდი. გამოსავალი: success - 99% 15 წუთი, Retrais ხაზი  B. Rost p95 WS ლაივ თამაშებში APAC მოქმედებები: ჩვენ ვზრდით WS კარიბჭეების რეპლიკებს, მათ შორის warm-pul nod- ს; მაუწყებლობის შეტყობინებები; პროვაიდერი - RTT თიკეტი. გამოსავალი: p95 WS RTT - 120 ms 20 წთ C. თამაშის პროვაიდერი (TTFS> 1. 2 ს) მოქმედებები: გადაიტანეთ ლობი ალტერნატიულ მაგიდებზე/სტუდიებში, ჩართეთ მეტამონაცემების კეში; სტატუსის განახლება. გამოსავალი: TTFS <800 ms, საჩივრები. 14) მზადყოფნის სია 24/7 დამტკიცებულია როტაცია და მოვალეობა, „მეორე ნომერი“ თითოეულ ცვლაში. 15) პოსტმელესის შაბლონი 1. მოკლედ: რა მოხდა, როდის, რა SEV, გავლენა და მასშტაბები. 2. Timline: დეტალი - ესკალაცია, მოქმედება - სტაბილიზაცია. 3. ფესვის მიზეზები: ეს/პროცესები/ხალხი/მომწოდებლები (5 რატომ). 4. რა მუშაობდა/რა არა: ალერტები, რანბუკები, კომუნიკაციები. 5. Action items: ტექნიკური, პროცესორი, პარტნიორი - პასუხისმგებელი და ვადები. 6. პრევენცია: ტესტები/მონიტორინგი/სავარჯიშოები, SLO/ალერტების ცვლილებები. კაზინოში წარმატებული 24/7 ოპერაციები არის SLO დისციპლინა, სწორად შექმნილი ალარმინგი ხმაურის გარეშე, მკაფიო რუნბოუ "და ესკალაცია, რეგულარული წვრთნები და ფრთხილად დამოკიდებულება ონკანის ხალხისადმი. დააკავშირეთ SLO პანელები სწრაფი ბერკეტებით (ficheflages, PSP/პროვაიდერების გადართვა, მძიმე დარტყმების დეგრადაცია), შეინარჩუნეთ კომუნიკაციები მოთამაშეებთან და პარტნიორებთან, გაზომეთ ეფექტურობა (MTTD/MTR/ალერტის კვალი) - და თქვენი პლატფორმა იქნება სტაბილური საათის განმავლობაში, და გუნდი - პროდუქტიული და სტაბილური.ესკალაციის კიბე
A. დეპოზიტები DE- ში ეცემა PSP-A- ში
რეზიუმე
