Պրակտիկա 24/7-ում և on-call կազինոյում
1) Նպատակներ 24/7 վիրահատությունների
Բիզնես-SLO: Login 3699։ 9 տոկոսը, դեպոզիտ 2499։ 85 տոկոսը, տոկոսադրույքը/ցանցաթաղանթը 99։ 9 տոկոսը, p95 WS RTT-ը 120 մզ է։
Պատահական նպատակներ ՝ MTTD 351 րոպե (սինթետիկ), MTTR 3515-30 րոպե դրամական ֆլոուի համար։
Աջակցության որակը '<3 տոկոսը գնում է երկրորդ օրը առանց պատասխանի, CSAT sapports-ը 90 տոկոսն է։
2) On-call կազմակերպությունը 'մոդելներ և գրաֆիկներ
Մոդելներ
Follow-the-sun: 3 գեո թիմեր (Եվրոպա/Ամերիկա/APAC), նվազագույն գիշերային ֆուտբոլ։
Գիշերային տարհանումը տարածաշրջանում 'գիշերային հերթափոխի շաբաթը մեկ անգամ մեկ անգամ N շաբաթում (փոխհատուցում/հետադարձ)։
Express (cell-based) 'ապրանքային բջիջների (բրենդներ/շուկաներ) + ընդհանուր L1։
Դերերը հերթափոխում
L1 On-call (Incident Commander) - ընդունում է ալերտ, կարգավորում, պահպանում է կապը սապպորտի հետ։
L2 Հիբրիդային ինժեներները վճարումներ են, game-gateway/WS, BD/դրամապանակ, PPE պլատֆորմային։
Կոմս սպա 'կարգավիճակ-էջ, գործընկերներ/պրովայդերներ, ներքին ապդեյտներ։- Duty Express-ը բիզնես էսկալացիա է, գերակայություն, բացառություններ (VIP/կարգավորիչ)։
Հերթափոխի ձևանմուշներ (12 497 կամ 8 495 + հերթապահություն)
Փոփոխությունը 8/10/12 ժամ է։ Փոխանակ 15-30 րոպե «warm handover»։
Հետևեք 2 գիշեր անընդմեջ և ոչ ավելի, քան 7 on-call-օր 14-օրյա պատուհանում։
Յուրաքանչյուր փոփոխություն ունի Roster 'հերթապահ, պահեստային, զանգի մենեջեր, կոնտակտային L2։
3) Կոդավորման և SLA դասակարգումը
4) Ալերտինգը առանց աղմուկի
Սկզբունքները 'ախտանշաններ SLO-ալերտներ, որոնք պատճառում են ռեսուրսային տեխնոլոգիական կոնտեքստը։
Симптомы: `login_success_ratio↓`, `deposit_success_by_psp↓`, `ws_rtt_p95↑`, `game_launch_success↓`.
Причины: `db_conn_saturation↑`, `queue_lag↑`, `psp_timeout↑`, `provider_launch_latency↑`.
Պաշտպանությունը աղմուկից 'required consecutive viol.ru, auto-supress ստեղում, deduplication և խմբավորում։
Հերթական հավաքածու 'քննադատական' PagerDuty/Opsgenie; մնացածը Slack/փոստ է։- Ալերտի տեքստը ՝ «Ինչ/Որտեղ/Քանի/գործողություն»։ Օրինակ
5) Runbook 'և էսկալացիա
Մինի-excrunbook
1. Մանկություն 'հղումներ դաշնամուրի վրա (SLO, պատճառահետևանքային), թրեյզ, լոգներ։
2. Արագ ստուգումներ ՝ health PSA/պրովայդերներ, DR-տարածաշրջանը սինթետիկ, BD/kash կարգավիճակը։
3. Ժամանակավոր միջոցներ 'ֆիչի դրոշներ/kill-switch, rate-limits, PMS/պրովայդեր, ծանր ֆիչի քայքայումը։
4. Էսկալացիա 'ով է L2/L3, շփումները 24 247 պրովայդեր։
5. Կանաչ գոտու չափանիշները 'SLO նորմալ N րոպե, հերթը  6. Կոմս 'ձևանմուշներ, affected markets/brands, ETA/next contate։ T0-5 րոպե, L1 ընդունում է, որը կոչվում է IC, սկսում է runbook։ T5-10 րոպե 'անվանենք համապատասխան L2 + Կոմս սպա։ T10-15 րոպե ՝ Duty Express/ապրանք, անհրաժեշտության դեպքում իրավաբանական/կոմպլեքս։ Արտաքին ՝ PMS/Game provider - մոդուլով (SLA ալիքը, հյուսետը, զանգը)։ 6) Հաղորդակցություն և կարգավիճակ-էջ Ներքին ապդեյտները յուրաքանչյուր 10-15 րոպե SEV-1/2 համար (ալիք # war-room, հաղորդագրությունների ձևը)։ Կարգավիճակ-էջ 'ներկայիս կարգավիճակ, որոնք ազդում են շուկաների, ժամանակավոր միջոցների, հաջորդ ապդեյթ X-ի միջոցով։ 7) Արտաքին կախվածության հետ աշխատելը (PMS/խաղեր/CDN) Կոնտակտների կատալոգը 24 247: PMS A/B, խաղերի պրովայդերներ, CDN/WAF, ամպ։ SLA-2019 'սինթեզիկա ավանդների վրա/խաղերի գործարկումը, տիկետների ավտոմատ ձգումները։ Failover-քաղաքականությունը 'PMS-B երթուղին' «success <99% 10 րոպե», խաղերի պրովայդերի տեղափոխումը '«TTRK> 800ms»։ Inbox-Webhuks: HMAC ստորագրություն, գաղափարախոսություն, re-play հերթից պրովայդերի քայքայումից հետո։ 8) GameDay-ը և դասընթացները Շաբաթական tabletop-ուսուցումները (30-45 րոպե) 'գրաֆիկներ կարդալը, որոշումների ընդունումը։ Ամսական տեխնոլոգիական DR շարժիչները (60-90 րոպե) 'PSA-ի հրաժարվելը, պրովայդերի լագը, BD/www.WS-ի անկումը։ KPI ուսուցումները 'պատճառի ճանաչման ժամանակը, հաղորդակցությունների որակը, ֆիչոֆլագների ճիշտ որոշումները։ 9) Հենդովերը և 71-ը։ Warm handover chek (15-20 րոպե) 10) On-call առողջություն և կայունություն 8/8/8 կանոնը 'աշխատանք/քուն/անձնական։ Գիշերային հերթափոխերը։ Baddi-համակարգը նորեկների համար, shadow-հերթապահություն 2-3 շաբաթ։ 11) Վիրահատական արդյունավետության մետրերը Change failure rate: էքսպոզիցիաների% -ը, որոնք առաջացել են թողարկումներից։ mean time between failures. Toil: կրկնվող առաջադրանքների մասնաբաժինը բացատրում է ավտոմատացման պլանը։ Provider impact: SEV-2/1 մասնաբաժինը արտաքին գործընկերների պատճառով (SLA/2019)։ 12) Գործիքներ և վահանակներ «հերթապահ» «Կարմիր» dashbord SLO 'լոգինը/ավանդը/խաղի մեկնարկը, 5xx/429, p95, տարածաշրջանները։ 13) Տիպիկ սցենարներ և արագ լուծումներ Գործողությունները ՝ PMS-B 50 տոկոսը։ բարձրացնել webhuks թայմաուտը; Միացրեք JS-Chelenge-ը WAF-ում բոտերից։ Կոմս '«Degradation DE deposits via PSA-A» կարգավիճակը։ Ելքը 'success 2499 տոկոսը 15 րոպե, գետերի հերթը  B. P95 WS աճը APAC խաղերում Գործողությունները 'ավելացնում ենք WS-նավակների կրկնօրինակները, ներառյալ warm-pol nood; rate-limit լայնածավալ հաղորդագրություններ; պրովայդերը RTT-ի տիկետն է։ Ելքը 'p95 WS RTT 24120 Ms 20 ռուբլիներ C Lag խաղերի պրովայդեր (TTSA> 1։ 2 s) Գործողությունները 'լոբբին անցնել այլընտրանքային սեղաններին/ստուդիաներին, միացնել մետատվյալներին։ կարգավիճակը։ Ելքը 'TTSA <800 ms, բողոքներ։ 14) Չեկի պատրաստակամության ցուցակը 24/7-ի համար 15) Փոստի մորտեմա (blameless) 1. Հակիրճ 'ինչ պատահեց, երբ, ինչպիսին SEV-ն է, ազդեցությունը և մասշտաբը։ 2. Timline: Ռուսական գործողությունների էսկալացիայի մանկապարտեզը կայունացում է։ 3. Արմատային պատճառներ ՝ այդ/գործընթացներ/մարդիկ/մատակարարներ (5 Why)։ 4. Ի՞ նչն էր աշխատում/ինչ 'ալերտներ, ռումբեր, հաղորդակցություններ։ 5. Action items 'տեխնոլոգիական, պրոցեսային, գործընկերական' պատասխանատու և dedlines։ 6. Կանխարգելումը 'թեստեր/թեստեր/ուսուցումներ, SLO/ալերտների փոփոխություններ։ Կազինոյում հաջողակ 24/7 վիրահատությունները SLO-ի կարգապահությունն են, որը ճիշտ նախագծված է ալարմինգի առանց աղմուկի, հստակ runbook-ի և էսկալացիայի, ուսմունքների և խնամքի հետ կապված։ Միացրեք SLO վահանակները արագ լծակներով (ficheflages, PMS/պրովայդերների փոխանցում, ծանր ֆիգուրների քայքայումը), աջակցեք հաղորդակցությանը խաղացողների և գործընկերների հետ, չափեք արդյունավետությունը (MTTD/MTTR/altronquality) - և ձեր պլատֆորմը կլինի կայուն շուրջօրյա, թիմը։ արդյունավետ և կայուն է։Էսկալացիոն սանդուղք
Ա. Դեպոզիտները ընկնում են DE-ում PMS-A-ում
Ռեզյումե
