AI-системи розпізнавання облич для KYC

Вступ: навіщо Face-KYC і де його межі

Перевірка особистості - базова вимога для фінансових та iGaming-сервісів. Face-KYC (розпізнавання обличчя в зв'язці з документами) прискорює онбординг, знижує фрод і робить перевірки відтворюваними. Але це персональні біометричні дані, тому архітектура повинна бути «privacy-first»: мінімізація, явні згоди, шифрування, обмеження термінів зберігання і прозорі пояснення рішень. Технічна мета - доведено встановити, що перед камерою жива людина, а не маска/відео, і що він збігається з фото в документі.

1) Дані та збір: що дійсно потрібно

Селфі-відеокадри (короткий кліп або серія кадрів) для лівнес і ембеддингу обличчя.

Фото/скани документа (паспорт/ID/вод. посвідчення) + зони MRZ/QR/чіп.

Метадані: тип пристрою, освітленість, фокус, експозиція, геометрія обличчя.

Логи згоди: явна згода на біометрію, політика зберігання/видалення, цілі обробки.

Принципи: мінімізація PII, шифрування «на дроті» і «на диску», розділення ключів і даних, TTL/ретеншн, доступ за найменшими правами (RBAC/ABAC).

2) Лівнес-детекція (PAD): як відрізнити живе обличчя від підробки

Мета PAD (presentation attack detection) - довести, що перед камерою живий суб'єкт, а не фото, відео на екрані, маска, 3D-макет або дипфейк.

Методи:

Пасивні (silent): аналіз мікрорухів, парallax, відблиск/рефлекси, текстура/moire, depth-підказки з однієї камери, фотометричні аномалії.
Активні (prompted): слідувати точкою поглядом, моргнути/посміхнутися, повернути голову, рахунок вголос (по можливості - без аудіобіометрії в «жорстких» юрисдикціях).
Мульти-сенсор (опціонально): TrueDepth/IR/ToF, «структуроване світло», стерео.
Анти-реентрантність: захист від прокрутки заздалегідь записаних реакцій (рандомізація інструкцій/таймінгів).

Сигнали атаки: паперове фото, екран смартфона/планшета (moire, відблиски), маски (альбедо/крайові артефакти), дипфейк-сліди (inconsistency в очах/зубах/межах).

Вихід: швидка зливнеса + причина (XAI-прапори), пороги підлаштовуються по юрисдикціях і ризику.

3) Зіставлення «селфі ↔ документ»: Точність без витоків

1. OCR/MRZ/чіп: витягти фото і поля документа; валідувати контрольні суми, дату/країну/тип.

2. Face detection & alignment: знайти обличчя на селфі і в документі, нормалізувати позу/освітленість.

3. Face embeddings: згорткові/трансформерні ембеддинги з навчанням на великих датасетах, але з fine-tune на доменних кадрах (мобайл, погане світло).

4. Порівняння: косинусна близькість/Euclidean + адаптивні пороги (облік якості кадру, пози, вікового зсуву).

5. Док-чекаут: валідація цілісності документа (голограми/ГПУ-патерни/мікропечать для high-risk потоків), пошук ознак підробки.

Результат: імовірнісний match-score з довірчим інтервалом і пояснюваними фічами якості.

4) Оркестратор рішень: «зел ./жовт ./красн».

Зелений: високі лівнес і match, документ валіден → авто-апрув, створення обліку/підвищення лімітів.

Жовтий: помірний ризик (низьке світло, частково приховане обличчя, спірний match) → м'яка до-верифікація: повтор з підказками, заміна пристрою/освітлення, запит другого документа.

Червоний: явний PAD/підроблений документ/розбіжність → стоп, ручна перевірка (HITL), фіксація інциденту.

Всі рішення пишуться в audit trail з версіями моделей, порогами і XAI-поясненнями.

5) Метрики якості: що вимірювати і показувати

Liveness: APCER/BPCER (помилки прийняття/відхилення атак), ACER, EER; окремо - для різних типів атак (print/replay/mask/deepfake).

Face match: FAR/FRR, ROC/DET-криві, TPR@FAR=10⁻⁴... 10⁻⁶ для high-risk потоків.

Якість кадрів: частка перезапросів, розподілу поз/освітленості/оклюзій.

Справедливість (fairness): розбивка помилок за статтю/віком/типами шкіри/пристроями та освітленням (balanced error rates).

Операційні: середній час онбордингу, частка авто-апрува, частка HITL, повторні спроби, NPS/KYC-CSAT.

6) Справедливість і доступність: Не тільки точність

Bias audits: регулярні звіти за сегментами і сценаріями зйомки; домішування недопредставлених груп при навчанні/валідації.

A11y-UX: великі підказки, жести, субтитри, голосові інструкції, «тихий» режим, підтримка слабких пристроїв і низького світла.

Edge-friendly: on-device препроцесинг (склеювання кадрів, детект якості) із завантаженням тільки необхідних фрагментів.

7) Privacy by Design та відповідність вимогам

Мінімізація та purpose limitation: використовувати біометрію тільки для KYC і тільки стільки, скільки потрібно; роздільне зберігання біометрії та анкетних даних.

Терміни зберігання: короткий TTL селфі/відео; довгостроково - тільки хеш-ембеддинги/лог рішення, якщо дозволено.

Права суб'єкта даних: доступ/видалення/оскарження рішення; зрозумілі канали запитів.

Трекінг моделей/версій: повне lineage, відтворюваність сценарію перевірки.

Юрисдикції: межі обробки (локальні регіони), фіч-прапори під різні регуляторні режими.

8) Антифрод-інтеграції: де Face-KYC дає найбільший ефект

Мультиаккаунтинг: граф зв'язків по пристроях/платежах + Face-dedup на ембеддингах (з жорсткими лімітами і правовою основою).

Account Takeover: повторна швидка Face-re-verify при зміні пристрою/гео/методу платежу.

Chargeback/bonus abuse: прив'язка KYC-рівнів до лімітів і авто-виплат; «зелені» - інстант-кешаут.

9) Атаки і захист: що загрожує і як оборонятися

Replay і print-атаки: детект moiré/спекулярів/flatness; Активні підказки.

Маски/3D-макети: аналіз альбедо/країв/спекулярів; глибина/IR за наявності.

Дипфейки: детект інкосистентностей (blink/gaze/teeth/skin), артефакти генерації, аудіо-ліп-сінк (якщо використовується звук).

Injection-атаки у відеопайплайн: довірені SDK, атестація середовища, підпис пакетів, захист від підміни камери (device binding).

Атаки на модель: моніторинг дрифту, adversarial-robustness перевірки, «канарські» вибірки.

10) MLOps/QA: дисципліна провадження

Версіонування датасетів/фіч/моделей/порогів; чіткі схеми даних.

Безперервне калібрування під пристрої/освітлення/регіони, тіньові викатки, rollback.

Надійність клієнта: офлайн-буфер, ретраї при слабкій мережі, детект «залиплих» кадрів.

Хаос-інжиніринг відео/світла/пропусків кадрів: система повинна деградувати м'яко, а не «падати».

Пісочниці для аудиту: реплей верифікацій з XAI-логами, стенди для регулятора.

11) UX «без болю»: як знизити відмови

Інтерактивний «трафік-світло» якості (світло/дистанція/рама обличчя).

Підказки перед зйомкою і суперкоротка активна перевірка (≤5 -7 секунд).

Прозорі статуси: «миттєво/потрібна повторна спроба/ручна перевірка» + причина зрозумілою мовою.

Поважний тон: без погроз і «погодуйте 72 години» - завжди з ETA.

12) Дорожня карта впровадження (8-12 тижнів → MVP; 4-6 міс. → зрілість)

Тижні 1-2: вимоги/юрисдикції, Privacy by Design, вибір SDK/сенсорів, макети UX, baseline-метрики.

Тижні 3-4: лівнес v1 (пасивний), face-match v1, OCR/MRZ, безпечний сторідж, логування версій.

Тижні 5-6: активні підказки, XAI-пояснення, інтеграція з антифрод/лімітами, A/B UX.

Тижні 7-8: fairness-аудит, дрифт-моніторинг, пісочниця для аудитора, плейбуки HITL.

Місяці 3-6: мультисенсор/IR (де допустимо), дипфейк-детект, edge-оптимізація, федеративне навчання, локальні регіони зберігання.

13) Часті помилки і як їх уникнути

Покладатися тільки на активні челленджі. Комбінуйте пасивні сигнали і quality-гейт.

Ігнорувати освітлення/пристрої. Тестуйте на дешевих камерах і низькому світлі; давайте підказки.

Немає fairness-контролів. Помилки по сегментах підривають правову стійкість і довіру.

Зберігати «сировину» занадто довго. Скорочуйте TTL, використовуйте ембеддинги/хеші.

Без XAI. Незрозумілі відмови → скарги/штрафи.

Моноліт без rollback. Будь-яке оновлення без А/В/тіней - ризик масових фейлів KYC.

AI-Face-KYC працює, коли він - система, а не «бібліотека розпізнавання»: лівнес + чесний матч осіб, прозорі рішення, сувора приватність і дисципліна MLOps. Такий контур одночасно прискорює онбординг чесних користувачів, знижує фрод і зберігає довіру регулятора і клієнтів. Ключові принципи - мінімізація даних, зрозумілість, справедливість і безпечна експлуатація протягом усього життєвого циклу.