AI-системи розпізнавання облич для KYC
Вступ: навіщо Face-KYC і де його межі
Перевірка особистості - базова вимога для фінансових та iGaming-сервісів. Face-KYC (розпізнавання обличчя в зв'язці з документами) прискорює онбординг, знижує фрод і робить перевірки відтворюваними. Але це персональні біометричні дані, тому архітектура повинна бути «privacy-first»: мінімізація, явні згоди, шифрування, обмеження термінів зберігання і прозорі пояснення рішень. Технічна мета - доведено встановити, що перед камерою жива людина, а не маска/відео, і що він збігається з фото в документі.
1) Дані та збір: що дійсно потрібно
Селфі-відеокадри (короткий кліп або серія кадрів) для лівнес і ембеддингу обличчя.
Фото/скани документа (паспорт/ID/вод. посвідчення) + зони MRZ/QR/чіп.
Метадані: тип пристрою, освітленість, фокус, експозиція, геометрія обличчя.
Логи згоди: явна згода на біометрію, політика зберігання/видалення, цілі обробки.
Принципи: мінімізація PII, шифрування «на дроті» і «на диску», розділення ключів і даних, TTL/ретеншн, доступ за найменшими правами (RBAC/ABAC).
2) Лівнес-детекція (PAD): як відрізнити живе обличчя від підробки
Мета PAD (presentation attack detection) - довести, що перед камерою живий суб'єкт, а не фото, відео на екрані, маска, 3D-макет або дипфейк.
Методи:- Пасивні (silent): аналіз мікрорухів, парallax, відблиск/рефлекси, текстура/moire, depth-підказки з однієї камери, фотометричні аномалії.
- Активні (prompted): слідувати точкою поглядом, моргнути/посміхнутися, повернути голову, рахунок вголос (по можливості - без аудіобіометрії в «жорстких» юрисдикціях).
- Мульти-сенсор (опціонально): TrueDepth/IR/ToF, «структуроване світло», стерео.
- Анти-реентрантність: захист від прокрутки заздалегідь записаних реакцій (рандомізація інструкцій/таймінгів).
Сигнали атаки: паперове фото, екран смартфона/планшета (moire, відблиски), маски (альбедо/крайові артефакти), дипфейк-сліди (inconsistency в очах/зубах/межах).
Вихід: швидка зливнеса + причина (XAI-прапори), пороги підлаштовуються по юрисдикціях і ризику.
3) Зіставлення «селфі ↔ документ»: Точність без витоків
1. OCR/MRZ/чіп: витягти фото і поля документа; валідувати контрольні суми, дату/країну/тип.
2. Face detection & alignment: знайти обличчя на селфі і в документі, нормалізувати позу/освітленість.
3. Face embeddings: згорткові/трансформерні ембеддинги з навчанням на великих датасетах, але з fine-tune на доменних кадрах (мобайл, погане світло).
4. Порівняння: косинусна близькість/Euclidean + адаптивні пороги (облік якості кадру, пози, вікового зсуву).
5. Док-чекаут: валідація цілісності документа (голограми/ГПУ-патерни/мікропечать для high-risk потоків), пошук ознак підробки.
Результат: імовірнісний match-score з довірчим інтервалом і пояснюваними фічами якості.
4) Оркестратор рішень: «зел ./жовт ./красн».
Зелений: високі лівнес і match, документ валіден → авто-апрув, створення обліку/підвищення лімітів.
Жовтий: помірний ризик (низьке світло, частково приховане обличчя, спірний match) → м'яка до-верифікація: повтор з підказками, заміна пристрою/освітлення, запит другого документа.
Червоний: явний PAD/підроблений документ/розбіжність → стоп, ручна перевірка (HITL), фіксація інциденту.
Всі рішення пишуться в audit trail з версіями моделей, порогами і XAI-поясненнями.
5) Метрики якості: що вимірювати і показувати
Liveness: APCER/BPCER (помилки прийняття/відхилення атак), ACER, EER; окремо - для різних типів атак (print/replay/mask/deepfake).
Face match: FAR/FRR, ROC/DET-криві, TPR@FAR=10⁻⁴... 10⁻⁶ для high-risk потоків.
Якість кадрів: частка перезапросів, розподілу поз/освітленості/оклюзій.
Справедливість (fairness): розбивка помилок за статтю/віком/типами шкіри/пристроями та освітленням (balanced error rates).
Операційні: середній час онбордингу, частка авто-апрува, частка HITL, повторні спроби, NPS/KYC-CSAT.
6) Справедливість і доступність: Не тільки точність
Bias audits: регулярні звіти за сегментами і сценаріями зйомки; домішування недопредставлених груп при навчанні/валідації.
A11y-UX: великі підказки, жести, субтитри, голосові інструкції, «тихий» режим, підтримка слабких пристроїв і низького світла.
Edge-friendly: on-device препроцесинг (склеювання кадрів, детект якості) із завантаженням тільки необхідних фрагментів.
7) Privacy by Design та відповідність вимогам
Мінімізація та purpose limitation: використовувати біометрію тільки для KYC і тільки стільки, скільки потрібно; роздільне зберігання біометрії та анкетних даних.
Терміни зберігання: короткий TTL селфі/відео; довгостроково - тільки хеш-ембеддинги/лог рішення, якщо дозволено.
Права суб'єкта даних: доступ/видалення/оскарження рішення; зрозумілі канали запитів.
Трекінг моделей/версій: повне lineage, відтворюваність сценарію перевірки.
Юрисдикції: межі обробки (локальні регіони), фіч-прапори під різні регуляторні режими.
8) Антифрод-інтеграції: де Face-KYC дає найбільший ефект
Мультиаккаунтинг: граф зв'язків по пристроях/платежах + Face-dedup на ембеддингах (з жорсткими лімітами і правовою основою).
Account Takeover: повторна швидка Face-re-verify при зміні пристрою/гео/методу платежу.
Chargeback/bonus abuse: прив'язка KYC-рівнів до лімітів і авто-виплат; «зелені» - інстант-кешаут.
9) Атаки і захист: що загрожує і як оборонятися
Replay і print-атаки: детект moiré/спекулярів/flatness; Активні підказки.
Маски/3D-макети: аналіз альбедо/країв/спекулярів; глибина/IR за наявності.
Дипфейки: детект інкосистентностей (blink/gaze/teeth/skin), артефакти генерації, аудіо-ліп-сінк (якщо використовується звук).
Injection-атаки у відеопайплайн: довірені SDK, атестація середовища, підпис пакетів, захист від підміни камери (device binding).
Атаки на модель: моніторинг дрифту, adversarial-robustness перевірки, «канарські» вибірки.
10) MLOps/QA: дисципліна провадження
Версіонування датасетів/фіч/моделей/порогів; чіткі схеми даних.
Безперервне калібрування під пристрої/освітлення/регіони, тіньові викатки, rollback.
Надійність клієнта: офлайн-буфер, ретраї при слабкій мережі, детект «залиплих» кадрів.
Хаос-інжиніринг відео/світла/пропусків кадрів: система повинна деградувати м'яко, а не «падати».
Пісочниці для аудиту: реплей верифікацій з XAI-логами, стенди для регулятора.
11) UX «без болю»: як знизити відмови
Інтерактивний «трафік-світло» якості (світло/дистанція/рама обличчя).
Підказки перед зйомкою і суперкоротка активна перевірка (≤5 -7 секунд).
Прозорі статуси: «миттєво/потрібна повторна спроба/ручна перевірка» + причина зрозумілою мовою.
Поважний тон: без погроз і «погодуйте 72 години» - завжди з ETA.
12) Дорожня карта впровадження (8-12 тижнів → MVP; 4-6 міс. → зрілість)
Тижні 1-2: вимоги/юрисдикції, Privacy by Design, вибір SDK/сенсорів, макети UX, baseline-метрики.
Тижні 3-4: лівнес v1 (пасивний), face-match v1, OCR/MRZ, безпечний сторідж, логування версій.
Тижні 5-6: активні підказки, XAI-пояснення, інтеграція з антифрод/лімітами, A/B UX.
Тижні 7-8: fairness-аудит, дрифт-моніторинг, пісочниця для аудитора, плейбуки HITL.
Місяці 3-6: мультисенсор/IR (де допустимо), дипфейк-детект, edge-оптимізація, федеративне навчання, локальні регіони зберігання.
13) Часті помилки і як їх уникнути
Покладатися тільки на активні челленджі. Комбінуйте пасивні сигнали і quality-гейт.
Ігнорувати освітлення/пристрої. Тестуйте на дешевих камерах і низькому світлі; давайте підказки.
Немає fairness-контролів. Помилки по сегментах підривають правову стійкість і довіру.
Зберігати «сировину» занадто довго. Скорочуйте TTL, використовуйте ембеддинги/хеші.
Без XAI. Незрозумілі відмови → скарги/штрафи.
Моноліт без rollback. Будь-яке оновлення без А/В/тіней - ризик масових фейлів KYC.
AI-Face-KYC працює, коли він - система, а не «бібліотека розпізнавання»: лівнес + чесний матч осіб, прозорі рішення, сувора приватність і дисципліна MLOps. Такий контур одночасно прискорює онбординг чесних користувачів, знижує фрод і зберігає довіру регулятора і клієнтів. Ключові принципи - мінімізація даних, зрозумілість, справедливість і безпечна експлуатація протягом усього життєвого циклу.