Як AI прогнозує конверсію лідів

Прогноз конверсії лідів відповідає на два питання: хто з найбільшою ймовірністю сконвертується і що робити з цим прогнозом (ставка, пріоритет, маршрут обробки). Ключ - не «алгоритм заради алгоритму», а чисті події, коректна атрибуція та операційні правила: як ви використовуєте швидкий - в медіабаїнгу, антифроді, скорингу заявок або CRM.

1) База даних і події (мінімум)

Цілі (label): бінарна'y ∈ {0,1}'- чи відбулася цільова конверсія в горизонті T (наприклад,'FTD в 14 днів','покупка в 7 днів','demo→platnyy в 30 днів').

Сирі джерела:

Маркетинг: UTM/канал/креатив/майданчик, час кліка/показу.
Поведінка: перегляди сторінок/екранів, глибина, швидкість, події воронки.
Рег/анкета: поля форми, КУС/верафікація (якщо застосовується), лаги між кроками.
Платежі/продукт: статуси, суми, методи оплати (без PII в URL).
Техніка: пристрій/OS/браузер, мережа/IP/ASN, затримки, помилки.

Тимчасові правила: всі мітки - UTC; для навчання вважаємо фічі тільки з минулого щодо мітки події (ніякого лікіджа).

2) Фічі (що реально допомагає)

RFM-сурогати до конверсії:

Recency (час від кліка/рег до «зараз»), Frequency (події/сесії), Monetary proxy (глибина або цінність мікро-подій).
Канал/креатив: `source/medium/campaign/content/term`, `placement`, `creative_id`.
ГЕО і локаль: країна/валюта/мова (категоріальні з таргет-кодуванням).
Девайс/техніка: 'device/os/browser', швидкість, помилки завантаження, видимість форми.
Лаги воронки: `time_to_reg`, `time_to_verify`, `time_to_payment_init`.
Якість ліда: повнота анкети, збіги geo↔platyozh, поведінкові аномалії.
Антифрод-сигнали: IP/ASN-скоринг, velocity, лялька/сервер-сайд маркери.
Сезон/час: день тижня, година, кампанія/промо-періоди.

💡 Поля, які модель не повинна бачити: будь-які ознаки, що з'являються після таргетної мітки (наприклад, сума платежу при прогнозі факту платежу).

3) Алгоритми і коли їх вибирати

Логістична регресія - швидко, інтерпретовано, відмінно як бейзлайн і для прод-правил (монтонічні обмеження).

Градієнтний бустинг (XGBoost/LightGBM/CatBoost) - стандарт де-факто: працює з табличними даними, категоріальними і дисбалансом.

Нейромережі/TabNet - виправдані при дуже великих і різноманітних даних (комбінація таблички + тексту/зображень).

Упліфт-моделі - якщо хочемо прогнозувати приріст конверсії від впливу (кампанії/бонусу), а не саму конверсію.

Дисбаланс класів: використовуйте'class _ weight','focal loss'або'AUC-PR'як основну метрику; не «роздмухуйте» мінорний клас без потреби.

4) Валідація: тільки за часом

Розділяйте train/valid/test за часом (rolling/forward split), інакше «підгляньте майбутнє». Для онлайну - A/B або geo-holdout: частина трафіку працює за правилами моделі, частина - за бейзлайном.

5) Метрики якості (і навіщо вони)

AUC-ROC - загальний ранжируючий потенціал.

AUC-PR - критичний при дисбалансі.

LogLoss/Brier - штрафує за погане калібрування ймовірності.

Calibration (Reliability curve, ECE) - ймовірність 0. 3 повинна означати «конверсія в ~ 30% випадків».

Lift/KS/Top-bucket hit rate - приріст в топ-N% відранжованих лідів (показує бізнес-цінність).

Decision-metrics: Precision @k, Recall @k, Cost-aware gain (див. нижче).

6) Калібрування ймовірностей

Більшість бустингів «завищують/занижують» ймовірності. Використовуйте Platt scaling (логістична регресія над логітами) або Isotonic regression на валідації. Перевіряйте калібрування в сегментах (канал/гео/девайс) - зрушення зустрічаються часто.

7) Як перетворити швидкість в гроші (decisioning)

7. 1. Вартісна функція

Нехай'p (x)'- ймовірність конверсії,'V'- очікувана цінність (NGR/LTV) конверсії,'C'- вартість контакту/ставки/обробки.

Очікувана маржа: `EM(x) = p(x)·V − C`.

Показуємо рекламу/піднімаємо ставку/відправляємо лід в пріоритет тільки якщо'EM (x)> 0'. Поріг'p = C/V'.

7. 2. Три рівні застосування

Медіабідинг: 'bid ∝ p (x) × E [V]'при заданому цільовому Payback/ROAS.

Скоринг заявок (call-центр/CRM): пріоритезуємо черги по'p (x)'і'EM (x)'; «дешеві» ліди з високим'p'→ авто-обробка, «дорогі» з низьким'p'→ відкласти/виключити.

Персоналізація: тригери/бонуси тільки там, де очікуваний приріст позитивний (упліфт, а не «стимулюємо тих, хто і так купив би»).

8) Економічна оцінка моделі

Змоделюйте profit curve: сортуємо лідів по'p (x)', проходимося порогом зверху вниз і вважаємо'прибуток = Σ (p· V − C)'до k-го відсотка вибірки. Поріг беремо на максимумі кривої. Додайте витрати на контакт (менеджер/колл), стелі частоти і комплаєнс-обмеження (вік/GEO/згоди).

9) Боротьба з лікіджем і зміщеннями

Лікідж: виключайте фічі, що виникають після таргетної точки або «підказують» результат (наприклад, факт KYC, якщо мета - пройти KYC).

Зміщення каналів: різні GEO/джерела → різні базові конверсії. Використовуйте стратифікацію/перехресну валідацію за сегментами + калібрування.

Дрейф даних: моніторьте PSI/частку категорій, weekly AUC/LogLoss, частку «out-of-range» фіч.

10) Інтерпретація та довіра

SHAP/feature importance - покажіть топ-фактори на рівні датасета і конкретного ліда.

Монтонічність - для «здорових» фіч (наприклад, чим більше engagement, тим вище ймовірність) можна закріпити монотонічні обмеження.

Decision log - журнал «чому лід потрапив у пріоритет/виняток».

11) MLOps та експлуатація

Пайплайн: sbor→ochistka→fichi→obucheniye→kalibrovka→deploy (API/скрипт) →monitoring.

Онлайн-метрики: p95 latency скорингу, аптайм,% помилок, частка необроблених лідів.

Моніторинг якості: AUC/PR, калібрування, drift, бізнес-метрики (ROI/Payback по скор-бакетам).

Ротація моделі: розклад (наприклад, щомісяця) + алерт при деградації.

12) Приклади правил (псевдо)

Пріоритизація колл-центру:

`p ≥ 0. 6'→ дзвінок протягом 5 хвилин, досвідчений агент.
`0. 3 ≤ p < 0. 6'→ авто-комунікація + повторний дзвінок через 2 години.
`p < 0. 3'і'C _ contact'високий → діджитал-прогрів, без дзвінка.

Медіабідинг:

'bid = base_bid × (p/ p_target)'з обмеженнями'min/max bid', dayparting і капами.

13) Експерименти і доказ користі

A/B за лідами: вимірюйте не тільки конверсію, але і прибуток/лід, час обробки, вартість ліда.

Geo-split: якщо кол-центр обмежений, експериментуйте на географічних кластерах.

Ковзне вікно: фіксуйте горизонт метрики (наприклад, D14) і чекайте заповнення, не підглядаючи завчасно.

14) Комплаєнс, приватність та етика

Consent/Privacy: ніякої PII в UTM/URL, призначені для користувача згоди враховуються в таргетингу.

Fairness: не використовуйте чутливі ознаки; робіть аудит сегментів на «перекіс».

Responsible Marketing: коректні дисклеймери, вікові/гео-правила, ліміти частоти комунікацій.

15) Часті помилки

1. Оптимізація по кліках/ЕРС замість конверсії і прибутку.

2. Неправильний split (випадковий замість тимчасового) → завищений оффлайн-скор.

3. Без калібрування → невірні пороги і погані рішення.

4. Лікідж у фічах → «магічно» високий AUC, нульовий онлайн-ефект.

5. Немає контролю витрат (C_contact, cap) - йде маржа.

6. Відсутність A/B - модель «на полиці», бізнес не вірить.

7. Неврахований дрейф - швидкий старіє, прибуток падає.

16) Чек-лист впровадження

Визначено label і горизонт T, узгоджені бізнес-правила.
Тимчасовий split і базовий бейзлайн (логрег).
Фічі без лікіджа: RFM, лаги, канал/креатив, девайс/гео, техніка.
Бустинг + калібрування (Platt/Isotonic), метрики AUC-PR/LogLoss/Calibration.
Profit curve і поріг'p = C/V'.
Інтеграція: колл-центр/CRM/бід-правила, guardrails і decision logs.
A/B або geo-holdout, онлайнові метрики прибутку.
Моніторинг дрейфу, регламент ротації.

17) 30-60-90 план

0-30 днів - Каркас і бейзлайн

Описати ціль і горизонт, зібрати фічі без лікіджа, зробити бейзлайн (логрег).

Налаштувати тимчасову валідацію, калібрування, profit curve і початковий поріг.

Підготувати інтеграцію (API/скрипт) і «сухий прогін» на історії.

31-60 днів - Модель в проді

Увімкнути бустинг (LightGBM/CatBoost), калібрування, SHAP-репорти.

Запустити A/B (або geo-holdout) на 20-30% трафіку.

Включити правила пріоритезації/бідінгу, guardrails, decision logs.

61-90 днів - Масштаб і стійкість

Розширити сегменти і канали, впровадити упліфт там, де є стимули/бонуси.

MLOps: моніторинг дрейфу, SLA скорингу, план ротації.

Щотижневі ретро: коригування порогів, оновлення фіч і словників.

AI-прогноз конверсії працює тоді, коли ви правильно формулюєте мету, будуєте тимчасову валідацію, калібруєте ймовірність і перетворюєте швидкість в грошове рішення: ставка, пріоритет, маршрут. Додайте MLOps, A/B-підтвердження і guardrails по комплаєнсу - і модель перестане бути «декорацією», а стане операційним інструментом, який прискорює воронку, знижує вартість продажу і збільшує прибуток.