Як AI прогнозує конверсію лідів
Прогноз конверсії лідів відповідає на два питання: хто з найбільшою ймовірністю сконвертується і що робити з цим прогнозом (ставка, пріоритет, маршрут обробки). Ключ - не «алгоритм заради алгоритму», а чисті події, коректна атрибуція та операційні правила: як ви використовуєте швидкий - в медіабаїнгу, антифроді, скорингу заявок або CRM.
1) База даних і події (мінімум)
Цілі (label): бінарна'y ∈ {0,1}'- чи відбулася цільова конверсія в горизонті T (наприклад,'FTD в 14 днів','покупка в 7 днів','demo→platnyy в 30 днів').
Сирі джерела:- Маркетинг: UTM/канал/креатив/майданчик, час кліка/показу.
- Поведінка: перегляди сторінок/екранів, глибина, швидкість, події воронки.
- Рег/анкета: поля форми, КУС/верафікація (якщо застосовується), лаги між кроками.
- Платежі/продукт: статуси, суми, методи оплати (без PII в URL).
- Техніка: пристрій/OS/браузер, мережа/IP/ASN, затримки, помилки.
Тимчасові правила: всі мітки - UTC; для навчання вважаємо фічі тільки з минулого щодо мітки події (ніякого лікіджа).
2) Фічі (що реально допомагає)
RFM-сурогати до конверсії:- Recency (час від кліка/рег до «зараз»), Frequency (події/сесії), Monetary proxy (глибина або цінність мікро-подій).
- Канал/креатив: `source/medium/campaign/content/term`, `placement`, `creative_id`.
- ГЕО і локаль: країна/валюта/мова (категоріальні з таргет-кодуванням).
- Девайс/техніка: 'device/os/browser', швидкість, помилки завантаження, видимість форми.
- Лаги воронки: `time_to_reg`, `time_to_verify`, `time_to_payment_init`.
- Якість ліда: повнота анкети, збіги geo↔platyozh, поведінкові аномалії.
- Антифрод-сигнали: IP/ASN-скоринг, velocity, лялька/сервер-сайд маркери.
- Сезон/час: день тижня, година, кампанія/промо-періоди.
3) Алгоритми і коли їх вибирати
Логістична регресія - швидко, інтерпретовано, відмінно як бейзлайн і для прод-правил (монтонічні обмеження).
Градієнтний бустинг (XGBoost/LightGBM/CatBoost) - стандарт де-факто: працює з табличними даними, категоріальними і дисбалансом.
Нейромережі/TabNet - виправдані при дуже великих і різноманітних даних (комбінація таблички + тексту/зображень).
Упліфт-моделі - якщо хочемо прогнозувати приріст конверсії від впливу (кампанії/бонусу), а не саму конверсію.
Дисбаланс класів: використовуйте'class _ weight','focal loss'або'AUC-PR'як основну метрику; не «роздмухуйте» мінорний клас без потреби.
4) Валідація: тільки за часом
Розділяйте train/valid/test за часом (rolling/forward split), інакше «підгляньте майбутнє». Для онлайну - A/B або geo-holdout: частина трафіку працює за правилами моделі, частина - за бейзлайном.
5) Метрики якості (і навіщо вони)
AUC-ROC - загальний ранжируючий потенціал.
AUC-PR - критичний при дисбалансі.
LogLoss/Brier - штрафує за погане калібрування ймовірності.
Calibration (Reliability curve, ECE) - ймовірність 0. 3 повинна означати «конверсія в ~ 30% випадків».
Lift/KS/Top-bucket hit rate - приріст в топ-N% відранжованих лідів (показує бізнес-цінність).
Decision-metrics: Precision @k, Recall @k, Cost-aware gain (див. нижче).
6) Калібрування ймовірностей
Більшість бустингів «завищують/занижують» ймовірності. Використовуйте Platt scaling (логістична регресія над логітами) або Isotonic regression на валідації. Перевіряйте калібрування в сегментах (канал/гео/девайс) - зрушення зустрічаються часто.
7) Як перетворити швидкість в гроші (decisioning)
7. 1. Вартісна функція
Нехай'p (x)'- ймовірність конверсії,'V'- очікувана цінність (NGR/LTV) конверсії,'C'- вартість контакту/ставки/обробки.
Очікувана маржа: `EM(x) = p(x)·V − C`.
Показуємо рекламу/піднімаємо ставку/відправляємо лід в пріоритет тільки якщо'EM (x)> 0'. Поріг'p = C/V'.
7. 2. Три рівні застосування
Медіабідинг: 'bid ∝ p (x) × E [V]'при заданому цільовому Payback/ROAS.
Скоринг заявок (call-центр/CRM): пріоритезуємо черги по'p (x)'і'EM (x)'; «дешеві» ліди з високим'p'→ авто-обробка, «дорогі» з низьким'p'→ відкласти/виключити.
Персоналізація: тригери/бонуси тільки там, де очікуваний приріст позитивний (упліфт, а не «стимулюємо тих, хто і так купив би»).
8) Економічна оцінка моделі
Змоделюйте profit curve: сортуємо лідів по'p (x)', проходимося порогом зверху вниз і вважаємо'прибуток = Σ (p· V − C)'до k-го відсотка вибірки. Поріг беремо на максимумі кривої. Додайте витрати на контакт (менеджер/колл), стелі частоти і комплаєнс-обмеження (вік/GEO/згоди).
9) Боротьба з лікіджем і зміщеннями
Лікідж: виключайте фічі, що виникають після таргетної точки або «підказують» результат (наприклад, факт KYC, якщо мета - пройти KYC).
Зміщення каналів: різні GEO/джерела → різні базові конверсії. Використовуйте стратифікацію/перехресну валідацію за сегментами + калібрування.
Дрейф даних: моніторьте PSI/частку категорій, weekly AUC/LogLoss, частку «out-of-range» фіч.
10) Інтерпретація та довіра
SHAP/feature importance - покажіть топ-фактори на рівні датасета і конкретного ліда.
Монтонічність - для «здорових» фіч (наприклад, чим більше engagement, тим вище ймовірність) можна закріпити монотонічні обмеження.
Decision log - журнал «чому лід потрапив у пріоритет/виняток».
11) MLOps та експлуатація
Пайплайн: sbor→ochistka→fichi→obucheniye→kalibrovka→deploy (API/скрипт) →monitoring.
Онлайн-метрики: p95 latency скорингу, аптайм,% помилок, частка необроблених лідів.
Моніторинг якості: AUC/PR, калібрування, drift, бізнес-метрики (ROI/Payback по скор-бакетам).
Ротація моделі: розклад (наприклад, щомісяця) + алерт при деградації.
12) Приклади правил (псевдо)
Пріоритизація колл-центру:- `p ≥ 0. 6'→ дзвінок протягом 5 хвилин, досвідчений агент.
- `0. 3 ≤ p < 0. 6'→ авто-комунікація + повторний дзвінок через 2 години.
- `p < 0. 3'і'C _ contact'високий → діджитал-прогрів, без дзвінка.
- 'bid = base_bid × (p/ p_target)'з обмеженнями'min/max bid', dayparting і капами.
13) Експерименти і доказ користі
A/B за лідами: вимірюйте не тільки конверсію, але і прибуток/лід, час обробки, вартість ліда.
Geo-split: якщо кол-центр обмежений, експериментуйте на географічних кластерах.
Ковзне вікно: фіксуйте горизонт метрики (наприклад, D14) і чекайте заповнення, не підглядаючи завчасно.
14) Комплаєнс, приватність та етика
Consent/Privacy: ніякої PII в UTM/URL, призначені для користувача згоди враховуються в таргетингу.
Fairness: не використовуйте чутливі ознаки; робіть аудит сегментів на «перекіс».
Responsible Marketing: коректні дисклеймери, вікові/гео-правила, ліміти частоти комунікацій.
15) Часті помилки
1. Оптимізація по кліках/ЕРС замість конверсії і прибутку.
2. Неправильний split (випадковий замість тимчасового) → завищений оффлайн-скор.
3. Без калібрування → невірні пороги і погані рішення.
4. Лікідж у фічах → «магічно» високий AUC, нульовий онлайн-ефект.
5. Немає контролю витрат (C_contact, cap) - йде маржа.
6. Відсутність A/B - модель «на полиці», бізнес не вірить.
7. Неврахований дрейф - швидкий старіє, прибуток падає.
16) Чек-лист впровадження
- Визначено label і горизонт T, узгоджені бізнес-правила.
- Тимчасовий split і базовий бейзлайн (логрег).
- Фічі без лікіджа: RFM, лаги, канал/креатив, девайс/гео, техніка.
- Бустинг + калібрування (Platt/Isotonic), метрики AUC-PR/LogLoss/Calibration.
- Profit curve і поріг'p = C/V'.
- Інтеграція: колл-центр/CRM/бід-правила, guardrails і decision logs.
- A/B або geo-holdout, онлайнові метрики прибутку.
- Моніторинг дрейфу, регламент ротації.
17) 30-60-90 план
0-30 днів - Каркас і бейзлайн
Описати ціль і горизонт, зібрати фічі без лікіджа, зробити бейзлайн (логрег).
Налаштувати тимчасову валідацію, калібрування, profit curve і початковий поріг.
Підготувати інтеграцію (API/скрипт) і «сухий прогін» на історії.
31-60 днів - Модель в проді
Увімкнути бустинг (LightGBM/CatBoost), калібрування, SHAP-репорти.
Запустити A/B (або geo-holdout) на 20-30% трафіку.
Включити правила пріоритезації/бідінгу, guardrails, decision logs.
61-90 днів - Масштаб і стійкість
Розширити сегменти і канали, впровадити упліфт там, де є стимули/бонуси.
MLOps: моніторинг дрейфу, SLA скорингу, план ротації.
Щотижневі ретро: коригування порогів, оновлення фіч і словників.
AI-прогноз конверсії працює тоді, коли ви правильно формулюєте мету, будуєте тимчасову валідацію, калібруєте ймовірність і перетворюєте швидкість в грошове рішення: ставка, пріоритет, маршрут. Додайте MLOps, A/B-підтвердження і guardrails по комплаєнсу - і модель перестане бути «декорацією», а стане операційним інструментом, який прискорює воронку, знижує вартість продажу і збільшує прибуток.