Как AI прогнозирует конверсию лидов
Прогноз конверсии лидов отвечает на два вопроса: кто с наибольшей вероятностью сконвертируется и что делать с этим прогнозом (ставка, приоритет, маршрут обработки). Ключ — не «алгоритм ради алгоритма», а чистые события, корректная атрибуция и операционные правила: как вы используете скор — в медиабаинге, антифроде, скоринге заявок или CRM.
1) База данных и события (минимум)
Цели (label): бинарная `y ∈ {0,1}` — произошла ли целевая конверсия в горизонте T (например, `FTD в 14 дней`, `покупка в 7 дней`, `демо→платный в 30 дней`).
Сырые источники:- Маркетинг: UTM/канал/креатив/площадка, время клика/показа.
- Поведение: просмотры страниц/экранов, глубина, скорость, события воронки.
- Рег/анкета: поля формы, KYC/верафикация (если применимо), лаги между шагами.
- Платежи/продукт: статусы, суммы, методы оплаты (без PII в URL).
- Техника: устройство/OS/браузер, сеть/IP/ASN, задержки, ошибки.
Временные правила: все метки — UTC; для обучения считаем фичи только из прошлого относительно метки события (никакого ликиджа).
2) Фичи (что реально помогает)
RFM-суррогаты до конверсии:- Recency (время от клика/рег до «сейчас»), Frequency (события/сессии), Monetary proxy (глубина или ценность микро-событий).
- Канал/креатив: `source/medium/campaign/content/term`, `placement`, `creative_id`.
- ГЕО и локаль: страна/валюта/язык (категориальные с таргет-кодированием).
- Девайс/техника: `device/os/browser`, скорость, ошибки загрузки, видимость формы.
- Лаги воронки: `time_to_reg`, `time_to_verify`, `time_to_payment_init`.
- Качество лида: полнота анкеты, совпадения гео↔платёж, поведенческие аномалии.
- Антифрод-сигналы: IP/ASN-скоринг, velocity, куклес/сервер-сайд маркеры.
- Сезон/время: день недели, час, кампания/промо-периоды.
3) Алгоритмы и когда их выбирать
Логистическая регрессия — быстро, интерпретируемо, отлично как бэйзлайн и для прод-правил (монтоничные ограничения).
Градиентный бустинг (XGBoost/LightGBM/CatBoost) — стандарт де-факто: работает с табличными данными, категориальными и дисбалансом.
Нейросети/TabNet — оправданы при очень больших и разнообразных данных (комбинация таблички+текста/изображений).
Уплифт-модели — если хотим прогнозировать прирост конверсии от воздействия (кампании/бонуса), а не саму конверсию.
Дисбаланс классов: используйте `class_weight`, `focal loss` или `AUC-PR` в качестве основной метрики; не «раздувайте» минорный класс без нужды.
4) Валидация: только по времени
Разделяйте train/valid/test по времени (rolling/forward split), иначе «подсмотрите будущее». Для онлайна — A/B или geo-holdout: часть трафика работает по правилам модели, часть — по бэйзлайну.
5) Метрики качества (и зачем они)
AUC-ROC — общий ранжирующий потенциал.
AUC-PR — критичен при дисбалансе.
LogLoss / Brier — штрафует за плохую калибровку вероятности.
Calibration (Reliability curve, ECE) — вероятность 0.3 должна значить «конверсия в ~30% случаев».
Lift/KS/Top-bucket hit rate — прирост в топ-N% отранжированных лидов (показывает бизнес-ценность).
Decision-metrics: Precision@k, Recall@k, Cost-aware gain (см. ниже).
6) Калибровка вероятностей
Большинство бустингов «завышают/занижают» вероятности. Используйте Platt scaling (логистическая регрессия над логитами) или Isotonic regression на валидации. Проверяйте калибровку в сегментах (канал/гео/девайс) — сдвиги встречаются часто.
7) Как превратить скор в деньги (decisioning)
7.1. Стоимостная функция
Пусть `p(x)` — вероятность конверсии, `V` — ожидаемая ценность (NGR/LTV) конверсии, `C` — стоимость контакта/ставки/обработки.
Ожидаемая маржа: `EM(x) = p(x)·V − C`.
Показываем рекламу/поднимаем ставку/отправляем лид в приоритет только если `EM(x) > 0`. Порог `p = C / V`.
7.2. Три уровня применения
Медиабидинг: `bid ∝ p(x) × E[V]` при заданном целевом Payback/ROAS.
Скоринг заявок (call-центр/CRM): приоритезируем очереди по `p(x)` и `EM(x)`; «дешёвые» лиды с высоким `p` → авто-обработка, «дорогие» с низким `p` → отложить/исключить.
Персонализация: триггеры/бонусы только там, где ожидаемый прирост положительный (уплифт, а не «стимулируем тех, кто и так купил бы»).
8) Экономическая оценка модели
Смоделируйте profit curve: сортируем лидов по `p(x)`, проходимся порогом сверху вниз и считаем `прибыль = Σ (p·V − C)` до k-го процента выборки. Порог берём на максимуме кривой. Добавьте затраты на контакт (менеджер/колл), потолки частоты и комплаенс-ограничения (возраст/GEO/согласия).
9) Борьба с ликиджем и смещениями
Ликидж: исключайте фичи, возникающие после таргетной точки или «подсказывающие» исход (например, факт KYC, если цель — пройти KYC).
Смещения каналов: разные GEO/источники → разные базовые конверсии. Используйте стратификацию/перекрёстную валидацию по сегментам + калибровку.
Дрейф данных: мониторьте PSI/долю категорий, weekly AUC/LogLoss, долю «out-of-range» фич.
10) Интерпретация и доверие
SHAP / feature importance — покажите топ-факторы на уровне датасета и конкретного лида.
Монтоничность — для «здравых» фич (например, чем больше engagement, тем выше вероятность) можно закрепить монотоничные ограничения.
Decision log — журнал «почему лид попал в приоритет/исключение».
11) MLOps и эксплуатация
Пайплайн: сбор→очистка→фичи→обучение→калибровка→деплой (API/скрипт)→мониторинг.
Онлайн-метрики: p95 latency скоринга, аптайм, % ошибок, доля необработанных лидов.
Мониторинг качества: AUC/PR, калибровка, drift, бизнесс-метрики (ROI/Payback по скор-бакетам).
Ротация модели: расписание (например, ежемесячно) + алерт при деградации.
12) Примеры правил (псевдо)
Приоритизация колл-центра:- `p ≥ 0.6` → звонок в течение 5 минут, опытный агент.
- `0.3 ≤ p < 0.6` → авто-коммуникация + повторный звонок через 2 часа.
- `p < 0.3` и `C_contact` высокий → диджитал-прогрев, без звонка.
- `bid = base_bid × (p / p_target)` с ограничениями `min/max bid`, dayparting и капами.
13) Эксперименты и доказательство пользы
A/B по лидам: измеряйте не только конверсию, но и прибыль/лид, время обработки, стоимость лида.
Geo-split: если колл-центр ограничен, экспериментируйте на географических кластерах.
Скользящее окно: фиксируйте горизонт метрики (например, D14) и ждите заполнения, не подглядывая раньше времени.
14) Комплаенс, приватность и этика
Consent/Privacy: никакой PII в UTM/URL, пользовательские согласия учитываются в таргетинге.
Fairness: не используйте чувствительные признаки; делайте аудит сегментов на «перекос».
Responsible Marketing: корректные дисклеймеры, возрастные/гео-правила, лимиты частоты коммуникаций.
15) Частые ошибки
1. Оптимизация по кликам/EPC вместо конверсии и прибыли.
2. Неправильный split (случайный вместо временного) → завышенный оффлайн-скор.
3. Без калибровки → неверные пороги и плохие решения.
4. Ликидж в фичах → «магически» высокий AUC, нулевой онлайн-эффект.
5. Нет контроля затрат (C_contact, cap) — уходит маржа.
6. Отсутствие A/B — модель «на полке», бизнес не верит.
7. Неучтённый дрейф — скор стареет, прибыль падает.
16) Чек-лист внедрения
- Определён label и горизонт T, согласованы бизнес-правила.
- Временной split и базовый бэйзлайн (логрег).
- Фичи без ликиджа: RFM, лаги, канал/креатив, девайс/гео, техника.
- Бустинг + калибровка (Platt/Isotonic), метрики AUC-PR/LogLoss/Calibration.
- Profit curve и порог `p = C/V`.
- Интеграция: колл-центр/CRM/бид-правила, guardrails и decision logs.
- A/B или geo-holdout, онлайновые метрики прибыли.
- Мониторинг дрейфа, регламент ротации.
17) 30-60-90 план
0–30 дней — Каркас и бэйзлайн
Описать цель и горизонт, собрать фичи без ликиджа, сделать бэйзлайн (логрег).
Настроить временную валидацию, калибровку, profit curve и начальный порог.
Подготовить интеграцию (API/скрипт) и «сухой прогон» на истории.
31–60 дней — Модель в проде
Включить бустинг (LightGBM/CatBoost), калибровку, SHAP-репорты.
Запустить A/B (или geo-holdout) на 20–30% трафика.
Включить правила приоритезации/бидинга, guardrails, decision logs.
61–90 дней — Масштаб и устойчивость
Расширить сегменты и каналы, внедрить уплифт там, где есть стимулы/бонусы.
MLOps: мониторинг дрейфа, SLA скоринга, план ротации.
Еженедельные ретро: корректировка порогов, обновление фич и словарей.
AI-прогноз конверсии работает тогда, когда вы правильно формулируете цель, строите временную валидацию, калибруете вероятность и превращаете скор в денежное решение: ставка, приоритет, маршрут. Добавьте MLOps, A/B-подтверждение и guardrails по комплаенсу — и модель перестанет быть «декорацией», а станет операционным инструментом, который ускоряет воронку, снижает стоимость продажи и увеличивает прибыль.