Как AI прогнозирует конверсию лидов

Прогноз конверсии лидов отвечает на два вопроса: кто с наибольшей вероятностью сконвертируется и что делать с этим прогнозом (ставка, приоритет, маршрут обработки). Ключ — не «алгоритм ради алгоритма», а чистые события, корректная атрибуция и операционные правила: как вы используете скор — в медиабаинге, антифроде, скоринге заявок или CRM.

1) База данных и события (минимум)

Цели (label): бинарная `y ∈ {0,1}` — произошла ли целевая конверсия в горизонте T (например, `FTD в 14 дней`, `покупка в 7 дней`, `демо→платный в 30 дней`).

Сырые источники:

Маркетинг: UTM/канал/креатив/площадка, время клика/показа.
Поведение: просмотры страниц/экранов, глубина, скорость, события воронки.
Рег/анкета: поля формы, KYC/верафикация (если применимо), лаги между шагами.
Платежи/продукт: статусы, суммы, методы оплаты (без PII в URL).
Техника: устройство/OS/браузер, сеть/IP/ASN, задержки, ошибки.

Временные правила: все метки — UTC; для обучения считаем фичи только из прошлого относительно метки события (никакого ликиджа).

2) Фичи (что реально помогает)

RFM-суррогаты до конверсии:

Recency (время от клика/рег до «сейчас»), Frequency (события/сессии), Monetary proxy (глубина или ценность микро-событий).
Канал/креатив: `source/medium/campaign/content/term`, `placement`, `creative_id`.
ГЕО и локаль: страна/валюта/язык (категориальные с таргет-кодированием).
Девайс/техника: `device/os/browser`, скорость, ошибки загрузки, видимость формы.
Лаги воронки: `time_to_reg`, `time_to_verify`, `time_to_payment_init`.
Качество лида: полнота анкеты, совпадения гео↔платёж, поведенческие аномалии.
Антифрод-сигналы: IP/ASN-скоринг, velocity, куклес/сервер-сайд маркеры.
Сезон/время: день недели, час, кампания/промо-периоды.

💡 Поля, которые модель не должна видеть: любые признаки, появляющиеся после таргетной метки (например, сумма платежа при прогнозе факта платежа).

3) Алгоритмы и когда их выбирать

Логистическая регрессия — быстро, интерпретируемо, отлично как бэйзлайн и для прод-правил (монтоничные ограничения).

Градиентный бустинг (XGBoost/LightGBM/CatBoost) — стандарт де-факто: работает с табличными данными, категориальными и дисбалансом.

Нейросети/TabNet — оправданы при очень больших и разнообразных данных (комбинация таблички+текста/изображений).

Уплифт-модели — если хотим прогнозировать прирост конверсии от воздействия (кампании/бонуса), а не саму конверсию.

Дисбаланс классов: используйте `class_weight`, `focal loss` или `AUC-PR` в качестве основной метрики; не «раздувайте» минорный класс без нужды.

4) Валидация: только по времени

Разделяйте train/valid/test по времени (rolling/forward split), иначе «подсмотрите будущее». Для онлайна — A/B или geo-holdout: часть трафика работает по правилам модели, часть — по бэйзлайну.

5) Метрики качества (и зачем они)

AUC-ROC — общий ранжирующий потенциал.

AUC-PR — критичен при дисбалансе.

LogLoss / Brier — штрафует за плохую калибровку вероятности.

Calibration (Reliability curve, ECE) — вероятность 0.3 должна значить «конверсия в ~30% случаев».

Lift/KS/Top-bucket hit rate — прирост в топ-N% отранжированных лидов (показывает бизнес-ценность).

Decision-metrics: Precision@k, Recall@k, Cost-aware gain (см. ниже).

6) Калибровка вероятностей

Большинство бустингов «завышают/занижают» вероятности. Используйте Platt scaling (логистическая регрессия над логитами) или Isotonic regression на валидации. Проверяйте калибровку в сегментах (канал/гео/девайс) — сдвиги встречаются часто.

7) Как превратить скор в деньги (decisioning)

7.1. Стоимостная функция

Пусть `p(x)` — вероятность конверсии, `V` — ожидаемая ценность (NGR/LTV) конверсии, `C` — стоимость контакта/ставки/обработки.

Ожидаемая маржа: `EM(x) = p(x)·V − C`.

Показываем рекламу/поднимаем ставку/отправляем лид в приоритет только если `EM(x) > 0`. Порог `p = C / V`.

7.2. Три уровня применения

Медиабидинг: `bid ∝ p(x) × E[V]` при заданном целевом Payback/ROAS.

Скоринг заявок (call-центр/CRM): приоритезируем очереди по `p(x)` и `EM(x)`; «дешёвые» лиды с высоким `p` → авто-обработка, «дорогие» с низким `p` → отложить/исключить.

Персонализация: триггеры/бонусы только там, где ожидаемый прирост положительный (уплифт, а не «стимулируем тех, кто и так купил бы»).

8) Экономическая оценка модели

Смоделируйте profit curve: сортируем лидов по `p(x)`, проходимся порогом сверху вниз и считаем `прибыль = Σ (p·V − C)` до k-го процента выборки. Порог берём на максимуме кривой. Добавьте затраты на контакт (менеджер/колл), потолки частоты и комплаенс-ограничения (возраст/GEO/согласия).

9) Борьба с ликиджем и смещениями

Ликидж: исключайте фичи, возникающие после таргетной точки или «подсказывающие» исход (например, факт KYC, если цель — пройти KYC).

Смещения каналов: разные GEO/источники → разные базовые конверсии. Используйте стратификацию/перекрёстную валидацию по сегментам + калибровку.

Дрейф данных: мониторьте PSI/долю категорий, weekly AUC/LogLoss, долю «out-of-range» фич.

10) Интерпретация и доверие

SHAP / feature importance — покажите топ-факторы на уровне датасета и конкретного лида.

Монтоничность — для «здравых» фич (например, чем больше engagement, тем выше вероятность) можно закрепить монотоничные ограничения.

Decision log — журнал «почему лид попал в приоритет/исключение».

11) MLOps и эксплуатация

Пайплайн: сбор→очистка→фичи→обучение→калибровка→деплой (API/скрипт)→мониторинг.

Онлайн-метрики: p95 latency скоринга, аптайм, % ошибок, доля необработанных лидов.

Мониторинг качества: AUC/PR, калибровка, drift, бизнесс-метрики (ROI/Payback по скор-бакетам).

Ротация модели: расписание (например, ежемесячно) + алерт при деградации.

12) Примеры правил (псевдо)

Приоритизация колл-центра:

`p ≥ 0.6` → звонок в течение 5 минут, опытный агент.
`0.3 ≤ p < 0.6` → авто-коммуникация + повторный звонок через 2 часа.
`p < 0.3` и `C_contact` высокий → диджитал-прогрев, без звонка.

Медиабидинг:

`bid = base_bid × (p / p_target)` с ограничениями `min/max bid`, dayparting и капами.

13) Эксперименты и доказательство пользы

A/B по лидам: измеряйте не только конверсию, но и прибыль/лид, время обработки, стоимость лида.

Geo-split: если колл-центр ограничен, экспериментируйте на географических кластерах.

Скользящее окно: фиксируйте горизонт метрики (например, D14) и ждите заполнения, не подглядывая раньше времени.

14) Комплаенс, приватность и этика

Consent/Privacy: никакой PII в UTM/URL, пользовательские согласия учитываются в таргетинге.

Fairness: не используйте чувствительные признаки; делайте аудит сегментов на «перекос».

Responsible Marketing: корректные дисклеймеры, возрастные/гео-правила, лимиты частоты коммуникаций.

15) Частые ошибки

1. Оптимизация по кликам/EPC вместо конверсии и прибыли.

2. Неправильный split (случайный вместо временного) → завышенный оффлайн-скор.

3. Без калибровки → неверные пороги и плохие решения.

4. Ликидж в фичах → «магически» высокий AUC, нулевой онлайн-эффект.

5. Нет контроля затрат (C_contact, cap) — уходит маржа.

6. Отсутствие A/B — модель «на полке», бизнес не верит.

7. Неучтённый дрейф — скор стареет, прибыль падает.

16) Чек-лист внедрения

Определён label и горизонт T, согласованы бизнес-правила.
Временной split и базовый бэйзлайн (логрег).
Фичи без ликиджа: RFM, лаги, канал/креатив, девайс/гео, техника.
Бустинг + калибровка (Platt/Isotonic), метрики AUC-PR/LogLoss/Calibration.
Profit curve и порог `p = C/V`.
Интеграция: колл-центр/CRM/бид-правила, guardrails и decision logs.
A/B или geo-holdout, онлайновые метрики прибыли.
Мониторинг дрейфа, регламент ротации.

17) 30-60-90 план

0–30 дней — Каркас и бэйзлайн

Описать цель и горизонт, собрать фичи без ликиджа, сделать бэйзлайн (логрег).

Настроить временную валидацию, калибровку, profit curve и начальный порог.

Подготовить интеграцию (API/скрипт) и «сухой прогон» на истории.

31–60 дней — Модель в проде

Включить бустинг (LightGBM/CatBoost), калибровку, SHAP-репорты.

Запустить A/B (или geo-holdout) на 20–30% трафика.

Включить правила приоритезации/бидинга, guardrails, decision logs.

61–90 дней — Масштаб и устойчивость

Расширить сегменты и каналы, внедрить уплифт там, где есть стимулы/бонусы.

MLOps: мониторинг дрейфа, SLA скоринга, план ротации.

Еженедельные ретро: корректировка порогов, обновление фич и словарей.

AI-прогноз конверсии работает тогда, когда вы правильно формулируете цель, строите временную валидацию, калибруете вероятность и превращаете скор в денежное решение: ставка, приоритет, маршрут. Добавьте MLOps, A/B-подтверждение и guardrails по комплаенсу — и модель перестанет быть «декорацией», а станет операционным инструментом, который ускоряет воронку, снижает стоимость продажи и увеличивает прибыль.