Cómo la IA predice la conversión de leads

La previsión de conversión de leads responde a dos preguntas: quién tiene más probabilidades de convertirse y qué hacer con esta previsión (tasa, prioridad, ruta de tramitación). La clave no es el «algoritmo por el bien del algoritmo», sino los eventos puros, la atribución correcta y las reglas operativas: cómo se utiliza el score - en el uso de medios, antifroda, puntuación de solicitudes o CRM.

1) Base de datos y eventos (mínimo)

Objetivos (etiqueta): binario 'y ∈ {0,1}' - si la conversión objetivo se produjo en el horizonte T (por ejemplo, 'FTD a los 14 días', 'compra a los 7 días', 'demo→platnyy a los 30 días').

Fuentes crudas:

Marketing: UTM/canal/creativo/plataforma, tiempo de clic/exhibición.
Comportamiento: vistas de páginas/pantallas, profundidad, velocidad, eventos de embudo.
Reg/cuestionario: campos de formulario, CUS/validación (si corresponde), lagunas entre pasos.
Pagos/productos: estados, cantidades, métodos de pago (sin PII en URL).
Técnica: dispositivo/OS/navegador, red/IP/ASN, retrasos, errores.

Reglas de tiempo: todas las etiquetas son UTC; para el entrenamiento, contamos los fiches sólo del pasado con respecto a la marca del evento (sin likija).

2) Fichi (que ayuda realmente)

Sustitutos de RFM antes de la conversión:

Recency (tiempo de clic/rege a «ahora»), Frequency (eventos/sesiones), Monetary proxy (profundidad o valor de los micro eventos).
Canal/creativo: 'source/medium/campaign/content/term',' placement ',' creative _ id '.
GEO y local: país/moneda/idioma (categóricos con codificación de destino).
Device/técnica: 'device/os/browser', velocidad, errores de carga, visibilidad del formulario.
Las lagunas del embudo son: 'time _ to _ reg', 'time _ to _ verify', 'time _ to _ payment _ init'.
Calidad de la lida: exhaustividad del cuestionario, coincidencias de geo↔platyozh, anomalías conductuales.
Señales antifraude: marcadores IP/ASN, velocity, doll/side server.
Temporada/tiempo: día de la semana, hora, campaña/períodos promocionales.

💡 Campos que el modelo no debe ver: cualquier signo que aparezca después de la etiqueta de destino (por ejemplo, el importe del pago al predecir el hecho del pago).

3) Algoritmos y cuándo seleccionarlos

Regresión logística: rápida, interpretable, excelente como base y para reglas prod (restricciones montónicas).

El boosting degradado (XGBoost/LightGBM/CatBoost) es un estándar de facto: funciona con datos tabulares, categóricos y desequilibrios.

Redes neuronales/NatNet - se justifican con datos muy grandes y variados (combinación de tablilla + texto/imágenes).

Modelos de uplift - si queremos predecir el aumento de la conversión a partir del impacto (campaña/bonificación), no la conversión en sí.

Desequilibrio de clases: utilice 'class _ weight', 'focal loss' o' AUC-PR 'como métrica principal; no «inflar» la clase menor sin necesidad.

4) Validación: sólo en el tiempo

Dividir el tren/valid/test en el tiempo (rolling/forward split), de lo contrario «espiar el futuro». Para el online - A/B o geo-holdout: una parte del tráfico funciona según las reglas del modelo, una parte por la base.

5) Métricas de calidad (y por qué)

El AUC-ROC es un potencial de clasificación general.

AUC-PR - Crítico en desequilibrios.

LogLoss/Brier - penaliza la mala calibración de la probabilidad.

Calibración (Reliability curve, ECE) - probabilidad 0. 3 debe significar «conversión en ~ del 30% de los casos».

Lift/KS/Top-bucket hit rate - ganancia en el top N% de leads clasificados (muestra valor comercial).

Decision-metrics: Precision@k, Recall@k, Cost-aware gain (см. ниже).

6) Calibración de probabilidad

La mayoría de los bustings «inflan/subestiman» las probabilidades. Utilice Platt scaling (regresión logística sobre logits) o Isotonic regression en validación. Compruebe la calibración en segmentos (canal/geo/device): los desplazamientos son frecuentes.

7) Cómo convertir el score en dinero (decisioning)

7. 1. Función de costo

Deja que 'p (x)' sea la probabilidad de conversión, 'V' es el valor esperado (NGR/LTV) de conversión, 'C' es el costo de contacto/tasa/procesamiento.

Margen esperado: 'EM (x) = p (x)· V − C'.

Mostramos anuncios/subimos la apuesta/enviamos el lead a prioridad sólo si 'EM (x)> 0'. Umbral 'p = C/V'.

7. 2. Tres niveles de aplicación

Mediabiding: 'bid ∝ p (x) × E [V]' cuando el objetivo especificado es Payback/ROAS.

Puntuación de solicitudes (centro de llamadas/CRM): priorizamos las colas por 'p (x)' y 'EM (x)'; leads «baratos» con alto 'p' → mecanizado automático, 'caros' con bajo 'p' → posponer/eliminar.

Personalización: desencadenantes/bonificaciones sólo donde la ganancia esperada es positiva (uplift, no «estimulamos a los que ya comprarían»).

8) Evaluación económica del modelo

Modela profit curve: ordenamos los leads por 'p (x)', pasamos por un umbral de arriba a abajo y consideramos 'beneficio = Σ (p· V − C)' al k por ciento de la muestra. El umbral se toma en el máximo de la curva. Agregue los costos de contacto (gestor/call), los topes de frecuencia y los límites de cumplimiento (edad/GEO/consentimiento).

9) Lucha contra el likij y los desplazamientos

Likij: Excluye los fiches que surjan después del punto objetivo o que «sugieran» el resultado (por ejemplo, el hecho KYC si el objetivo es pasar KYC).

Desplazamientos de canal: diferentes GEO/fuentes → diferentes conversiones básicas. Utilice estratificación/validación cruzada por segmentos + calibración.

Deriva de datos: Monitor PSI/fracción de categorías, semanalmente AUC/LogLoss, fracción de «fuera de rango» fich.

10) Interpretación y confianza

SHAP/feature importance: muestra los principales factores a nivel de dataset y de lid específico.

Montonicidad - Para los fiches «sólidos» (por ejemplo, cuanto mayor sea el engagement, mayor será la probabilidad), las restricciones monotónicas pueden ser ancladas.

Decision log es una revista «por qué el lead ha sido priorizado/excluido».

11) MLOps y operación

Pipeline: sbor→ochistka→fichi→obucheniye→kalibrovka→deploy (API/script) →monitoring.

Métricas en línea: puntuación de latencia p95, aptime,% de errores, proporción de leads sin procesar.

Control de calidad: AUC/PR, calibración, drift, métricas de funcionamiento (ROI/Payback por score baquetas).

Rotación del modelo: horario (por ejemplo, mensual) + alerta en degradación.

12) Ejemplos de reglas (pseudo)

Priorización del centro de llamadas:

`p ≥ 0. 6 '→ llamada en 5 minutos, agente experimentado.
`0. 3 ≤ p < 0. 6 '→ auto-comunicación + llamada repetida en 2 horas.
`p < 0. 3 'y' C _ contact 'alto → digital-calentamiento, sin llamada.

Media Abiding:

'bid = base_bid × (p/ p_target)' con restricciones 'min/max bid', dayparting y caps.

13) Experimentación y prueba del beneficio

A/B por leads: mida no solo la conversión, sino también la ganancia/lead, el tiempo de procesamiento, el costo del lead.

Geo-split: si el centro de llamadas es limitado, experimente en clústeres geográficos.

Ventana deslizante: fija el horizonte de la métrica (por ejemplo, D14) y espera a que se llene sin mirar antes de tiempo.

14) Cumplimiento, privacidad y ética

Consent/Privacy: ningún PII en UTM/URL, el consentimiento del usuario se tiene en cuenta en la orientación.

Fairness: no utilice signos sensibles; realice una auditoría de segmentos en «distorsión».

Marketing responsable: disclamers correctos, reglas de edad/geo, límites de frecuencia de comunicación.

15) Errores frecuentes

1. Optimización por clics/ERS en lugar de conversión y beneficios.

2. Un split incorrecto (aleatorio en lugar de temporal) → un score offline inflado.

3. Sin calibración → umbrales incorrectos y malas decisiones.

4. Likij en fichas → «mágicamente» alto AUC, cero efecto en línea.

5. No hay control de costos (C_contact, cap) - el margen se va.

6. La falta de A/B es un modelo «en el estante», el negocio no lo cree.

7. La deriva indescriptible - la escoria está envejeciendo, las ganancias están cayendo.

16) Lista de verificación de implementación

Definida la etiqueta y el horizonte T, se acuerdan las reglas de negocio.
Split temporal y base de datos (logreg).
Fichi sin liquijo: RFM, lagi, canal/creativo, device/geo, técnica.
Boosting + calibración (Platt/Isotonic), métricas AUC-PR/LogLoss/Calibración.
Profit curve y umbral 'p = C/V'.
Integración: call center/CRM/reglas de bid, guardrails y registros de decisión.
A/B o geo-holdout, métricas de beneficios en línea.
Monitoreo de la deriva, reglamento de rotación.

17) Plan 30-60-90

0-30 días - Marco y base

Describir el objetivo y el horizonte, recoger los fiches sin likij, hacer un basline (logreg).

Configurar la validación temporal, la calibración, el profit curve y el umbral inicial.

Preparar la integración (API/script) y la «ejecución en seco» en las historias.

31-60 días - Modelo en venta

Habilitar busting (LightGBM/CatBoost), calibración, reportes SHAP.

Ejecutar A/B (o geo-holdout) en un 20-30% del tráfico.

Incluir reglas de priorización/biding, guardrails, registros de decisión.

61-90 días - Escala y sostenibilidad

Ampliar segmentos y canales, implementar un plift donde haya incentivos/bonificaciones.

MLOps: monitoreo de la deriva, scoring SLA, plan de rotación.

Retro semanal: ajuste de umbrales, actualización de fichas y diccionarios.

El pronóstico de conversión de AI funciona cuando se formula correctamente el objetivo, se construye una validación temporal, se calibra la probabilidad y se convierte el score en una solución monetaria: tasa, prioridad, ruta. Agregue MLOps, confirmación A/B y guardrails por cumplimiento - y el modelo dejará de ser una «decoración», y se convertirá en una herramienta operativa que acelera el embudo, reduce el costo de venta y aumenta las ganancias.