Como AI prevê conversão de lids
A previsão de conversão de lides responde a duas questões: quem tem mais probabilidade de se transformar e o que fazer com esta previsão (taxa, prioridade, rota de processamento). A chave não é «algoritmo por algoritmo», mas eventos limpos, atribuição correta e regras operacionais: como você usa screen - em mídia, antifraude, registro de candidatura ou CRM.
1) Banco de dados e eventos (mínimo)
Alvos (label): Binário 'Y '\0,1' - se a conversão de destino ocorreu no horizonte T (por exemplo, 'FTD em 14 dias', 'compra em 7 dias', ' em 30 dias').
Fontes cruas:- Marketing: UTM/canal/crediário/local, tempo de clique/exibição.
- Comportamento: visualização de páginas/telas, profundidade, velocidade, eventos de vórtice.
- Yeur/questionário: campos de formulário, CUS/Veraficação (se aplicável), lajes entre os passos.
- Pagamentos/produto: estatais, valores, métodos de pagamento (sem PII no URL).
- Técnica: dispositivo/OS/navegador, rede/IP/ASN, atrasos, erros.
Regras temporárias: todos os rótulos são UTC; para a formação, achamos que os fici são apenas do passado relativamente à marca do evento (nada de likija).
2) Fichas (o que realmente ajuda)
Substitutos RFM antes da conversão:- Recency (tempo de clique/ a «agora»), Frequency (eventos/sessões), Monetary proxy (profundidade ou valor de micro-eventos).
- Canal/criadouro: 'fonte/medium/campaign/conteúdo/term', 'place', 'creative _ id'.
- GEO e local: país/moeda/língua (categórico com codificação de meta).
- Device/técnica: 'device/os/browser', velocidade, erros de carregamento, visibilidade do formulário.
- Barras de vórtice: 'time _ to _ reg', 'time _ to _ verify', 'time _ to _ payment _ init'.
- Qualidade do lido: totalidade do questionário, coincidências de geo↔platyozh, anomalias comportamentais.
- Sinais antifrod IP/ASN-screening, velocity, bonecas/servidores-side marcadores.
- Temporada/hora: dia da semana, hora, campanha/período promocional.
3) Algoritmos e quando selecioná-los
Regressão logística - rápido, interpretado, excelente como o beasline e para as regras de prod (limitações de montagem).
O busting de gradiente (XGBoost/LightGBM/CatBoost) é um padrão de facto que funciona com dados de tabela, categóricos e desequilíbrios.
Neurosseti/TabNet - justificados com dados muito grandes e variados (combinação de placa + texto/imagem).
Modelos plift - se quisermos prever o aumento da conversão decorrente do impacto (campanha/bónus), em vez da conversão em si.
Desequilíbrio de classe: use 'class _ weight', 'focal loss' ou 'AUC-PR' como métrica básica; Não «inchem» a classe menor sem necessidade.
4) Validação: somente no tempo
Divida o trem/valid/teste de tempo (rolling/forward split) ou «veja o futuro». Para on-line - A/B ou geo-holdout: parte do tráfego funciona de acordo com as regras do modelo e parte com o Basline.
5) Métricas de qualidade (e porquê)
O AUC-ROC é um potencial de classificação geral.
O AUC-PR é crítico para desequilíbrios.
LogLoss/Brier - multa por calibrar mal a probabilidade.
Calibration (Reliability curve, ECE) - probabilidade 0. 3 deve significar «conversão em £30% das vezes».
Lift/KS/Top-bucket hit rate - aumento no top-N% de lidas amadurecidas (mostra valor de negócio).
Decision-metrics: Precision@k, Recall@k, Cost-aware gain (см. ниже).
6) Calibragem de probabilidades
A maioria dos bustings «superestimam/subestimam» as probabilidades. Use o Platt escaling (regressão logística sobre logits) ou regressão isotonic na validação. Verifique a calibragem em segmentos (canal/geo/device) - as mudanças são frequentes.
7) Como transformar o scor em dinheiro (decisioning)
7. 1. Função de valor
«p (x)» é a probabilidade de conversão, «V» é o valor esperado (NGR/LTV) de conversão, «C» é o custo de contato/aposta/processamento.
A margem prevista é 'EM (x) = p (x )\V - C'.
Exibindo anúncios/elevando a taxa/enviando a leitura apenas se 'EM (x)> 0'. Limiar 'p = C/V'.
7. 2. Três níveis de aplicação
Mídia: 'bid ∝ p (x) x E [V]' com o Payback/ROAS definido.
Lista de inscrições (call center/CRM): Priorizamos as filas por 'p (x)' e 'EM (x)'; lides «baratos» com alta 'p' → processamento automático, «caros» com baixo 'p' → adiar/excluir.
Personalização: desencadeadores/bónus apenas onde o aumento previsto é positivo (em vez de «incentivar quem já compraria»).
8) Avaliação econômica do modelo
Module o profit curve: classifiquemos os lids por 'p (x)', passamos de cima para baixo e achamos que 'lucro = (p V-C)' a k-% da amostra. O limiar está no limite máximo da curva. Adicione custos de contato (gerente/call), tetos de frequência e limitações de compliance (idade/GEO/consentimento).
9) Luta contra a Liquiya e os deslocamentos
Likij: exclua os fichas que surgirem após a meta ou «sugerem» o resultado (por exemplo, o facto KYC, se o objetivo for o KYC).
Deslocamentos de canais: diferentes GEO/fontes → diferentes conversões básicas. Use a modificação/validação cruzada por segmento + calibragem.
À deriva de dados: Monitora PSI/fração de categorias, semana AUC/LogLoss, participação «out-of-range» fic.
10) Interpretação e confiança
SHAP/função importance - Mostre os fatores top no nível de dataset e lida específico.
Montonicalidade - Para os «sãos», por exemplo, quanto maior o engagement, maior a probabilidade) é possível fixar limitações monotônicas.
O'Por que é que o leão caiu como prioridade/exclusão ".
11) MLOps e exploração
Pipeline: sbor→ochistka→fichi→obucheniye→kalibrovka→deploy (API/script) →monitoring.
Métricas online: p95 latency screening, farmácia,% de erros, proporção de lides não processados.
Monitoramento de qualidade: AUC/PR, calibragem, draft, metricas de negócios (ROY/Payback por scor-back).
Rotação do modelo: programação (por exemplo, mensal) + alert de degradação.
12) Exemplos de regras (pseudo)
Priorizar call center:- `p ≥ 0. 6 'ligou em 5 minutos, agente experiente.
- `0. 3 ≤ p < 0. 6 '→ Comunicação Automática + novo telefonema dentro de 2 horas.
- `p < 0. 3 'e' C _ contato 'alto → aquecimento de DJ, sem chamada.
- 'bid = base _ bid x (p/p _ target)' com limitações de 'min/max bid', dayparting e caps.
13) Experiências e prova de benefícios
A/B em lides: Mede não apenas a conversão, mas também o lucro/leque, o tempo de processamento, o custo do lido.
Geo-split: Se o call center é limitado, experimente em clusters geográficos.
Janela deslizante: fixe o horizonte da métrica (por exemplo, D14) e espere até preencher sem olhar antes.
14) Complaens, privacidade e ética
Consent/Private: Nada de PII em UTM/URL, e consentimentos do usuário são contabilizados no destino.
Fairness: não use sinais sensíveis; faça uma auditoria dos segmentos em «distorção».
Poupable Marketing: discricionários corretos, regras de idade/geo, limites de frequência de comunicações.
15) Erros frequentes
1. Otimização em cliques/ERS em vez de conversão e lucro.
2. Split errado (aleatório em vez de temporário) → screen off-line exagerado.
3. Sem calibragem, liminares errados e más decisões.
4. Likidge em fichas → «magicamente» alta AUC, zero efeito online.
5. Sem controle de custo (C _ contato, cap) - escapa a margem.
6. Falta de A/B - modelo «na prateleira», o negócio não acredita.
7. A deriva não contabilizada está a envelhecer, os lucros estão a cair.
16) Folha de cheque de implementação
- Definido label e horizonte T, as regras de negócios estão alinhadas.
- Split do tempo e baseado (logreg).
- Fici sem licídio: RFM, laje, canal/crediário, modelo/geo, técnica.
- Busting + calibragem (Platt/Isotonic), métricas AUC-PR/LogLoss/Calibration.
- Profit curve e limiar 'p = C/V'.
- Integração: call center/CRM/regras de bid, guardrails e definição logs.
- A/B ou geo-holdout, métricas de lucro online.
- Monitoramento da deriva, regulamento de rotação.
17) Plano 30-60-90
0-30 dias - Esqueleto e baisline
Descrever o objetivo e o horizonte, coletar fici sem likij, fazer um beesline (logreg).
Personalizar validação temporária, calibração, profit curve e limiar inicial.
Preparar integração (API/script) e «teste seco» na história.
31-60 dias - Modelo à venda
Incluir busting (LightGBM/CatBoost), calibração, repostos SHAP.
Iniciar A/B (ou geo-holdout) entre 20% e 30% do tráfego.
Incluir regras de priorização/biding, guardrails, definição logs.
61-90 dias - Escala e sustentabilidade
Expandir segmentos e canais, implementar oblift onde há incentivos/bônus.
MLOps: Monitoramento à deriva, screen SLA, plano de rotação.
Retro semanal: correção de liminares, atualização de fichas e dicionários.
A previsão de conversão AI funciona quando você traça o alvo corretamente, constrói uma validação temporária, calibrando a probabilidade e transformando o scor em uma solução monetária: taxa, prioridade, rota. Adicione MLOps, validação A/B e guichês por complacência - e o modelo deixará de ser «decoração», mas será uma ferramenta operacional que acelera o vórtice, reduz o custo de venda e aumenta os lucros.