Como construir um sistema A/B de testes de banners
Um banner «bom» não faz o sistema. O sistema de testes A/B é uma linha de montagem: bref → produção de opções → controle de exibição → coleta de métricas corretas → estatísticas → solução → arquivo → zoom. Abaixo, um conjunto mínimo de processos e artefatos para que os testes sejam reprodutivos e rentáveis.
1) Metas e métricas: que otimizamos
Explore as métricas pré-click e post-click - senão você «enxerga» CTR com o preço do tráfego de lixo.
Pre-click:- Viewability (proporção de exibições visíveis).
- vCTR = cliques/exibições visíveis (métrica principal para criatividade).
- Frequency e Reach (para controlar «cansaço»).
- Placar-mix (locais/formatos).
- CTR landing (primeira ação), LPV/scroll, CVR evento-chave.
- Time to first action, rejeição, qualidade de lida/pedido.
- Down-funnel (se disponível): depósito/compra/repetição.
- Nada de promessas de «resultado garantido», respeito a Resource/Legal.
- CTA neutro («Ver condições», «Abrir demo»), discreters onde necessário.
2) Arquitetura de experiências: do que consiste o sistema
1. Regulamento de hipóteses (modelo): o problema → a ideia de → o efeito esperado (MDE) → métricas → segmentos → riscos.
2. Nayming e versionização de arquivos/códigos:
2025-10_campaignX_geoUA_format-300x250_offer-A_cta-B_visual-C_v02. webp
3. Tabela de roteamento de tráfego: playsment → grupo A/B → proporção de exibição → exclusão.
4. Схема событий (tracking plan): impressions, viewable impressions, clicks, pageview, cta_click, form_start, form_error, submit, purchase.
5. Armazém e camada de preparação: logs crus → normalização (de-dup, filtros anti-bot) → vitrines.
6. Dashboards, pré-click, post-click, relatório integral da experiência.
7. Arquivo de soluções: hipótese → período → tamanho da amostra → p-valor/intervalo de confiança → solução → descarga.
3) Design A/B: regras de causalidade «pura»
Alteramos 1 fator por vez (off ou visual ou CTA).
Randomização por usuário, não por exibição (cookie/uid), para que uma pessoa não veja as duas opções por sessão.
Rateio (por local/formato/dispositivo) se eles afetarem muito o vCTR.
Teste = semanas completas para cobrir sazonalidade diária.
Fixe o MDE (efeito mínimo de detecção) antes do início: por exemplo, deseje captar + 8% para o vCTR.
Pará condição: atingiram a capacidade estatística adequada e duração de ≥ N dias. Não é «olhar», não é muito cedo.
4) Estatísticas sem dor
Amostra e duração: quanto menor o vCTR/CR básico e menor o MDE, maior o tráfego e maior o tempo de teste.
Metrica para resolver: Criativos - mais frequentemente vCTR, mas a solução final é elevar para CR/CPA, se houver pós-clique.
Mostre os intervalos de confiança sempre no relatório; evite as conclusões de 1 a 2 dias.
Multiplicações: Se> 2 opções, use o plano de Bonferrony/FDR ou teste de parafuso.
Testes/paragens iniciais: aplique limites (como O'Brien-Fleming) se a ferramenta conseguir.
Bandits vs A/B: Os bandidos são adequados para a exploração automática do vencedor com um alvo estável; para conclusões alimentares, analistas criativos e arquivos - clássico A/B mais transparente.
5) Controle da qualidade do tráfego
Filtros anti-bot: velocidade suspeita alta, cliques sem viewability, user agente/IP anormal.
Segurança de marca: exclusões de locais/palavras-chave, lista de leitura negativa.
Geo/dispositivo: Teste nos segmentos onde você planeja escalar.
Frequency capping: Limite a frequência de exibição por usuário (por exemplo, 3-5/dia), ou o «cansaço» distorce o resultado.
6) Rotação e «cansaço» criativos
Limite de fadiga: queda de 30% a 40%, com viewabilidade estável e cobertura - sinal de rotação.
Calendário de rotações: verifique as tendências semanais; mantenha o pool de 6-12 variações (matriz off x visual x CTA).
Descomposição de resultados: armazene os sinais de fator (offer, visual, cta, cor, layout) para coletar as «receitas» dos vencedores com o tempo.
7) Processo end-to-end (regulamento de comando)
1. Planejamento (segunda-feira): comitê de hipóteses (marketing + design + analista). Tiramos 2-4 hipóteses por uma semana.
2. Produção (1-3 dias): pacotes de design para todos os formatos, folha de cheque QA (contraste CTA, peso, safe-zona, complacência).
3. Lançamento: distribuição de tráfego 50/50 (ou 33/33/33); fixação de segmentos, inclusão de logs.
4. Monitoramento: Verificação diária sanity (sem decisão): proporção de exibições, viewability, bandeiras de bot.
5. Análise (final de semana/de potência): relatório de intervalo, subseletivo de móbilo/descompasso, explicações.
6. Solução: o vencedor em funcionamento, o perdedor em arquivo; formamos a seguinte hipótese baseada em insights.
7. Arquivo: cartão de experiência + arquivos criativos + sql-consulta relatório + currículo.
8) Dados e dashboards: o que guardar e como olhar
Mini-modelo de vitrine (dia/criatividade/segmento):
date, campaign, geo, device, placement, format, creative_id, offer, visual, cta, variant,
impressions, viewable_impressions, clicks, vctr, lp_sessions, cta_clicks, form_start, submit, purchases, bounce_rate, avg_scroll, time_to_first_action
Dashboard:
- Pré-click: viewability, vCTR, frequency, abrangência, mapas de playsite.
- Post-click: CR a passos de vórtice, qualidade de lida/CRA.
- Experimentos: madeireira de espaçamento de confiança, tempo antes do efeito, «rosa de vento» dos segmentos.
9) QA e folha de cheque de lançamento
- Formatos: 300 x 250, 336 x 280, 300 x 600, 160 x 600, 728 x 90, 970 x 250; mobil 320 x 100/50, 1:1, 4:5, 16:9, 9:16
- Peso ≤ 150-200 KB (estático/HTML5), WebP/PNG, sem GIF «pesado»
- Contraste CTA (WCAG), zonas seguras (≥24 px da borda)
- Sem clickbate/promessas, discreters corretos
- Трекинг: viewable, click, lpview, cta_click, form_start, submit
- Randomização por usuário, uma proporção clara de exibições A/B
- Os filtros anti-bot estão incluídos e as exceções de playsite foram configuradas
10) Biblioteca de hipóteses: o que testar
Offer:- Condições de bónus transparentes vs Todas as condições de uma página
- «Demo sem registro» vs «Ver interface»
- Ver termos vs Saber detalhes
- «Abrir demo» vs «Experimentar agora»
- Cena/herói vs screen interface vs iconografia
- Fundo quente vs neutro; botão de contorno vs preenchimento
- Logo de cima a esquerda vs compacto; CTA direita vs abaixo
- Crachá de confiança do CTA vs sob o título
- Traçado fluido fade-in UTP vs pulso CTA (≤12 c, fase 2-3)
11) Regras decisórias
O limite de importância é p≤0. 05 e/ou intervalo de confiança inteiro> 0 na referência MDE.
O limite do bom senso é que, se houver ganhos de vCTR, e o CR/CPA não for roubado.
Vencedores segmentais: Se a diferença for significativa apenas no móbil/GEO, usemos a meta.
Ética: Não aceitamos ganhos com texto manipulador/clickbate.
12) Anti-pattern (que quebra o sistema)
Há muitos fatores no mesmo teste → não há conclusões.
Decisões de horário de 2 dias.
Misturar canais (diferentes públicos) em uma única experiência.
Falta de viewability → um vCTR morto.
Não há arquivo de experiências → repetição de erros e «bicicleta eterna».
A taxa de exibição não é levada em conta por «primeira atenção».
13) 30/60/90-plano de implementação
0-30 dias - MVP do sistema
Modelo de hipótese, naiming, folha de cheque QA.
Padrão de eventos e dashboard pré/post-click.
1-2 experimentos: off e CTA em formato chave (300 x 250/320 x 100).
Ativar viewability e filtros anti-bot.
31-60 dias - aprofundamento
Expandir para todos os formatos e top playsites; adicionar as opções HTML5.
Implementar regulamentos de rotação e liminares de fadiga.
Digite a stratação por dispositivo/local, os segmentos de vencedores.
61-90 dias - maturidade
Arquivo de experiências e base de faturamento (offer/visual/cta).
Entrevistador automático brife + layouts semiestandarte (sistema de design criativo).
Relatório mensal: REI testes,% dos vencedores, contribuição CR/CPA.
Piloto de bandidos para exploração de carros vencedores em segmentos estáveis.
14) Mini-modelos (pronto para o copipaço)
Modelo de hipótese
Problema: vCTR baixo em um móbilo em GEO
A ideia é substituir o visual com a cena pelo screen da interface + CTA «Abrir demo»
MDE: +8% к vCTR
Métricas: vCTR (principal), CR (auxiliar), CPA (controle)
Segmentos: mobyle, formatos 320 x 100/1: 1
Riscos: queda do post-click; verificação de evento LP
Cartão de resumo
A: vCTR 1. 22% [1. 15; 1. 29], CR 4. 1%
B: vCTR 1. 34% [1. 27; 1. 41], CR 4. 3%, CPA ↓ 6%
A decisão, B venceu. Reaproveitamento: GEO GEO de 100%
Comentário: Efeito mais forte em playsents Y/Z
O sistema A/B de testes de banners não é uma «cor de botão», mas um conjunto de disciplinas: métricas corretas (viewability post-click), randomização pura, QA rígido, controle de qualidade, regulamento de rotações e soluções transparentes. Construa uma linha de montagem de hipóteses, mantenha um arquivo e uma base de faturamento - e o crediário deixará de ser uma loteria, aumentando a eficiência da publicidade e reduzindo a CPA com passos previsíveis.