Como construir um sistema A/B de testes de banners

Um banner «bom» não faz o sistema. O sistema de testes A/B é uma linha de montagem: bref → produção de opções → controle de exibição → coleta de métricas corretas → estatísticas → solução → arquivo → zoom. Abaixo, um conjunto mínimo de processos e artefatos para que os testes sejam reprodutivos e rentáveis.

1) Metas e métricas: que otimizamos

Explore as métricas pré-click e post-click - senão você «enxerga» CTR com o preço do tráfego de lixo.

Pre-click:

Viewability (proporção de exibições visíveis).
vCTR = cliques/exibições visíveis (métrica principal para criatividade).
Frequency e Reach (para controlar «cansaço»).
Placar-mix (locais/formatos).

Post-click:

CTR landing (primeira ação), LPV/scroll, CVR evento-chave.
Time to first action, rejeição, qualidade de lida/pedido.
Down-funnel (se disponível): depósito/compra/repetição.

Restrições/políticas (YMYL/gambling, fintech, etc.):

Nada de promessas de «resultado garantido», respeito a Resource/Legal.
CTA neutro («Ver condições», «Abrir demo»), discreters onde necessário.

2) Arquitetura de experiências: do que consiste o sistema

1. Regulamento de hipóteses (modelo): o problema → a ideia de → o efeito esperado (MDE) → métricas → segmentos → riscos.

2. Nayming e versionização de arquivos/códigos:


2025-10_campaignX_geoUA_format-300x250_offer-A_cta-B_visual-C_v02. webp

3. Tabela de roteamento de tráfego: playsment → grupo A/B → proporção de exibição → exclusão.

4. Схема событий (tracking plan): impressions, viewable impressions, clicks, pageview, cta_click, form_start, form_error, submit, purchase.

5. Armazém e camada de preparação: logs crus → normalização (de-dup, filtros anti-bot) → vitrines.

6. Dashboards, pré-click, post-click, relatório integral da experiência.

7. Arquivo de soluções: hipótese → período → tamanho da amostra → p-valor/intervalo de confiança → solução → descarga.

3) Design A/B: regras de causalidade «pura»

Alteramos 1 fator por vez (off ou visual ou CTA).

Randomização por usuário, não por exibição (cookie/uid), para que uma pessoa não veja as duas opções por sessão.

Rateio (por local/formato/dispositivo) se eles afetarem muito o vCTR.

Teste = semanas completas para cobrir sazonalidade diária.

Fixe o MDE (efeito mínimo de detecção) antes do início: por exemplo, deseje captar + 8% para o vCTR.

Pará condição: atingiram a capacidade estatística adequada e duração de ≥ N dias. Não é «olhar», não é muito cedo.

4) Estatísticas sem dor

Amostra e duração: quanto menor o vCTR/CR básico e menor o MDE, maior o tráfego e maior o tempo de teste.

Metrica para resolver: Criativos - mais frequentemente vCTR, mas a solução final é elevar para CR/CPA, se houver pós-clique.

Mostre os intervalos de confiança sempre no relatório; evite as conclusões de 1 a 2 dias.

Multiplicações: Se> 2 opções, use o plano de Bonferrony/FDR ou teste de parafuso.

Testes/paragens iniciais: aplique limites (como O'Brien-Fleming) se a ferramenta conseguir.

Bandits vs A/B: Os bandidos são adequados para a exploração automática do vencedor com um alvo estável; para conclusões alimentares, analistas criativos e arquivos - clássico A/B mais transparente.

5) Controle da qualidade do tráfego

Filtros anti-bot: velocidade suspeita alta, cliques sem viewability, user agente/IP anormal.

Segurança de marca: exclusões de locais/palavras-chave, lista de leitura negativa.

Geo/dispositivo: Teste nos segmentos onde você planeja escalar.

Frequency capping: Limite a frequência de exibição por usuário (por exemplo, 3-5/dia), ou o «cansaço» distorce o resultado.

6) Rotação e «cansaço» criativos

Limite de fadiga: queda de 30% a 40%, com viewabilidade estável e cobertura - sinal de rotação.

Calendário de rotações: verifique as tendências semanais; mantenha o pool de 6-12 variações (matriz off x visual x CTA).

Descomposição de resultados: armazene os sinais de fator (offer, visual, cta, cor, layout) para coletar as «receitas» dos vencedores com o tempo.

7) Processo end-to-end (regulamento de comando)

1. Planejamento (segunda-feira): comitê de hipóteses (marketing + design + analista). Tiramos 2-4 hipóteses por uma semana.

2. Produção (1-3 dias): pacotes de design para todos os formatos, folha de cheque QA (contraste CTA, peso, safe-zona, complacência).

3. Lançamento: distribuição de tráfego 50/50 (ou 33/33/33); fixação de segmentos, inclusão de logs.

4. Monitoramento: Verificação diária sanity (sem decisão): proporção de exibições, viewability, bandeiras de bot.

5. Análise (final de semana/de potência): relatório de intervalo, subseletivo de móbilo/descompasso, explicações.

6. Solução: o vencedor em funcionamento, o perdedor em arquivo; formamos a seguinte hipótese baseada em insights.

7. Arquivo: cartão de experiência + arquivos criativos + sql-consulta relatório + currículo.

8) Dados e dashboards: o que guardar e como olhar

Mini-modelo de vitrine (dia/criatividade/segmento):


date, campaign, geo, device, placement, format, creative_id, offer, visual, cta, variant,
impressions, viewable_impressions, clicks, vctr, lp_sessions, cta_clicks, form_start, submit, purchases, bounce_rate, avg_scroll, time_to_first_action

Dashboard:

Pré-click: viewability, vCTR, frequency, abrangência, mapas de playsite.
Post-click: CR a passos de vórtice, qualidade de lida/CRA.
Experimentos: madeireira de espaçamento de confiança, tempo antes do efeito, «rosa de vento» dos segmentos.

9) QA e folha de cheque de lançamento

Formatos: 300 x 250, 336 x 280, 300 x 600, 160 x 600, 728 x 90, 970 x 250; mobil 320 x 100/50, 1:1, 4:5, 16:9, 9:16
Peso ≤ 150-200 KB (estático/HTML5), WebP/PNG, sem GIF «pesado»
Contraste CTA (WCAG), zonas seguras (≥24 px da borda)
Sem clickbate/promessas, discreters corretos
Трекинг: viewable, click, lpview, cta_click, form_start, submit
Randomização por usuário, uma proporção clara de exibições A/B
Os filtros anti-bot estão incluídos e as exceções de playsite foram configuradas

10) Biblioteca de hipóteses: o que testar

Offer:

Condições de bónus transparentes vs Todas as condições de uma página
«Demo sem registro» vs «Ver interface»

CTA:

Ver termos vs Saber detalhes
«Abrir demo» vs «Experimentar agora»

Visual:

Cena/herói vs screen interface vs iconografia
Fundo quente vs neutro; botão de contorno vs preenchimento

Composição:

Logo de cima a esquerda vs compacto; CTA direita vs abaixo
Crachá de confiança do CTA vs sob o título

Micro-movimento (HTML5):

Traçado fluido fade-in UTP vs pulso CTA (≤12 c, fase 2-3)

11) Regras decisórias

O limite de importância é p≤0. 05 e/ou intervalo de confiança inteiro> 0 na referência MDE.

O limite do bom senso é que, se houver ganhos de vCTR, e o CR/CPA não for roubado.

Vencedores segmentais: Se a diferença for significativa apenas no móbil/GEO, usemos a meta.

Ética: Não aceitamos ganhos com texto manipulador/clickbate.

12) Anti-pattern (que quebra o sistema)

Há muitos fatores no mesmo teste → não há conclusões.

Decisões de horário de 2 dias.

Misturar canais (diferentes públicos) em uma única experiência.

Falta de viewability → um vCTR morto.

Não há arquivo de experiências → repetição de erros e «bicicleta eterna».

A taxa de exibição não é levada em conta por «primeira atenção».

13) 30/60/90-plano de implementação

0-30 dias - MVP do sistema

Modelo de hipótese, naiming, folha de cheque QA.

Padrão de eventos e dashboard pré/post-click.

1-2 experimentos: off e CTA em formato chave (300 x 250/320 x 100).

Ativar viewability e filtros anti-bot.

31-60 dias - aprofundamento

Expandir para todos os formatos e top playsites; adicionar as opções HTML5.

Implementar regulamentos de rotação e liminares de fadiga.

Digite a stratação por dispositivo/local, os segmentos de vencedores.

61-90 dias - maturidade

Arquivo de experiências e base de faturamento (offer/visual/cta).

Entrevistador automático brife + layouts semiestandarte (sistema de design criativo).

Relatório mensal: REI testes,% dos vencedores, contribuição CR/CPA.

Piloto de bandidos para exploração de carros vencedores em segmentos estáveis.

14) Mini-modelos (pronto para o copipaço)

Modelo de hipótese


Problema: vCTR baixo em um móbilo em GEO
A ideia é substituir o visual com a cena pelo screen da interface + CTA «Abrir demo»
MDE: +8% к vCTR
Métricas: vCTR (principal), CR (auxiliar), CPA (controle)
Segmentos: mobyle, formatos 320 x 100/1: 1
Riscos: queda do post-click; verificação de evento LP

Cartão de resumo


A: vCTR 1. 22% [1. 15; 1. 29], CR 4. 1%
B: vCTR 1. 34% [1. 27; 1. 41], CR 4. 3%, CPA ↓ 6%
A decisão, B venceu. Reaproveitamento: GEO GEO de 100%
Comentário: Efeito mais forte em playsents Y/Z

O sistema A/B de testes de banners não é uma «cor de botão», mas um conjunto de disciplinas: métricas corretas (viewability post-click), randomização pura, QA rígido, controle de qualidade, regulamento de rotações e soluções transparentes. Construa uma linha de montagem de hipóteses, mantenha um arquivo e uma base de faturamento - e o crediário deixará de ser uma loteria, aumentando a eficiência da publicidade e reduzindo a CPA com passos previsíveis.