Cómo construir un sistema de pruebas de banners A/B
Una pancarta «exitosa» no hace el sistema. El sistema del A/B-test es una cadena: brif → la producción de las variantes → el control de las demostraciones → la recogida de las partidas de nacimiento correctas → la estadística → la decisión → el archivo → masshtabirovanie. A continuación, un conjunto mínimo de procesos y artefactos para que las pruebas sean reproducibles y rentables.
1) Objetivos y métricas: lo que optimizamos
Divulgue las métricas de pre-clic y post-clic - de lo contrario, «substraerá» CTR con el precio del tráfico de basura.
Pre-click:- Viewability (proporción de impresiones visibles).
- vCTR = clics/proyecciones visibles (métrica principal para el creativo).
- Frequency y Reach (para controlar la «fatiga»).
- Placement-mix (plataformas/formatos).
- CTR landing (primera acción), LPV/scroll, CVR del evento clave.
- Time to first action, fracaso, calidad de la lida/de la orden.
- Down-funnel (si está disponible): depósito/compra/repetición.
- Sin promesas de «resultado garantizado», respeto a Responsible/Legal.
- CTA neutrales («Ver condiciones», «Abrir demo»), discleimers donde sea necesario.
2) Arquitectura de experimentación: en qué consiste el sistema
1. Reglamento de hipótesis (plantilla): problema → idea → efecto esperado (MDE) → métricas → segmentos → riesgos.
2. Neyming y versionar archivos/códigos:
2025-10_campaignX_geoUA_format-300x250_offer-A_cta-B_visual-C_v02. webp
3. Tabla de enrutamiento de tráfico: Un playsment → del grupo A/B → una proporción de visualización → exclusión.
4. Схема событий (tracking plan): impressions, viewable impressions, clicks, pageview, cta_click, form_start, form_error, submit, purchase.
5. Almacenamiento y capa de preparación: registros crudos → normalización (filtros antibot) → vitrinas.
6. Dashboards: pre-clic, post-clic, informe integral del experimento.
7. Archivo de soluciones: hipótesis → período → tamaño de muestra → p-value/intervalo de confianza → solución → salida.
3) Diseño A/B: reglas de la causalidad «pura»
Cambiamos 1 factor a la vez (offer o visual o CTA).
Aleatorización por usuario y no por exhibición (cookie/uid) para que una sola persona no vea ambas opciones por sesión.
Estratificación (por sitio/formato/dispositivo) si afectan fuertemente a vCTR.
Prueba = semanas completas para cubrir la estacionalidad por días.
Fijar el MDE (efecto mínimamente detectable) antes del inicio: por ejemplo, queremos capturar + 8% a vCTR.
Stop-condition: han alcanzado la potencia estadística deseada Y la duración de ≥ N días. No «echar un vistazo» ni pararse temprano.
4) Estadísticas sin dolor
Muestreo y duración: cuanto más bajo sea el vCTR/CR básico y menor sea el MDE, mayor será el tráfico y el tiempo de prueba.
Métrica para la solución: en creativos - más a menudo vCTR, pero la solución final es elevar a CR/CPA si hay post-clic.
Muestre siempre los intervalos de confianza en el informe; evite las conclusiones de 1-2 días.
Multi-alineaciones: si> 2 opciones, utilice el plan Bonferroni/FDR o pruebe en parejas.
Pruebas consecutivas/paradas tempranas: aplique límites (por ejemplo, O'Brien-Fleming) si la herramienta lo sabe.
Bandits vs A/B: los bandidos son aptos para la operación automática del ganador con un objetivo estable; para conclusiones de productos, análisis creativo y archivos - clásico A/B más transparente.
5) Control de calidad del tráfico
Filtros anti-bot: velocidad sospechosamente alta, clics sin viewability, agente de usuario anormal/IP.
Seguridad de marca: exclusiones de sitios/palabras clave, lista de reproducción negativa.
Geo/dispositivo: pruebe en los segmentos donde planea escalar.
Captación de frecuencia: limite la frecuencia de visualización por usuario (por ejemplo, 3-5/día), de lo contrario la «fatiga» distorsionará el resultado.
6) Rotación y «fatiga» de los creativos
Umbral de fatiga: caída de vCTR entre un 30 y un 40% con una visibilidad y cobertura estables - señal de rotación.
Calendario de rotación: cada semana compruebe las tendencias de vCTR/placement; mantenga la agrupación de 6-12 variaciones (matriz offer × visual × CTA).
Descomposición del resultado: almacena los rasgos factoriales (offer, visual, cta, color, layout) para recoger las «recetas» de los ganadores con el tiempo.
7) Proceso de fin a fin (reglamento del equipo)
1. Planificación (lunes): comité de hipótesis (marketing + diseño + analista). Seleccionamos 2-4 hipótesis por una semana.
2. Producción (1-3 días): paquetes de diseño para todos los formatos, lista de comprobación de QA (contraste CTA, peso, zona segura, cumplimiento).
3. Inicio: distribución de tráfico 50/50 (o 33/33/33); fijación de segmentos, inclusión de registros.
4. Monitoreo: chequeo diario de sanidad (sin tomar decisiones): proporción de impresiones, viewability, banderas bot.
5. Análisis (fin de semana/para alcanzar la potencia): informe a intervalos, subelección mobile/escritorio, explicaciones.
6. Solución: el ganador - en funcionamiento, el perdedor - en el archivo; formamos la siguiente hipótesis sobre la base de información privilegiada.
7. Archivo: tarjeta de experimento + archivos creativos + sql-solicitud de informe + currículum vitae.
8) Datos y dashboards: qué almacenar y cómo mirar
Mini modelo de escaparate (por día/creativo/segmento):
date, campaign, geo, device, placement, format, creative_id, offer, visual, cta, variant,
impressions, viewable_impressions, clicks, vctr, lp_sessions, cta_clicks, form_start, submit, purchases, bounce_rate, avg_scroll, time_to_first_action
Dashboards:
- Preclick: viewability, vCTR, frequency, cobertura, tarjetas de reproducción.
- Post-clic: CR por pasos de embudo, calidad de lida/SRA.
- Experimentos: un bosquecillo de intervalos de confianza, tiempo antes del efecto, una «rosa de viento» de segmentos.
9) QA y lista de comprobación de inicio
- Formatos: 300 × 250, 336 × 280, 300 × 600, 160 × 600, 728 × 90, 970 × 250; mobile 320 × 100/50, 1:1, 4:5, 16:9, 9:16
- Peso ≤ 150-200 KB (estático/HTML5), WebP/PNG, sin GIF «pesado»
- Contraste CTA (WCAG), zonas seguras (≥24 px desde el borde)
- Sin clickbait/promesas, disclamers correctos
- Трекинг: viewable, click, lpview, cta_click, form_start, submit
- Aleatorización por usuario, proporción clara de las impresiones A/B
- Los filtros anti-bot están habilitados, las exclusiones de reproducción están configuradas
10) Biblioteca de hipótesis: qué probar
Offer:- «Términos de bonificación transparentes» vs «Todos los términos en una página»
- «Demo sin registro» vs «Ver interfaz»
- «Ver condiciones» vs «Conocer detalles»
- «Abrir demo» vs «Pruébelo ahora»
- Escena/héroe vs screen interfaz vs iconografía
- El fondo cálido vs es neutral; botón de contorno vs relleno
- El logotipo de la parte superior izquierda vs es compacto; CTA a la derecha vs abajo
- La etiqueta de confianza de CTA vs bajo el encabezado
- Suave fade-in UTP vs pulso CTA trazo (≤12 c, 2-3 fases)
11) Normas para la adopción de decisiones
Umbral de significación: p≤0. 05 y/o intervalo de confianza enteros> 0 en el punto de referencia MDE.
El límite del sentido común: si hay ganancia por vCTR y CR/CPA se ha hundido - no rodamos.
Ganadores de segmentos: si la diferencia es sustancial sólo en mobile/en GEO - rodar de forma dirigida.
Ética: no aceptamos ganancias por el precio del texto manipulador/clickbait.
12) Anti-patrones (que rompe el sistema)
Muchos factores en una sola prueba → no hay conclusiones.
Decisiones «en un calendario de 2 días».
Mezcla de canales (diferentes audiencias) en un mismo experimento.
Ausencia de viewability → vCTR muerto.
No hay archivo de experimentos → repetición de errores y «bicicleta eterna».
No se tiene en cuenta la frecuencia de las proyecciones → las victorias falsas debido a la «primera atención».
13) 30/60/90-plan de aplicación
0-30 días - Sistema MVP
Patrón de hipótesis, Neuming, lista de comprobación de QA.
Esquema de eventos y dashboard pre/post-clic.
1-2 experimentos: offer y CTA en formato clave (300 × 250/320 × 100).
Habilitar los filtros viewability y anti-bot.
31-60 días - profundización
Ampliar a todos los formatos y mejores playsments; agregar opciones HTML5.
Implementar reglamentos de rotación y umbrales de «fatiga».
Introduzca la estratificación por dispositivo/sitio, segmentos de los ganadores.
61-90 días - madurez
Archivo de experimentación y base de factores (offer/visual/cta).
Encuesta automática de brief + diseños semi-estándar (sistema de diseño creativo).
Informe mensual: ROI de pruebas,% de ganadores, contribución a CR/CPA.
Piloto de bandidos para la operación automática de los ganadores en segmentos estables.
14) Mini patrones (listo para copipaste)
Plantilla de hipótesis
Problema: vCTR bajo en mobile en GEO {X}
Idea: reemplazar el visual con la escena por la pantalla de interfaz + CTA «Abrir demo»
MDE: +8% к vCTR
Métricas: vCTR (principal), CR (auxiliar), CPA (control)
Segmentos: mobile, formatos 320 × 100/1: 1
Riesgos: caída post-clic; comprobar el LP del evento
Tarjeta de resultados
A: vCTR 1. 22% [1. 15; 1. 29], CR 4. 1%
B: vCTR 1. 34% [1. 27; 1. 41], CR 4. 3%, CPA ↓ 6%
Decisión: B ganó. Arranque: mobile GEO {X}, 100%
Comentario: el efecto es más fuerte en los playsments Y/Z
El sistema de prueba de pancartas A/B no es un «color de botón», sino un conjunto de disciplinas: métricas correctas (viewability → vCTR → post-clic), aleatorización pura, QA rígida, control de calidad de tráfico, regulación de rotación y soluciones transparentes. Construya un transportador de hipótesis, mantenga un archivo y una base de factores - y el creativo dejará de ser una lotería: mejorará constantemente la eficiencia de la publicidad y reducirá el CPA en pasos predecibles.