Cómo construir un sistema de pruebas de banners A/B

Una pancarta «exitosa» no hace el sistema. El sistema del A/B-test es una cadena: brif → la producción de las variantes → el control de las demostraciones → la recogida de las partidas de nacimiento correctas → la estadística → la decisión → el archivo → masshtabirovanie. A continuación, un conjunto mínimo de procesos y artefactos para que las pruebas sean reproducibles y rentables.

1) Objetivos y métricas: lo que optimizamos

Divulgue las métricas de pre-clic y post-clic - de lo contrario, «substraerá» CTR con el precio del tráfico de basura.

Pre-click:

Viewability (proporción de impresiones visibles).
vCTR = clics/proyecciones visibles (métrica principal para el creativo).
Frequency y Reach (para controlar la «fatiga»).
Placement-mix (plataformas/formatos).

Post-click:

CTR landing (primera acción), LPV/scroll, CVR del evento clave.
Time to first action, fracaso, calidad de la lida/de la orden.
Down-funnel (si está disponible): depósito/compra/repetición.

Restricciones/políticas (YMYL/gambling, fintech, etc.):

Sin promesas de «resultado garantizado», respeto a Responsible/Legal.
CTA neutrales («Ver condiciones», «Abrir demo»), discleimers donde sea necesario.

2) Arquitectura de experimentación: en qué consiste el sistema

1. Reglamento de hipótesis (plantilla): problema → idea → efecto esperado (MDE) → métricas → segmentos → riesgos.

2. Neyming y versionar archivos/códigos:


2025-10_campaignX_geoUA_format-300x250_offer-A_cta-B_visual-C_v02. webp

3. Tabla de enrutamiento de tráfico: Un playsment → del grupo A/B → una proporción de visualización → exclusión.

4. Схема событий (tracking plan): impressions, viewable impressions, clicks, pageview, cta_click, form_start, form_error, submit, purchase.

5. Almacenamiento y capa de preparación: registros crudos → normalización (filtros antibot) → vitrinas.

6. Dashboards: pre-clic, post-clic, informe integral del experimento.

7. Archivo de soluciones: hipótesis → período → tamaño de muestra → p-value/intervalo de confianza → solución → salida.

3) Diseño A/B: reglas de la causalidad «pura»

Cambiamos 1 factor a la vez (offer o visual o CTA).

Aleatorización por usuario y no por exhibición (cookie/uid) para que una sola persona no vea ambas opciones por sesión.

Estratificación (por sitio/formato/dispositivo) si afectan fuertemente a vCTR.

Prueba = semanas completas para cubrir la estacionalidad por días.

Fijar el MDE (efecto mínimamente detectable) antes del inicio: por ejemplo, queremos capturar + 8% a vCTR.

Stop-condition: han alcanzado la potencia estadística deseada Y la duración de ≥ N días. No «echar un vistazo» ni pararse temprano.

4) Estadísticas sin dolor

Muestreo y duración: cuanto más bajo sea el vCTR/CR básico y menor sea el MDE, mayor será el tráfico y el tiempo de prueba.

Métrica para la solución: en creativos - más a menudo vCTR, pero la solución final es elevar a CR/CPA si hay post-clic.

Muestre siempre los intervalos de confianza en el informe; evite las conclusiones de 1-2 días.

Multi-alineaciones: si> 2 opciones, utilice el plan Bonferroni/FDR o pruebe en parejas.

Pruebas consecutivas/paradas tempranas: aplique límites (por ejemplo, O'Brien-Fleming) si la herramienta lo sabe.

Bandits vs A/B: los bandidos son aptos para la operación automática del ganador con un objetivo estable; para conclusiones de productos, análisis creativo y archivos - clásico A/B más transparente.

5) Control de calidad del tráfico

Filtros anti-bot: velocidad sospechosamente alta, clics sin viewability, agente de usuario anormal/IP.

Seguridad de marca: exclusiones de sitios/palabras clave, lista de reproducción negativa.

Geo/dispositivo: pruebe en los segmentos donde planea escalar.

Captación de frecuencia: limite la frecuencia de visualización por usuario (por ejemplo, 3-5/día), de lo contrario la «fatiga» distorsionará el resultado.

6) Rotación y «fatiga» de los creativos

Umbral de fatiga: caída de vCTR entre un 30 y un 40% con una visibilidad y cobertura estables - señal de rotación.

Calendario de rotación: cada semana compruebe las tendencias de vCTR/placement; mantenga la agrupación de 6-12 variaciones (matriz offer × visual × CTA).

Descomposición del resultado: almacena los rasgos factoriales (offer, visual, cta, color, layout) para recoger las «recetas» de los ganadores con el tiempo.

7) Proceso de fin a fin (reglamento del equipo)

1. Planificación (lunes): comité de hipótesis (marketing + diseño + analista). Seleccionamos 2-4 hipótesis por una semana.

2. Producción (1-3 días): paquetes de diseño para todos los formatos, lista de comprobación de QA (contraste CTA, peso, zona segura, cumplimiento).

3. Inicio: distribución de tráfico 50/50 (o 33/33/33); fijación de segmentos, inclusión de registros.

4. Monitoreo: chequeo diario de sanidad (sin tomar decisiones): proporción de impresiones, viewability, banderas bot.

5. Análisis (fin de semana/para alcanzar la potencia): informe a intervalos, subelección mobile/escritorio, explicaciones.

6. Solución: el ganador - en funcionamiento, el perdedor - en el archivo; formamos la siguiente hipótesis sobre la base de información privilegiada.

7. Archivo: tarjeta de experimento + archivos creativos + sql-solicitud de informe + currículum vitae.

8) Datos y dashboards: qué almacenar y cómo mirar

Mini modelo de escaparate (por día/creativo/segmento):


date, campaign, geo, device, placement, format, creative_id, offer, visual, cta, variant,
impressions, viewable_impressions, clicks, vctr, lp_sessions, cta_clicks, form_start, submit, purchases, bounce_rate, avg_scroll, time_to_first_action

Dashboards:

Preclick: viewability, vCTR, frequency, cobertura, tarjetas de reproducción.
Post-clic: CR por pasos de embudo, calidad de lida/SRA.
Experimentos: un bosquecillo de intervalos de confianza, tiempo antes del efecto, una «rosa de viento» de segmentos.

9) QA y lista de comprobación de inicio

Formatos: 300 × 250, 336 × 280, 300 × 600, 160 × 600, 728 × 90, 970 × 250; mobile 320 × 100/50, 1:1, 4:5, 16:9, 9:16
Peso ≤ 150-200 KB (estático/HTML5), WebP/PNG, sin GIF «pesado»
Contraste CTA (WCAG), zonas seguras (≥24 px desde el borde)
Sin clickbait/promesas, disclamers correctos
Трекинг: viewable, click, lpview, cta_click, form_start, submit
Aleatorización por usuario, proporción clara de las impresiones A/B
Los filtros anti-bot están habilitados, las exclusiones de reproducción están configuradas

10) Biblioteca de hipótesis: qué probar

Offer:

«Términos de bonificación transparentes» vs «Todos los términos en una página»
«Demo sin registro» vs «Ver interfaz»

CTA:

«Ver condiciones» vs «Conocer detalles»
«Abrir demo» vs «Pruébelo ahora»

Visual:

Escena/héroe vs screen interfaz vs iconografía
El fondo cálido vs es neutral; botón de contorno vs relleno

Composición:

El logotipo de la parte superior izquierda vs es compacto; CTA a la derecha vs abajo
La etiqueta de confianza de CTA vs bajo el encabezado

Micro-movimiento (HTML5):

Suave fade-in UTP vs pulso CTA trazo (≤12 c, 2-3 fases)

11) Normas para la adopción de decisiones

Umbral de significación: p≤0. 05 y/o intervalo de confianza enteros> 0 en el punto de referencia MDE.

El límite del sentido común: si hay ganancia por vCTR y CR/CPA se ha hundido - no rodamos.

Ganadores de segmentos: si la diferencia es sustancial sólo en mobile/en GEO - rodar de forma dirigida.

Ética: no aceptamos ganancias por el precio del texto manipulador/clickbait.

12) Anti-patrones (que rompe el sistema)

Muchos factores en una sola prueba → no hay conclusiones.

Decisiones «en un calendario de 2 días».

Mezcla de canales (diferentes audiencias) en un mismo experimento.

Ausencia de viewability → vCTR muerto.

No hay archivo de experimentos → repetición de errores y «bicicleta eterna».

No se tiene en cuenta la frecuencia de las proyecciones → las victorias falsas debido a la «primera atención».

13) 30/60/90-plan de aplicación

0-30 días - Sistema MVP

Patrón de hipótesis, Neuming, lista de comprobación de QA.

Esquema de eventos y dashboard pre/post-clic.

1-2 experimentos: offer y CTA en formato clave (300 × 250/320 × 100).

Habilitar los filtros viewability y anti-bot.

31-60 días - profundización

Ampliar a todos los formatos y mejores playsments; agregar opciones HTML5.

Implementar reglamentos de rotación y umbrales de «fatiga».

Introduzca la estratificación por dispositivo/sitio, segmentos de los ganadores.

61-90 días - madurez

Archivo de experimentación y base de factores (offer/visual/cta).

Encuesta automática de brief + diseños semi-estándar (sistema de diseño creativo).

Informe mensual: ROI de pruebas,% de ganadores, contribución a CR/CPA.

Piloto de bandidos para la operación automática de los ganadores en segmentos estables.

14) Mini patrones (listo para copipaste)

Plantilla de hipótesis


Problema: vCTR bajo en mobile en GEO {X}
Idea: reemplazar el visual con la escena por la pantalla de interfaz + CTA «Abrir demo»
MDE: +8% к vCTR
Métricas: vCTR (principal), CR (auxiliar), CPA (control)
Segmentos: mobile, formatos 320 × 100/1: 1
Riesgos: caída post-clic; comprobar el LP del evento

Tarjeta de resultados


A: vCTR 1. 22% [1. 15; 1. 29], CR 4. 1%
B: vCTR 1. 34% [1. 27; 1. 41], CR 4. 3%, CPA ↓ 6%
Decisión: B ganó. Arranque: mobile GEO {X}, 100%
Comentario: el efecto es más fuerte en los playsments Y/Z

El sistema de prueba de pancartas A/B no es un «color de botón», sino un conjunto de disciplinas: métricas correctas (viewability → vCTR → post-clic), aleatorización pura, QA rígida, control de calidad de tráfico, regulación de rotación y soluciones transparentes. Construya un transportador de hipótesis, mantenga un archivo y una base de factores - y el creativo dejará de ser una lotería: mejorará constantemente la eficiencia de la publicidad y reducirá el CPA en pasos predecibles.