Skip to main content

Introducción

En el ámbito de los productos digitales, la realización de experimentos desempeña un papel crucial para la toma de decisiones basadas en datos. Uno de los tipos más comunes es el experimento A/B.

Los experimentos A/B son una técnica utilizada para comparar dos versiones de un producto digital, A y B, con el objetivo de determinar cuál de ellas tiene un mejor desempeño en términos de resultados específicos, como tasas de conversión, tiempo de interacción o cualquier otra métrica relevante.

En un experimento A/B, se divide aleatoriamente a los usuarios en dos grupos: uno que interactúa con la versión A y otro que interactúa con la versión B.

Vamos a ver paso a paso cómo podemos definir la duración de un experimento para un producto digital:

1. Comprende el contexto del experimento

Familiarízate con el producto digital y sus objetivos.

Identifica la métrica clave que se medirá en el experimento, como tasa de conversión, tiempo de interacción u otra métrica relevante.

2. Define las versiones del experimento

Habitualmente vamos a tomar como una de las versiones del experimento una versión de control.

Esto facilitará definir una duración del experimento que nos permita tener resultados estadísticamente significativos. En un experimento A/B decimos que un resultado es estadísticamente significativo cuando la diferencia entre las versiones es mayor de lo esperable que ocurra solamente por casualidad.

3. Mide la tasa de éxito en la versión de control

Si una de las versiones ya es conocida, nos será fácil medir cuál es su tasa de éxito. 

Imaginemos que estamos experimentando sobre cómo hacer más visible el botón de añadir al carrito para una tienda online. Como versión de control podemos tomar el aspecto actual del botón para añadir al carrito. Definimos como un caso de éxito cada vez que un usuario aprieta el botón. Una medida de la tasa de éxito sería el ratio entre las veces que un usuario aprieta el botón de añadir al carrito dividido entre las veces que un usuario visita una página en la que se encuentra este botón.

4. Haz una apuesta

Aquí entra en juego el conocimiento de negocio y el olfato al diseñar experimentos. 

Estamos haciendo este experimento porque creemos que la nueva versión va a mejorar la tasa de éxito. ¿En cuánto la va a mejorar? ¿Cuál va a ser la nueva tasa de éxito? 

La diferencia entre la tasa de éxito original y la de la variación va a ser una pieza clave en la cantidad de medidas que necesitamos hacer y para obtener resultados concluyentes. 

5. Calculando el número de medidas necesarias

Un factor a considerar es la significancia. Suponiendo que no haya una diferencia subyacente entre A y B, ¿con qué frecuencia veremos una diferencia como la que vemos en los datos por casualidad? Observar una diferencia por casualidad cuando no existe es lo que llamamos un falso positivo. Buscamos que este falso positivo aparezca con poca probabilidad (≤5%). Normalmente, definimos el opuesto a este valor como el intervalo de confianza. Vamos a asumir una confianza del 95%.

Para calcular el tamaño de muestras asumiendo otros valores de significancia, descarga nuestra calculadora de tamaños de muestra.

Vamos a repasar que tengamos todos los datos:

Tenemos la tasa de éxito de la versión de control (pc).

Tenemos la tasa de éxito esperada de la nueva versión (pn).

Con estos datos podemos aproximar que el tamaño de la muestra será:

En el ejemplo de la tienda online pc es la probabilidad de que alguien que visita una página con el botón de añadir al carrito acabe pulsando el botón de añadir al carrito si se le muestra la versión de control.

Mientras que pn es esta misma probabilidad si se le muestra la nueva versión.

En este ejemplo, n será el número de visitas a una página con el botón de añadir al carrito que se deben observar (asumiendo que cada vez se muestra aleatoriamente una de las versiones) para conocer con precisión qué diferencia en la tasa de éxito existe entre ellas.

Por ejemplo, imaginemos que ahora mismo en la plataforma el 5% de las veces que se muestra el botón de añadir al carrito, el usuario acaba añadiendo el producto. Se cree que con la nueva versión mejoraremos un 20% la conversión (por lo que la tasa de éxito pasará a ser del 6%). Para medir de forma adecuada la diferencia entre las versiones deberíamos mostrar el botón de añadir al carrito unas 12.350 veces para medir qué diferencia en la conversión hay entre versiones con una confianza del 95%.

6. No termines el experimento antes de tiempo

Muchas herramientas de experimentación te permiten observar la “significancia estadística” de un experimento mientras está en progreso. Algunas herramientas incluso permiten automatizar la toma de decisiones a la que parece que el experimento muestra estas diferencias estadísticas. Sin embargo, esto puede ser un error.

Al medir la significancia estadística en muestras parciales se puede caer en ruido estadístico y tomar decisiones erróneas, pensando que existe una diferencia entre versiones que es inexistente u opuesta a la realidad. Es por eso que es importante comprometerse a tomar las muestras calculadas antes de tomar una decisión.

Descarga esta hoja Excel para poder calcular el tiempo necesario de un experimento A/B.

Próximamente, hablaremos de errores como por ejemplo el problema de Peeking.

Deja un comentario

A %d blogueros les gusta esto: