Cómo Alpha y Beta Spell mejoraron las pruebas A/B

alpha and beta in AB testing

Hace casi tres mil años, los antiguos griegos ya estaban en camino de desarrollar innovaciones como la catapulta, la plomería interior y, por supuesto, el alfabeto.

Lo que finalmente se convirtió en las letras modernas «A» y «B» en realidad se originó como Alfa (α) y Beta (β) en el alfabeto griego.

Hoy, Alpha y Beta también se han convertido en términos estadísticos de uso común. Esto es particularmente cierto para las pruebas de hipótesis, como las pruebas A/B para la optimización de la tasa de conversión. Entonces, ¿podría haber una conexión entre las pruebas A/B y estas contrapartes de letras griegas antiguas?

Realmente no.

Sin embargo, he descubierto que los conceptos estadísticos de alfa y beta, a pesar de su importancia en las pruebas A/B y muchas otras aplicaciones, suelen ignorarse, malinterpretarse o ambas cosas. ¡Esto definitivamente no es ideal, ya que los valores de Alfa y Beta seleccionados para su prueba A/B no hacen nada menos que determinar la precisión y confiabilidad de sus resultados!

Puede encontrar muchas pruebas A/B útiles y calculadoras de tamaño de muestra en la web con una interfaz similar a estas:

calculadora de prueba abdominal

drpete.co/split-test-calculator

prueba de significación ab

getdatadriven.com/ab-significance-test

Algunas de estas interfaces no incluyen Alpha o Beta en las selecciones del usuario, o hacer inclúyalos, solo con los valores sugeridos o «predeterminados» para Alpha y Beta ya establecidos. Como veremos, estos valores juegan un papel importante en la definición de la prueba y la toma de decisiones sobre los resultados, por lo que siempre debemos saber qué valores se están utilizando.

Dada la importancia y el poder de Alpha y Beta en nuestras pruebas A/B, definitivamente vale la pena tomarse el tiempo para entenderlos. Incluso los antiguos filósofos griegos entendieron el poder del conocimiento.

“La única sabiduría verdadera está en saber que no sabes nada.”

– Sócrates

1. De griego a geek

Como muchas ideas antiguas, Alpha y Beta encontraron su origen en las necesidades humanas más básicas: comida y refugio.

Para resumir una (muy) larga historia, los antiguos griegos comenzaron a adaptar el alfabeto de los antiguos fenicios alrededor del año 800 a. C. El alfabeto fenicio había asociado un sustantivo con cada letra del alfabeto. Por ejemplo, la letra Alfa (α) simbolizaba el buey y la letra Beta (β) simbolizaba la casa. Interpretado libremente, el orden de las letras en el alfabeto se asignó en función de su importancia relativa para la supervivencia.

Alfabeto griego

Fuente de imagen

Avancemos hasta el año 2016, y los símbolos Alpha y Beta ahora tienen más de 30 definiciones solo en el campo de las matemáticas. Todos hemos oído hablar de partículas alfa, pruebas beta y otra terminología similar.

Afortunadamente, las definiciones de Alfa y Beta en el mundo de las estadísticas son un poco más sencillas y consistentes, ya que es ahí donde debería estar nuestro interés.

2. ¿Qué es Alfa?

Al igual que el perro alfa que conduce a la manada a través de la tundra helada, el concepto de Alfa es muy importante en el mundo de las estadísticas, ya que se relaciona con varios otros conceptos clave que influyen en las pruebas A/B y sientan las bases para la precisión de los resultados posteriores.

En otras palabras, si entiende Alpha, puede entender más fácilmente términos relacionados como:

  • valor p
  • Significado
  • Nivel de confianza

Dado que Alpha está matemáticamente relacionado con estos otros tres términos, lamentablemente también puede confundirse con ellos. Eso significa que los cuatro términos a veces se usan indistintamente por error, lo que hace que las cosas sean más difíciles de lo que deberían ser.

Quizás la forma más fácil de remediar esta confusión es una comparación lado a lado de cómo estos diversos conceptos se relacionan entre sí.

Definiciones del nivel de confianza significativo del valor p

“Importancia” podría ser el más difícil de entender de todos estos conceptos, ya que la palabra en sí misma a veces puede resultar engañosa. Si quieres saber más sobre este tema, El corazón de la importancia echa un vistazo más de cerca a este concepto tan importante.

En una prueba A/B, el valor alfa (α) que selecciona cuando configura su experimento es:

La probabilidad que está dispuesto a aceptar por concluir incorrectamente que su mejora estaba exitoso, aunque no lo fue.

Por ejemplo, si selecciona un valor Alfa de .05 (que es típico), tiene un 5% de posibilidades de pensar que su sitio web cambió y mejoró las conversiones, cuando en realidad no fue así. Dado que es una probabilidad, puede oscilar entre 0 y 1, pero, obviamente, un valor de umbral más bajo hace que el resultado de la prueba sea más sólido.

¿Es el 5% una probabilidad con la que puedes vivir? Antes de elegir un valor para Alpha, piense qué tan seguro realmente quiere (o necesita) estar.

Estar “equivocado” también se conoce como error tipo 1. Una manera fácil de recordar esto es que Alfa (primera letra) está relacionada con errores de Tipo 1 (primer número).

Usado correctamente, Alpha puede ser el buey robusto y confiable que lo lleva a una prueba A/B exitosa.

3. ¿Qué es Beta?

Cuando escucho el término «Beta», lo primero que me viene a la mente suele ser Beta Pruebascomo en el software.

¿Por qué lo llaman Prueba Beta? Volviendo a la histórica secuencia jerárquica de las letras, una Prueba alfa en la industria del software es una prueba inicial del nuevo software realizada por los desarrolladores «internamente», y la prueba beta se realiza luego implementando el software para seleccionar usuarios externos para una ejecución de prueba.

En el mundo de las estadísticas, Beta (β) a menudo juega un papel secundario frente a Alpha, ya que la importancia, la confianza y el valor p son en lo que la mayoría de la gente centra su atención. En mi opinión, establecer el valor Beta correcto para su prueba A/B puede ser tan importante como establecer el valor Alfa correcto.

Entonces, ¿qué es Beta? En muchos sentidos, Beta es solo el corolario u opuesto de Alpha, lo que significa:

La probabilidad que está dispuesto a aceptar por concluir incorrectamente que su mejora no estaba exitoso, aunque lo fue.

El valor Beta incorrecto podría significar potencialmente tener una gran idea de mejora que en realidad estaba trabajando, pero rechazándolo en base a los resultados de su prueba. Cometer este error en particular también se conoce como Tipo 2 error. Una vez más, Beta (segunda letra) está relacionado con los errores de tipo 2 (segundo número).

La relación entre Alfa y Nivel de Confianza es la misma que entre Beta y Poder Estadístico, ya que:

Potencia = 1 -Beta

Aunque la palabra «poder» puede evocar imágenes mentales de Zeus arrojando rayos desde el Monte Olimpo, todo lo que realmente significa en este sentido es solidez contra los errores de Tipo 2. La potencia está directamente relacionada con el tamaño de la muestra, por lo que la mejor manera de aumentar la potencia es aumentar el muestreo.

Si desea asegurarse de no perderse la detección de una gran mejora debido a un error estadístico, simplemente configure un valor Beta inicial bajo, lo que a su vez hace que el poder de su prueba sea alto.

Me parece algo curioso que la mayoría de las calculadoras de tamaño de muestra en línea tienen un valor predeterminado de .20 para Beta. ¡Eso significa que todavía tienes un 20% de posibilidades de equivocarte! Si quiere estar más seguro que esto, asegúrese de pensar detenidamente en seleccionar un valor Beta, en lugar de simplemente elegir un valor predeterminado. Por supuesto, la compensación probablemente será un mayor tamaño de muestra requerido para obtener este poder adicional, pero como cualquier gran casa, debe comenzar con una gran base.

Si la herramienta que está utilizando no le da la oportunidad de seleccionar un valor Beta para su prueba, el software puede preseleccionar automáticamente un valor de .20 para usted. A medida que comprenda mejor la importancia de Beta y cómo puede afectar sus decisiones, definitivamente querrá saber qué valor tiene incorporado su software de prueba y tener la capacidad de controlar esta variable usted mismo.

4. Todo es griego para mí

Hace muchos años, me encontré sentado con un colega, mirando una ecuación como esta en un libro de texto, preguntándome qué significaban los símbolos o si esta era la ecuación correcta para usar en nuestro experimento.

n ecuación

“¿Qué significa α (Alfa)? ¿Es solo la desviación estándar? ¿Quizás β (Beta) es solo 1-α?”

Si hubiera estado trabajando en una prueba A/B en ese momento, la presencia de otra letra griega en la ecuación me habría dicho de inmediato que estaba en el camino equivocado: Sigma (σ)

En Estadística, Sigma significa el Desviación Estándar, que es una medida de cuánto se desvían sus datos de la media o valor promedio, y es la raíz cuadrada de la Diferencia.

La desviación estándar es uno de los indicadores más útiles e importantes en el análisis estadístico. Desafortunadamente, (típicamente) no se aplica al mundo de las pruebas de sitios web.

varianza alta baja

¿Por qué?

Para calcular una desviación estándar, debe usar lo que se llama datos variables. Un ejemplo sería medir el tamaño de una pieza de automóvil en la fábrica. Una vez que haya medido un gran grupo de piezas, sabrá el tamaño promedio y la desviación estándar del promedio. Este valor le diría si su proceso estaba bajo control o si estaba en peligro de obtener algunos rechazos, según el tamaño y la tendencia de la desviación estándar.

Cuando miramos los datos generados a partir de una prueba A/B, generalmente estamos mirando porcentajes, es decir, porcentaje de usuarios que compran, hacen clic, se registran, etc. Por lo tanto, no hay promedio ni desviación del promedio para cada usuario. solo un porcentaje. Esto se conoce como datos de atributos. Al igual que lanzar una moneda 100 veces, lo que queda al final es una cantidad de lanzamientos, una cantidad de caras y una cantidad de cruces. No se calcula el valor medio ni la desviación estándar.

Sin embargo, lo que sí tenemos mucho en las pruebas A/B es variación. Esto a veces se confunde con la varianza, pero no es lo mismo.

Cosas como las diferencias en la demografía de los usuarios, los tipos de dispositivos y los patrones de tasas de conversión diarias son ejemplos de variaciones observadas en las pruebas A/B. Para pasar de una variación a otra, necesita otra capa de datos que asigne un número a cualquier cosa que pueda cambiar y luego mida la diferencia entre ese número y lo que se observa a lo largo del tiempo. Esto podría usarse en formas de prueba más complejas, pero normalmente no en una prueba A/B básica.

Conclusión

Como entendieron los antiguos griegos, egipcios y fenicios, un símbolo puede ser más versátil, significativo y, lamentablemente, confuso de lo que podría ser cualquier número o letra. La sola presencia de un símbolo antiguo implica importancia, profundidad y significado histórico.

Aproximadamente al mismo tiempo que Alfa y Beta se estaban convirtiendo en las primeras letras del alfabeto griego, los primeros Juegos Olímpicos se celebraron en Olimpia, Grecia, en el año 776 a. C. Durante milenios desde entonces, estas letras han llegado a representar múltiples conceptos e ideas, tanto matemáticos como de otro tipo. .

Cuando los Juegos renacieron con un toque moderno en 1896, las letras ya habían llegado a simbolizar importantes conceptos estadísticos que ahora tienen significado y utilidad en el mundo de las pruebas de sitios web.

En lugar de sentirse confundido e intimidado cuando aparecen términos estadísticos como Alfa (α), Beta (β) y Sigma (σ), saber lo que realmente significan lo lleva a darse cuenta de que, después de todo, no son tan complicados.

Simplemente sabiendo que Alpha cuantifica una falsa creencia en que una prueba tiene éxito, y Beta cuantifica una falsa creencia en falta de éxito, podemos utilizar estos conceptos para diseñar y optimizar con más éxito nuestras pruebas A/B.