Cómo saber si su prueba dividida es válida

ISValid split test significance

¿Sabías que la optimización de conversiones en realidad puede disminuir ¿tu beneficio?

Cuando ejecuta pruebas, es más fácil de lo que piensa malinterpretar los resultados y sacar conclusiones erróneas.

El “ganador” que elija podría terminar siendo el perdedor a largo plazo si no tiene cuidado.

Igualmente malo, si las lecciones que toma de esa prueba son incorrectas, multiplicará sus pérdidas a medida que implemente tácticas basadas en esas malas conclusiones en otras partes de su negocio.

Si nunca ha tomado un curso de introducción a la estadística, no se preocupe, lo tengo cubierto. También repasaremos las formas en que las estadísticas en sus pruebas divididas pueden ser engañosas.

Estadísticas 101: un curso intensivo básico

Si nunca tuviste que tomar Estadísticas 101 en la facultad o la universidad, te perdiste algunos algo muy emocionante… mmm, en realidad no.

Sin embargo, todavía hay algunas cosas de ese curso que debe saber antes de que las pruebas divididas tengan algún sentido real.

Voy a repasar estos conceptos rápidamente ahora para que no se confunda en el futuro. Si ya eres un profesional de las estadísticas, salta a la siguiente sección.

[tweet_box design=”box_5″]Cómo saber si su prueba dividida es válida (pista: las estadísticas pueden mentir) @DaleCudmore[/tweet_box]

¿Qué en el mundo es un intervalo de confianza?

Ya sea que use una herramienta de conversión como Optimizely o una aplicación web simple como IsValid, notará que las tasas de conversión siempre vienen con un rango.

Por ejemplo, mira esta captura de pantalla de una prueba de muestra:

Intervalo de confianza de prueba dividida ISValid

La tasa de conversión es actualmente 4,3%pero hay un rango debajo de él desde 0,6 a 8,0%. Esto significa que dada una muestra lo suficientemente grande, la tasa de conversión pudo caer en cualquier lugar de ese rango.

Ahora bien, esto no significa que los extremos remotos (0.6 u 8.0) sean probables, solo significa que son posibles.

¿Qué tan importante es el significado?

Estadísticamente significante – ¿Has escuchado ese término antes?

La importancia de una prueba nos dice qué tan seguros debemos estar de que tenemos el resultado correcto cuando elegimos entre 2 o más opciones.

Cuando ejecuta una prueba A/B básica, tendrá un intervalo de confianza para cada opción. En muchos casos, estos 2 intervalos de confianza se superpondrá.

Vea el ejemplo a continuación, por ejemplo. El original podría tener una tasa de conversión de hasta el 5,6 %, mientras que la variación (el ganador actual) podría tener una tasa de conversión tan baja como el 0,6 %.

comparación de intervalos de prueba divididos

¿Significa esto que los resultados actuales son inútiles? No, en absoluto.

Pero significa que necesitamos calcular la importancia de la prueba para determinar qué tan seguros podemos estar cuando elegimos la variación como ganadora.

Según la herramienta, la significación es actualmente del 91,1%. Esto significa que el 91,1% de las veces, la variación es la opción con mejor rendimiento. Sin embargo, eso deja el 8,9% del tiempo donde el original es realmente el mejor.

Importancia de la prueba dividida ISValid

En realidad, las pruebas normalmente se ejecutan hasta que se alcanza una significancia del 95% o más. Incluso al 95%, 1 de cada 20 pruebas terminará con la elección de la peor opción. Si bien sería ideal probar todo con un nivel de significación superior al 99 %, no siempre es posible debido al tráfico o las limitaciones de tiempo.

Una nota sobre la importancia: si solo puede llegar al 95 % de importancia en la mayoría de las pruebas, eso no es lo ideal, pero está bien. Simplemente comprenda que no todas las lecciones que aprenda serán correctas y que debe esperar un resultado contradictorio de vez en cuando.

Una variable crítica: tamaño de la muestra

Lance una moneda 10 veces y es bastante probable que obtenga resultados desiguales, como 3 caras (30 %) y 7 cruces (70 %), aunque en teoría deberían dividirse 50/50.

Lanza esa moneda 100 veces y te acercarás a la probabilidad real, algo así como 48 caras y 52 cruces.

¿Ves a dónde voy con esto?

Cuanto mayor sea el tamaño de la muestra que tenga al realizar una prueba, más precisos serán los resultados. [tweet_dis]El tamaño de su muestra es uno de los factores más importantes para determinar la importancia de una prueba.[/tweet_dis]

Hay muchas calculadoras simples de tamaño de muestra que puede usar de forma gratuita. Casi todas las herramientas de optimización de conversión también tienen una calculadora incorporada.

Aquí hay un vistazo a Calculadora web gratuita de Optimizely:

calculadora de tamaño de muestra

En este caso, deberá ejecutar la prueba hasta que tenga 10 170 muestras (vistas) para cada opción.

Eso es Stats 101 en unos 5 minutos. Pasemos a determinar si los resultados de la prueba dividida son realmente válidos.

El tamaño de la muestra no siempre es exacto: este es el motivo…

Esto es lo que hacen la mayoría de los dueños de negocios cuando realizan pruebas divididas:

  1. Calcular el tamaño de muestra requerido
  2. Ejecutar prueba durante tanto tiempo
  3. Elija un ganador de los resultados

eso no parecer loco, ¿verdad?

Pero hay algunas fallas graves que podrían tener efectos negativos en sus resultados.

DEBE segmentar su tráfico

Segmentar simplemente significa dividir algo.

En el caso del tráfico web, puedes segmentar en tres formas principales:

  1. Por fuente: El tráfico proviene de diferentes lugares. Google, Bing, redes sociales, enlaces de correo electrónico y más. Los visitantes de diferentes fuentes de tráfico tienden a comportarse y realizar conversiones de manera diferente.
  2. por comportamiento: ¿Llegaron a la página de prueba desde una determinada página de su sitio? ¿Algunos de sus visitantes leen más de 3 páginas en su sitio en su primera visita o lo visitan al menos 5 veces al mes?
  3. Por resultado (conversión): ¿Qué visitantes convierten mejor? Si corresponde, ¿cuál de ellos compra más tarde su servicio o producto más caro?

Hay ocasiones en las que puede segmentar por 2 o 3 de los tipos anteriores a la vez. Solo depende de qué tan detallado te gustaría ir.

Volviendo a probar la validez, el punto es que su los resultados pueden no ser válidos si no presta atención a los segmentos.

Ejemplo de tiempo…

Su calculadora de tamaño de muestra dice que necesita 10,000 visitantes para cada variación. Haces eso y ves que un lado es el claro ganador. Sin embargo, después de profundizar un poco más, verá que el ganador tuvo 2000 visitantes adicionales de los motores de búsqueda (debido a la varianza, como si se lanzara una moneda al aire). Encuentra que los visitantes de los motores de búsqueda se convierten muy bien en su sitio, lo que sesga los resultados.

Después de ejecutar la prueba hasta que la cantidad de tráfico de cada fuente de tráfico se estabilice, verá que el original es en realidad el mejor: error evitado.

Debe considerar la variación en los segmentos más importantes para su negocio y probar antes de declarar un ganador. Pueden ser las fuentes de tráfico, ciertos comportamientos, el país o más. Aprende a segmentar a tus visitantes con Google Analytics.

El tamaño de la muestra no siempre refleja un ciclo económico

Echa un vistazo a los informes analíticos de cualquier persona y ¿qué ves? Variación masiva en los números de tráfico según el día. Por lo general, un pico durante la semana, seguido de una caída masiva el fin de semana.

Sin embargo, no siempre son solo números. Recibes diferentes visitantes según el día. Si profundiza un poco más, probablemente notará que el tráfico que obtiene de diferentes fuentes también cambia un poco de un día a otro.

tablero de análisis de google

Un “ciclo comercial” generalmente se refiere a una semana para la mayoría de las empresas, aunque puede ser diferente para la suya. Cualquier período de tiempo que abarque la mayoría de los tipos de visitantes típicos es un ciclo comercial.

¿Qué sucede cuando su calculadora de tamaño de muestra indica que debe realizar una prueba para 10 000 impresiones y tiene 20 000 visitantes en un día?

Terminas la prueba en un día. Pero esto no tiene en cuenta su ciclo comercial. Es posible que tenga un resultado válido para los visitantes un lunes, pero no necesariamente para los visitantes en general.

Este problema de prueba en particular no suele ser un problema a menos que tenga grandes números de tráfico. No obstante, sé consciente de ello.

Quitar: [tweet_dis]Ejecute siempre una prueba durante al menos 1 ciclo comercial.[/tweet_dis] Siempre puede probar más variables (pruebas multivariadas) si tiene exceso de tráfico.

Evaluación de la validez de una prueba

Si te sientes un poco abrumado, no te preocupes. Podemos simplificar este proceso en 3 pasos principales:

1. Calcule su tamaño mínimo de muestra

Determine qué nivel de confianza (importancia) le gustaría en los resultados de su prueba y calcule un tamaño de muestra basado en él. Este será el número mínimo de impresiones/visitantes que necesitan sus variaciones.

2. Verifique las discrepancias en los segmentos

Antes de completar la prueba, ya debería saber cómo segmentar a los visitantes de su sitio web. Una vez que se completa el tamaño mínimo de la muestra, profundice para determinar si hay discrepancias importantes. Si es así, mantenga la prueba en ejecución.

3. Evalúe su ciclo comercial

Sus pruebas deben ejecutarse durante un intervalo de números enteros de ciclos comerciales. Si el tamaño mínimo de la muestra aumenta después de medio ciclo, o 1,75 ciclos, manténgalo funcionando hasta el siguiente número entero (1 o 2 ciclos respectivamente en este ejemplo).

Eso es todo lo que hay que hacer, 3 pasos bastante sencillos. Las estadísticas son tus amigas, siempre y cuando las entiendas.

¿Tiene usted alguna pregunta? Déjalas abajo y las responderé lo mejor que pueda.

Lea otras publicaciones de Webinpixels de Dale Cudmore