Presiona ENTER para ver los resultados o ESC para cancelar.

8 Conceptos estadísticos clave para growth hackers

Antes de que salgas corriendo… si no eres muy ducho con las matemáticas, la estadística te da alergia y eres de letras, este artículo es para ti. Yo no soy ningún experto en matemáticas, pero soy consciente de la importancia de manejar los números con soltura para poder convertirte en growth hacker.

Te prometo que si te quedas conmigo un rato, te sorprenderá cómo la estadística básica te puede ayudar a interpretar mejor tus datos y por lo tanto, a tomar mejores decisiones.

Tranquilo, no te voy a pedir que memorices fórmulas, yo soy incapaz de hacerlo, pero te voy a explicar los conceptos básicos y te voy a proporcionar las herramientas para que nunca vuelvas a malinterpretar tus experimentos.

Cómo calcular el % de cambio

El cambio de una variable se mide porcentualmente. Veamos un ejemplo:

Calcular el cambio de una variable

% Cambio = (valor nuevo – valor antiguo) / valor antiguo* 100

El cambio indica una tendencia, y por lo tanto te dice si estás haciendo las cosas bien o mal. Cuidado con usar periodos muy cortos para medir estos cambios, ya que pueden ser insuficientes para sacar conclusiones de los datos.

Cómo calcular el % de la diferencia entre dos variables

Somos muy dados a confundir cambio con diferencia. El cambio lo calculamos cuando queremos ver la tendencia respecto a un punto concreto, por ejemplo, queremos ver cómo ha evolucionado la tasa de conversión desde el mes pasado hasta el mes actual.

Sin embargo, calculamos la diferencia cuando queremos comparar dos valores y ninguno de los dos va a servir como referencia. Por ejemplo, tenemos un test A/B y queremos ver la diferencia entre las tasas de conversión de la versión A y de la versión B.

Calcular diferencia porcentual entre dos variables

% Diferencia = abs((Valor A - Valor B)) / ((Valor A + Valor B) / 2) * 100

Fíjate que en cogemos el valor absoluto de la diferencia de ambos valores, ya que el % diferencia siempre es positivo.

Normalmente usamos el % de cambio y no el % de la diferencia, pero es bueno conocer ambas.

¿Cómo calcular el % de error en un experimento?

Antes de realizar una nueva acción de marketing o cambio en tu producto, debes realizar una hipótesis del estilo “Si cambio A conseguiré B”. Por ejemplo, “si incluyo un pop-up solicitando el e-mail, conseguiré un incremento del 10% en las suscripciones”. Si quieres profundizar en este tema, te recomiendo mi artículo La Máquina del Crecimiento.

El % de error es la diferencia entre el valor estimado y el real. Si finalmente consigues una mejora de 5 puntos en las suscripciones, el % de error será del -100%.

Tasa_de_error

% de error = (Valor estimado – Valor real) / Valor real

¿Cómo sabemos si el resultado de un test A/B es relevante?

Este es un concepto que debes tener muy claro si vas a realizar tests A/B, en caso contrario, darás palos de ciego.

Un test A/B es un experimento en el que pruebas simultáneamente dos versiones de una Web. Durante un periodo de tiempo, diriges tráfico a una y otra versión y finalmente comparas el rendimiento de cada una de ellas. Si la versión A tiene un 10% de conversión y la B un 20%, normalmente te quedarás con la B… pero no siempre. Mira este ejemplo:

Relevancia test AB

En febrero la tasa de conversión es mayor, pero la fiabilidad de los datos es menor, debido a que el número de visitas y conversiones es muy bajo. Para poder comparar ambas tasas de conversión, la significancia estadística del experimento B debería ser mayor.

¿Cómo puedo comparar las tasa de conversión de 2 tests A/B con distintas muestras como ocurre en el ejemplo?

No te compliques y usa esta calculadora:

Significancia estadística entre dos tests

Al margen de lo que te diga la calculadora, cuando hagas test A/B debes tener en cuenta otros factores como la estacionalidad. Si el test A/B no se realiza simultáneamente, ten cuidado porque puede haber diferencias importantes debido a múltiples factores distintos de los que estás probando en el test.

Qué es y cómo se calcula el error estandar

En un test AB, el error estándar nos dice la probabilidad de que la conversión media que arroja el test sea errónea. Por ejemplo, si el error estándar es un 5%, significa que de cada 100 veces que se repita el experimento, 95 dará esa tasa de conversión, y 5 dará una tasa de conversión distinta.

% Error estándar = Raíz cuadrada (tasa de conversión * (1 - tasa de conversión) / # casos)

La tasa de conversión debe expresarse como un número del 0 al 1, y el número de casos es la muestra del experimento.

En un experimento con 100 visitas (casos) y una tasa de conversión del 10% (0,1), el error estándar sería:

Raíz cuadrada((0,1 * (1 - 0,1) / 100)) = 0,03

o lo que es igual, el error estándar sería del 3%.

Herramientas como Optimizely consideran que hasta un 5% de error es aceptable.

Diferencias entre correlación y causa

No tener claras las diferencias entre correlación y causa es uno de los típicos errores estadísticos que se dan en el growth hacking y en la vida real.

Un ejemplo muy de moda sería el del informe sobre la correlación entre factores SEO y la posición de las páginas en los resultados de Google.

Correlación_factores_SEO

 

Este informe realizado por Searchmetrics y traducido por mis colegas de No Sin Mis Cookies, es citado por muchas Webs de marketing y SEO como “la biblia”. El error no está en el informe, sino en cómo lo interpretan algunos. Según la gráfica, el CTR, los +1 de Google Plus y las veces que están compartidas las páginas en Facebook, son los factores más relevantes para que las páginas estén en las primeras posiciones.

Sin embargo, esto no es del todo cierto, lo que dice el informe es que las páginas que están en las primeras posiciones de Google tienen un alto CTR, muchos +1 en Google+ y muchas comparticiones en Facebook, pero no dice que estos factores sean la causa. De hecho, si lo piensas, también podría decirse que al estar las primeras en Google, han podido recibir más +1, comparticiones, y su CTR es mayor.

Que haya una correlación entre dos variables, no significa que una cause la otra.

El coeficiente de correlación entre dos variables se calcula fácilmente con la fórmula Excel

= CORREL()

Si el resultado es 1 significa que hay una correlación positiva total, es decir, que cuando una de las variables aumenta, la otra lo hace en la misma proporción. Una correlación de -1 significa que cuando una de las dos variables aumenta, la otra disminuye en la misma proporción.

Por otro lado, un coeficiente de correlación cercano a 0 significa que no hay correlación entre ambas variables.

Yo usé gráficas de dispersión en mi artículo ¿Por qué no lees mis correos? para intentar vislumbrar la relación entre las tasas de apertura de mis e-mails y otras variables.

Gráfico correlación tasa apertura tasa de clic

En esta gráfica, puede apreciarse una importante correlación positiva entre la tasa de apertura de mis newsletters y la tasa de clic.

Cuidado con las medias

Otro error muy típico al analizar datos es el uso erróneo de las medias aritméticas.

Una media es muy fácil de calcular, se suma un conjunto de valores, y se divide por el número de valor del conjunto.

Veamos un ejemplo en el que una forma errónea de calcular la media da resultados diferentes con los mismos datos.

Uso erróneo de la media aritmética

En el primer caso, la media se ha realizado directamente sobre los porcentajes de conversión, sin tener en cuenta el volumen de los datos. Es decir, se han sumado los % de las tasas de conversión y se han dividido por 6.

En el segundo caso sí que está bien calculada, ya que se han sumado todas las visitas, todas las conversiones, y se ha calculado la tasa de conversión sobre el monto total:

Tasa de conversión media = Total visitas / Total conversiones

La diferencia en este caso es pequeña, solo 0,3 puntos porcentuales, pero en algunos casos podrían darse diferencias significativas.

Otra trampa de las medias son los “outliers” o valores atípicos.

Imagina que quieres calcular la temperatura media de los objetos de una habitación. La mayoría están entre los 20 y los 25 grados centígrados, pero también hay un horno que está a 320 y una bolsa de hielos que está a cero grados.

Medias y valores atípicos

Observa cómo estos valores atípicos desvirtúan la media. Cuidado con los outliers que se pueden colar en tus analíticas y desvirtuar tus conclusiones. Siempre que puedas exclúyelos.

El principio de Pareto

El principio de Pareto, también llamado ley del 80/20 es una de las cosas más útiles que puedes aprender.

Se basa en una ley no escrita por la cual, el 80% de los resultados se obtienen con el 20% de las cosas. Existen infinidad de ejemplos:

  • El 80% de facturación proviene del 20% de tus clientes
  • El 80% de tu tráfico por referrals proviene de un 20% de las páginas que te enlazan
  • El 80% de tus visitas orgánicas provienen de un 20% de tus páginas Web
  • El 20% de tus acciones de márketing generan el 80% del tráfico de tu Web

No siempre se cumple pero es un concepto muy útil y que en general tiene bastante sentido. Conocerlo, te ayuda a focalizarte en ese 20% de cosas que realmente son importantes y dejar de lado el otro 80%, una de las claves del growth hacking.


 

Si el artículo te ha resultado útil, déjame un comentario y cuéntame cuál de estos conceptos no tenías claro o en qué errores estadísticos has caído.

Aviso a navegantes: No soy matemático ni estadista, por lo que puede haber algún gazapo, si es así, por favor, dímelo para que lo corrija cuanto antes 🙂

Si te ha gustado este artículo, suscríbete gratis

(y te llegarán todas las semanas tácticas y casos prácticos de growth hacking que harán crecer tu startup)

Comentarios

27 comentarios

Cristina

Hola Val! Me apunto tu post para futuras referencias, ya que hace años que no toco la estadística y tengo que ponerme a hacer análisis pero ya!
Una cosa, creo que la primera fórmula tiene un error, ya que creo que sería: % Cambio = (valor nuevo – valor antiguo) / valor ANTIGUO * 100. Si no no salen los números que has puesto de ejemplo, me equivoco?
Gracias por el post!

Val Muñoz de Bustillo

Correcto Cristina, corregido, algún gazapo tenía que tener 🙂

Gracias por tu comentario y me alegro de que te sirva de refresco.

Un saludo.

Pablo de Lapatza

Un repaso muy útil, me pasa como a Cristina. Estaba pensando en desempolvar el manual de estadística que vi en la carrera, pero con esto me has ahorrado unas horas de mirar y remirar.
Muchas gracias!

Val Muñoz de Bustillo

Hola Pablo:

En realidad todo lo comentado es muy básico, pero seamos realistas, es lo que necesitamos el 99% de las ocasiones. Para cosas más complejas, a tirar de manual 🙂

Un saludo y gracias por comentar.

Alexandra

Hola Pablo,

Muy bueno tu artículo, la verdad que me va ayudar ahorrar tiempo en el momento que tenga que hacerlo, muchas gracias.

Camilo

Comentarios 11-03-2015

Hola Val, esto es lo que llamo un epic post 🙂

Creo que hasta el más duro en estadística no está exento de tener un reminder de los principales conceptos estadísticos a tener en cuenta en análisis dentro de un área muy específica.

Creo que un ejercicio muy importante y complementario al análisis del principio de pareto es conocer el porcentaje de participación de una variable dentro del total.

Ejemplo: si hago un análisis de dónde viene la mayor parte de mi tráfico dividiria el total de tráfico proveniente de X fuente sobre el total general por 100.

Tráfico proveniente de redes sociales= 500
Tráfico total = 1000

(500/1000)*100=50%

No soy tan didáctico como tu para explicar pero creo que he expresado mi idea.

Saludos y muchas gracias por el post. Guardado en Evernote para referencia futura.

Val Muñoz de Bustillo

Hola Camilo, muchas gracias.

Completamente de acuerdo, recuerdo cuando hice la comparación de mi tráfico total con el que venía de Google+ y vi que era menos del 2% :)… fue muy relevante.

Saludos!

Kevin

Excelente Val! muy agradecido… es lo básico que debemos manejar a la hora de analizar resultados. Tendré este post para futuras referencias. Saludos!

Val Muñoz de Bustillo

Gracias Kevin, espero que te sea de ayuda.

Abel Caballero Díaz

Hola Val,

un buen post. Es importante saber no sólo calcular los valores estadísticos sino conocer qué información aportan para poder tomar decisiones con posterioridad.

Creo que hay un error o bien en la fórmula del error estándar o en el ejemplo que pones. En la fórmula dice “Raíz cuadrada (tasa de conversión * (tasa de conversión – 1) / número de casos)” y luego en el ejemplo haces la resta al revés: Raíz cuadrada((0,1 * (1 – 0,1) / 100))…algo no me cuadra.

Gracias por tu blog, me lo estoy intentando leer entero después de descubrirte en el curso de 12 propósitos de Navidad.

Un saludo
Abel

Val Muñoz de Bustillo

Gracias Abel.

Por supuesto, los número no valen de nada si no podemos tomar decisiones con ellos, esa es la clave de la analítica Web.

Ya está corregida la errata, la fórmula correcta es

% Error estándar = Raíz cuadrada (tasa de conversión * (1 - tasa de conversión) / # casos)

Saludos!

Guillermo

Hola Val.

Me encanto lo de los outliers. Imagino que un ejemplo más cercano podría ser un nicho en el que por estacionalidad cierto mes las visitas bajen radicalmente… Aplica verdad?

Por otro lado me encanta el principio de Pareto, y con el 80% de mi tiempo libre me gusta leerte 😉

Un abrazo!

Val Muñoz de Bustillo

Hola Guillermo:

Sí, cualquier desviación anormalmente alta o baja es un outlier y en general conviene excluirla de nuestros estudios, al menos de las medias.

Un abrazo y gracias por comentar.

Orient@T | Pearltrees

[…] 8 Conceptos estadísticos clave para growth hackers – Growth Hacking Labs. El llibret dels Mentors – espaisXelCon. Losnietos. FiraGran | Enllaços d’interès. Geroonda. El Qorner del Campa per fi. La eleQtriQa en La Vall d Aro. Re Recicla i Re Empren. Albacete – enquentros. Silver Punt Net: Sigues tu el teu Coach: " Fes AutoCoaching ©" i desperta. Rius d'Or – Eooro Vall d'Aro. […]

Maryory Valdés

Hola, Val:

Acabo de darme cuenta el error de interpretación al calcular la media aritmética. A diario me sucede en mi trabajo (con los indicadores de gestión estratégica y operativa) que tenga datos atípicos que afectan el resultado final. Tomaré atenta nota de dicho detalle y retomaré mis libros de estadística. A lo mejor estoy cometiendo más errores de los que mencionas.

Como siempre muy prácticas tus publicaciones.

¡Mil gracias!

Saludos,

Maryory.

Val Muñoz de Bustillo

Hola Maryory, no te preocupes, yo creo que ese error lo hemos cometido todos alguna vez 🙂 Lo difícil es que la gente lo reconozca 😉

Gracias por tu comentario.

Javi

Los famosos percentiles se usan para evitar estos datos atípicos que tu nombras, usando la mediana como el valor válido para definir un dato válido que nos de la media sin las desviaciones.

Con este post me he acordado de múltiples conceptos estadísticos que tenía olvidados, como son la varianza, la covarianza, mediana, percentiles, etc…

Un saludo

Val Muñoz de Bustillo

Exacto Javi, la mediana puede ser una alternativa a la media aritmética para evitar los casos atípicos.
Saludos!

José Carlos

Un recordatorio de estadística aplicada muy interesante. Muy buen estudio.

David Soto

Muchas gracias por este pedazo de post, Val.
Pocas veces había visto un post sobre estadística en marketing digital tan útil, tan aplicable, y a la vez explicado todo de una forma tan sencilla. En definitiva, me ha encantado!
Un saludo 🙂

Val Muñoz de Bustillo

Hola David, muchas gracias por tu comentario.

Saludos!

Ron Alli

No soy un hacha de las matemáticas, según mi parecer hay dos gazapos:
*La lectura del porcentage de error del experimento es del 50%.
* La correlación de variables cuando es negativa, significa que una variable disminuye, la otra también lo hace en la proporcion, sobre la base correlativa de de ambas, salvo que haya un intervalo que limite la correlación.
Me surge la duda cuando aplico la Ley Pereto, en el Test A/B, pues debo aplicar mis técnicas de MK de enfoque, en encontrar los 25 visitantes que me van a dar el % de ventas deseado 20%.

@piquerogonzalez

Cuidadín, cuidadín con la correlación.

Recuerda el caso de estudio de las cigüeñas y los niños recién nacidos.
En ambos casos, las variables guardaban una alta correlación, pero por desgracia los niños y niñas ya no vienen de París… jajaja. 😉

Un saludo, Val.

Post-data: Para los que no conocen la historia, hace unos años se realizó un estudio para determinar que relación podría existir entre el aumento de la natalidad infantil y el aumento de los nidos de cigüeñas en diversas ciudades. Como te puedes imaginar, los resultados fueron bastante sorprendentes.

Val Muñoz de Bustillo

Jajjaja, muy bueno el ejemplo 🙂

Un saludo y gracias por el comentario.

César

Me parece un artículo excelente, aunque como soy novato, me resulta algo abrumador. Todavía no encuentro la forma de ordenar la información que brindas, de manera que lo pueda aplicar a mi nicho, que es el de el colectivo de gente que quiere aprender masaje tailandés. De todas formas te felicito y te agradezco, seguiré estudiando tus artículos con detenimiento. Si se te ocurre algún libro básico sobre métricas y estadística para recomendar, sería fantástico.

Val Muñoz de Bustillo

Hola Cesar:

Muchas gracias por comentar. La verdad, el último libro que me he leído sobre métricas es Lean Analytics, pero no es básico. Sin embargo, con ganas y estudio podrás aprender mucho. Supongo que lo idóneo es empezar por estudiar algo de estadística básica para tener los conceptos claros.

Saludos!

Rubén Molina

Hola antes que nada muy bueno tú artículo, sólo un par de cositas que me permito aportar, 1) su la correlación sea cero (0) no significa que no están relacionadas las variables, solo indica que no hay “correlación linela” que es la fórmula de Excel, la relación entre las variables puede tener otra forma funcional, una parábola de segundo grado por ejemplo. 2) Esto es más de forma, los profesionales que se dedican a la estadística son estadísticos o estadísticas pero no “estadistas”.

Éxitos y te reitero mi felicitación por el artículo.

Saludos


Deja un comentario

Time limit is exhausted. Please reload CAPTCHA.