Podéis imaginaros que bajo el título de ‘Tendencias y Predicciones en Analítica Web‘ (al igual que por el blog e intereses personales/laborales), no voy a hablar de clarividencias, adivinaciones u otras pseudociencias y, por ello, nos basaremos en datos a los que se aplican métodos científicos.
Por tanto, de la definición que Wikipedia nos da sobre ‘predecir’ sólo nos quedaremos con que se trata de ‘anunciar por revelación, ciencia o conjetura algo que ha de suceder’.
Asumidos una serie de pasos en nuestra Analítica Web, como la creación de objetivos y KPIs alineados con el negocio, es necesario reportar e interpretar los datos. Ésta es la propuesta de valor en la que se basará la toma de decisiones en el contexto actual pero con vistas a un corto-medio plazo.
No hace falta imaginarnos un mundo más lógico en el que, por ejemplo, un 99% de las decisiones en marketing (y negocio) se tomasen en base a los datos (frente al 11% actual, tal cómo se nombró en el GAUC 2013). En éste también tiene cabida el tema de hoy, tan a menudo ‘poco utilizado’.
¿Es suficiente añadir un gráfico o minigráfico? ¿Realmente nos muestran la tendencia y permiten realizar predicciones?
Empezaré por la teoría aunque sea un poco ‘rollo’. Y es que al final veremos que todo es… mucho más fácil.
LOS DATOS OBTENIDOS A PARTIR DE LA ANALÍTICA WEB
La mayoría de nuestros datos podemos catalogarlos como:
- Series temporales (series cronológicas o históricas): son valores de una variable, en este caso sería los de una métrica o KPI, a lo largo del tiempo. La frecuencia, en este caso, será el período de tiempo que separa dos de estos datos (diaria, mensual, trimestral, anual,…).
- Datos de corte transversal (cross section): corresponden a los datos o valores para distintas acciones o elementos relacionados, por ejemplo los valores de distintas campañas que buscan el mismo objetivo o cuando segmentamos por visitantes nuevos&recurrentes, en un mismo momento de tiempo.
- Datos de panel (panel data): son combinaciones de las dos anteriores disponiendo de datos sobre distintas métricas en diversos momentos de tiempo.
Es relativamente fácil imaginar muchísimos más ejemplos de cada uno de ellos simplemente abriendo nuestra herramienta de Analítica, por ejemplo Google Analytics, y observar que en casi en cualquier informe encontramos ejemplos de los distintos tipos de datos mencionados.
En predicción elemental utilizaremos datos de series temporales, si bien, la simulación y algunas técnicas avanzadas de predicción también hacen uso de los otros tipos.
Tradicionalmente, una serie temporal puede descomponerse en base a 4 componentes:
- Tendencia (creciente o decreciente): existencia de un patrón regular a lo largo del tiempo
- Estacionalidad (variación cíclica regular): movimiento periódico a corto plazo por la influencia de factores que se repiten periódicamente (cada año, cada mes, cada semana,…)
- Ciclo o variación cíclica regular: recoge las oscilaciones periódicas de amplitud superior a un año, movimientos irregulares alrededor de la tendencia, con un período y amplitud variables.
- Componente irregular, variación aleatoria, ruido o residuo: son oscilaciones accidentales, erráticas e irregulares
En la práctica, podemos reducir los 4 componentes en 2: tendencia y estacionalidad.
La mayoría de las métricas y KPIs presentarán tendencia pudiendo también presentar estacionalidad o carecer de ella.
TÉCNICAS PREDICTIVAS
Hay numerosas técnicas. A efectos prácticos prescindiremos de las aplicables a series que no presentan tendencia ni estacionalidad (por ejemplo, el alisado simple, aunque mencionaremos la ‘media móvil’) y nos centraremos en las técnicas aplicables a series con tendencia como los ‘alisados con tendencia’ y los ajustes con funciones matemáticas.
Concretamente nos van a interesar los análisis de regresión con los que podremos ir más allá de los datos reales y predecir valores futuros.
Una línea de tendencia o línea de regresión es la línea de mejor ajuste para un determinado conjunto de puntos que representan los datos y se calcula como una función explícita y=f(x).
Tenemos 6 modelos predeterminados para calcular la línea de tendencia dependiendo de la función mencionada (lineal, logarítmica, etc…), la cual siempre minimiza la suma de los cuadrados de las desviaciones o residuos:
- Tendencia lineal: obtendremos una línea recta que se utiliza con conjuntos de datos lineales simples (es decir, si la trama de los puntos de datos se parece a una línea). Indicará que algo aumenta o disminuye a un ritmo constante.
- Tendencia logarítmica: obtenemos una línea curva útil cuando el índice de cambios de los datos aumenta o disminuye rápidamente y después se estabiliza. Puede utilizar valores positivos o negativos.
- Tendencia potencial: obtenemos una línea curva que se utiliza con conjuntos de datos que comparan medidas que aumentan a un ritmo concreto. No usar valores cero o negativos.
- Tendencia exponencial: obtenemos una línea curva para cuando los valores de los datos aumentan o disminuyen a intervalos cada vez mayores. No usar valores cero o negativos.
- Tendencia parabólica: obtenemos una línea curva que se utiliza cuando los datos fluctúan. Es útil, por ejemplo, para analizar las pérdidas y ganancias de un conjunto de datos grande.
- Media móvil: la línea obtenida atenúa las fluctuaciones en los datos para mostrar con mayor claridad la trama o la tendencia.
EN LA PRÁCTICA…
Pues… todo es más fácil, sobre todo si usamos Excel:
- Crear un gráfico a partir de los datos
- Desde el menú ‘gráfico’ (o haciendo clic derecho sobre el mismo) añadir una línea de tendencia.
- Seleccionar el tipo de línea con un R al cuadrado más alto
- Dentro de las opciones de la línea de tendencia podemos escribir un valor (período) en ‘extrapolar > hacia delante’ con lo que se prolongará más allá de los datos de la serie.
- En Formato>Opciones de la línea creada podemos especificar un nombre (por ejem: Pronóstico…)
R al cuadrado (R2) o coeficiente de determinación:
- Cuantifica la proporción de la variación de la variable dependiente respecto a la variable independiente, es decir, en qué grado la línea de tendencia se ajusta a los datos
- Podemos visualizarlo si marcamos la opción correspondiente en las propiedades de la línea de tendencia seleccionada (presentar el valor R cuadrado en el gráfico)
- Toma valores entre 0 y 1. La tendencia será más confiable cuanto más cercana esté a 1. (R2=1 indicará una correspondencia perfecta entre la línea de regresión y los datos).
Fuentes:
- Wikipedia
- Ayuda Microsoft Excel
Saludos!!