Los Superpoderes de la DATA: #Análisis de cesta

En esta serie de artículos intentaremos explicar, de forma amena y sencilla, los superpoderes de la data science y del análisis de los datos en el universo de la publicidad con el objetivo de mejorar nuestro conocimiento sobre clientes y prospectos. Hoy explicaremos el concepto de #Análisis de cesta.


La Navidad ya casi está aquí y, como una gran mayoría de españoles, posiblemente hayáis comprado algunos de vuestros regalos navideños a través de internet. Este cambio en los hábitos de consumo, acelerado por la crisis sanitaria, beneficia a los ecommerces al atraer a un nuevo público, pero también al generar datos muy útiles sobre los comportamientos de compra.  Analizando la composición de los carritos de la compra, las tiendas online pueden identificar qué productos o categorías de productos tienden a adquirirse conjuntamente, y así afinar su motor de recomendación para proporcionar las mejores ideas de regalo a sus usuarios. Este superpoder se llama el Análisis de cesta.

En el último artículo de los Superpoderes de la Data (disponible aquí: #3 clustering) introdujimos el concepto de aprendizaje no supervisado que le da al modelo la capacidad de aprender por sí mismo sin conocimiento previo. El algoritmo de análisis de cesta pertenece también a la misma categoría, pero, a diferencia de él, requiere poca preparación de los datos.

¿En qué consiste concretamente? El análisis de cesta identifica los productos comprados juntos y transpone esta relación en forma de reglas que pueden expresar la asociación de dos o más artículos. Imaginaros por ejemplo que nuestro superhéroe se va de compras para preparar la cena de navidad, y se decide por una langosta y una botella de vino blanco. La regla de asociación que se deduce es la siguiente: {langosta} -> {vino blanco}, lo que significa que, si hay una langosta en una transacción, se espera encontrar también una botella de blanco. La langosta corresponde al antecedent y la botella de vino blanco al consequent.

 
 

Para interpretar de forma precisa los resultados, existen otros indicadores que resultan impredecibles cuando evaluamos las posibles asociaciones obtenidas: el support, la confidence y el lift. Sin más dilación, exploramos estos 3 conceptos:

  • El support nos indica el número de veces que se produce la regla en comparación con el número total de ventas. Cuanto mayor es este indicador, más probabilidad existe de que esta asociación se repita en las futuras compras.

  • La confidence nos aporta el grado de precisión en el análisis. Este indicador nos permite medir la fiabilidad de la regla, calculando la probabilidad de encontrar el vino blanco en una transacción sabiendo que la langosta está también incluida en la misma.

  • El lift determina si la relación es muy probable o ha sido producto del azar. ¿Cómo? Comparando la probabilidad de que la langosta y el vino blanco se compren conjuntamente versus la probabilidad de que se adquieran por separado.

Si el lift es igual a 1, la asociación entre los productos es debido a una mera coincidencia. Si por el contrario es superior a 1, existe una relación de complementariedad: si compramos uno, compramos el otro.

¡Ahora a jugar! Para concluir este artículo, os propongo adivinar cuáles son los productos de estas cestas de compra que más suelen comprarse juntos:

Para encontrar la respuesta, filtramos sobre el support superior al 1% para tener las mayores probabilidades de encontrar esta asociación en futuras transacciones. Elegimos después el lift superior a 1 para excluir de la ecuación las asociaciones debidas a una pura coincidencia. Por último, seleccionamos la confidence más elevada (40%) para asegurarnos la fiabilidad de la regla. Los productos más relacionados serían, en este caso, las lentejas y los garbanzos cocidos.

El análisis de cesta nos ofrece el poder de predecir las ventas futuras deduciendo las asociaciones de productos más probables. Y ello nos da una ventaja crucial cuando se trata de construir estrategias de venta cruzada y diferenciarnos de nuestros competidores.

En este 2022 que está a punto de comenzar, exploraremos otra cara del machine learning…

Sophie Algarte 

DATA Director de Avante Evolumedia

DataMario TorijaAvante Evolumedia