Reto Salesforce Predictive Modelling
¿Eres capaz de estimar el poder adquisitivo de un cliente?
El poder adquisitivo de un cliente es uno de los ejes principales en el consumo de productos financieros, siendo una variable crítica y de difícil cálculo. Uno de los retos a los que se enfrentan las empresas es predecir esta variable de cara a establecer segmentaciones estratégicas más eficientes que les ayuden en la toma de decisiones a la hora de ofrecer el producto más adecuado en cada momento a cada persona, según las necesidades de cada cliente. En este desafío dispondrás de 90 características anónimas que te permitirán estimar y predecir el poder adquisitivo de cada cliente.
EL OBJETIVO
Te retamos a que encuentres el mejor modelo de regresión mediante el desarrollo de un modelo predictivo que defina con precisión el poder adquisitivo del cliente.
Para ello puedes utilizar las distintas técnicas de Machine Learning disponibles para este tipo de problemas.
EL DATASET
Se proporciona un dataset con datos históricos de un grupo clientes, particulares y autónomos, del Grupo Cajamar con 88 variables de productos incluyendo atributos socio demográficos. El desafío consiste en estimar el poder adquisitivo del cliente en base a la información suministrada.
Registros
- Dataset Training: El número total de registros es de 363.834 con 89 variables por registro. Con el fichero de Train deberás construir un modelo predictivo que permita estimar el poder adquisitivo del cliente, para ello dispones de este fichero con las distintas variables explicativas a nivel de cliente y una variable Poder_Adquisitivo a predecir.
- Dataset Test: El número total de registros es de 156.315 con 88 variables por registro. El modelo generado con los datos de Train.txt lo aplicarás a los datos del fichero Test.txt, de modo que asignes a cada cliente su poder adquisitivo estimado en base a las variables más predictivas.
- Test_Mission.txt (Dataset Entrega): A cada cliente de Test.txt se le asignará el poder adquisitivo que estima el modelo. El dataset incluirá exclusivamente 156.315 registros (156.316 con la cabecera) y 2 variables por registro, ID_Customer y PA_Est, donde cada registro identificará a un cliente del Test.txt y el poder adquisitivo estimada por el modelo.
Variables
- ID_Customer: Identificador de cliente.
- Socio_Demo_01-05: Variables sociodemográficas relacionadas con el cliente.
- Imp_Cons_01-17: Importe de consumos habituales del cliente en base a sus operaciones con tarjetas y domiciliaciones más comunes.
- Imp_Sal_01-21: Importe de los saldos de los distintos productos financieros.
- Ind_Prod_01-24: Tenencia de los distintos productos financieros.
- Num_Oper_01-20: Número de operaciones a través de los distintos productos financieros.
- Poder_Adquisitivo: Variable objetivo, variable numérica que define el poder adquisitivo del cliente.
Las siguientes variables son númericas:
- Desde Imp_Cons_01 hasta Imp_Cons_17.
- Desde Imp_Sal_01 hasta Imp_Sal_21.
- Desde Num_Oper_01 hasta Num_Oper_20.
- Socio_Demo_03 hasta Socio_Demo_05.
- Poder_Adquisitivo.
Las siguientes variables son categóricas:
- Desde Ind_Prod_01 hasta Ind_Prod_24
- Socio_Demo_01 y Socio_Demo_02
Ámbito geográfico
El análisis dispone de información de clientes de todo el territorio español.
Formato y estructura
Ambos datasets tienen formato txt, comprimido en un zip. La estructura del mismo es la siguiente:
- Nombres de campo: Incluidos en la cabecera.
- Separador: Se ha usado como separador la coma ",".
- Codificación: UTF-8.
- Indicador de símbolo decimal: Como símbolo decimal se ha considerado el punto ".".
363.834
registros para el training
156.315
registros para el testing
SE VALORARÁ
- Comunicación
Que los resultados del Proyecto se transmitan de forma clara y concisa, la documentación interna aportada (códigos, comentarios) esté correctamente expresada y estructurada, y sea reproducible. - La calidad del modelo
Mediante los correspondiente parámetro de validación en función de la técnica analítica utilizada y comparando objetivamente los valores reales frente a los valores predichos por el modelo en el Test. - Técnica utilizada
Así como su correcta aplicación al problema planteado.
AYUDAS AL DESARROLLO DEL RETO
-
Librerías de análisis de datos y visualización
De cara a abordar el reto, y centrándonos en los dos principales lenguajes de programación que nos permiten realizar analítica avanzada, Python y R, os mostramos algunas librerías que os pueden servir de ayuda:
Librerías en R
dplyr/ data.table
El paquete dplyr/data.table es una gran herramienta para la exploración y manipulación de datos.ggplot2
Librería muy completa que nos permite representar una gran balería de gráficos. Mejora las funciones habituales de R para gráficos pudiendo incluir más capas y especificaciones.caret
Incluye sencillas herramientas para analizar la calidad de los datos, selección de características y construcción de modelos predictivos.
Librerías en Python
Numpy
Manejo de matrices y la realización de operaciones matriciales y vectoriales de forma sencilla y eficiente.Matplotlib
Gráficas muy completas para mostrar los resultados de tus pruebas.Scikit-learn
Librería centrada en machine learning: de clasificadores o regresores, hasta selección automática de modelos y análisis de resultados. -
Herramientas
Recuerda que puedes utilizar las herramientas y/o lenguaje de programación con los que te sientas más cómodo para enfrentarte a la Cajamar UniversityHack 2018.
SALESFORCE
Salesforce es la Customer Success Platform que ayuda a las empresas a conectar con sus clientes de una manera totalmente nueva a través de sus ventas, servicios, marketing, comunidades y aplicaciones de análisis.
Descubre las herramientas que dispone: Sales Cloud, Service Cloud, Marketing Cloud, Commerce Cloud, Quip y Saleforce Plataform.