Uno de los retos a los que se enfrentan las entidades es predecir qué clientes están interesados en solicitar un préstamo personal, ¿quiénes son estos clientes y en qué momento de su ciclo de vida se plantean contratar un préstamo personal?
En este desafío dispondrás de 100 características anónimas que te permitirán definir y predecir la probabilidad de que cada cliente contrate o no un préstamo personal.
Te retamos a que encuentres el mejor modelo de clasificación mediante el desarrollo de un modelo predictivo que asigne con precisión la propensión de contratar o no un préstamo personal.
Para ello puedes utilizar las distintas técnicas de Machine Learning disponibles para este tipo de problemas: Árboles de decisión, Random Forest, SVM, regresión logística, etc.
Información contenida
En este dataset, se le proporciona más de cien variables que describen los atributos de los solicitantes de un préstamo personal del Grupo Cajamar durante el año 2015. El desafío consiste en predecir la variable "respuesta" para cada Id en el test de envió. La columna "TARGET" es la variable a predecir, tomara el valor 0 para los clientes que no contratan y 1 para los si contratan.
Registros
Dataset training: El número total de registros es de 471.839 con 100 variables por registro.
Dataset test: El número total de registros es de 202.517 con 99 variables por registro. Este dataset deberá ser devuelto con la variable de respuesta (target) asignada a cada registro para evaluar la solución.
Variables
Id: Identificador de cliente.
Socio_Demo_01-05: Variables sociodemográficas relacionadas con el cliente.
Imp_Cons_01-17: Importe de consumos habituales del cliente en base a sus operaciones con tarjetas.
Imp_Sal_01-21: Importe de los saldos de los distintos productos financieros.
Ind_prod_01-23: Tenencia de los distintos productos financieros.
Ind_Tend_01-09: Tendencia de los saldos en los principales productos financieros.
Num_Oper_01-23: Número de operaciones a través de los distintos productos financieros.
Target: Variable objetivo, es una variable ordinal y determina la contratación, valor 1 o no del producto, valor 0.
Las siguientes variables son continuas:
Las siguientes variables son categóricas (nominales):
Las siguientes variables son discretas:
Ámbito geográfico
El análisis dispone de información de clientes de todo el territorio español.
Ventana temporal
Se han tenido en cuenta todas las operaciones realizadas entre 2015-01-01 y 2015-12-31.
Formato y estructura
El dataset "train" se encuentra en formato txt, comprimido en un zip. La estructura del mismo es la siguiente:
El dataset "test" debe generarse en formato txt con la siguiente estructura::
De cara a abordar el reto, y centrándonos en los dos principales lenguajes de programación que nos permiten realizar analítica avanzada, Python y R, os mostramos algunas librerías que os pueden servir de ayuda:
Numpy
Manejo de matrices y la realización de operaciones matriciales y vectoriales de forma sencilla y eficiente.
Matplotlib
Gráficas muy completas para mostrar los resultados de tus pruebas.
Scikit-learn
Librería centrada en machine learning: de clasificadores o regresores, hasta selección automática de modelos y análisis de resultados.
dplyr/ data.table
El paquete dplyr/data.table es una gran herramienta para la exploración y manipulación de datos.
ggplot2
Librería muy completa que nos permite representar una gran balería de gráficos. Mejora las funciones habituales de R para gráficos pudiendo incluir más capas y especificaciones.
caret
Incluye sencillas herramientas para analizar la calidad de los datos, selección de características y construcción de modelos predictivos.
BigML
BigML es una plataforma de Machine Learning, programable y escalable que hace que sea fácil resolver y automatizar la clasificación, regresión, clustering, detección de anomalías y Association Discovery. BigML está ayudando a miles de analistas, desarrolladores de software, científicos y académicos de todo el mundo a resolver tareas Machine Learning "end-to-end".
Si quieres puedes apoyarte en la cuenta PRO de BigML valorada en 300$ que se facilitará a todos los equipos participantes en la Cajamar PythonHack 2016.