RETO MINSAIT REAL ESTATE MODELLING
¿Eres capaz de estimar la duración de una visita a una página web?
Conocer el tiempo que un usuario navega por una página web es uno de los factores clave para la gestión de los recursos digitales, al estar convirtiéndose éstos en la ventana donde el mundo se informa.
Obtener un modelo predictivo ayuda a establecer cuáles son los motivos por los que una página concreta es más visitada que otras.
En este desafío dispondrás de variables numéricas y categóricas, y también campos de texto libre e imágenes asociadas para estimar un modelo.
EL OBJETIVO
Te retamos a que encuentres el mejor modelo de regresión mediante el desarrollo de un modelo predictivo que obtenga la duración media de las visitas recibidas en la web para cada inmueble en venta.
Para ello puedes utilizar las distintas técnicas de Machine Learning disponibles para este tipo de problemas.
Tu objetivo será minimizar la métrica “Median Absolute Error Loss”, definida como la mediana de los valores absolutos de las diferencias entre el valor objetivo y la predicción (en R, en Python).
EL DATASET
Se proporciona un dataset con datos históricos de viviendas y otros activos inmobiliarios con las características del mismo, ubicación, superficie, precio, texto descriptivo e imágenes, así como información sobre la navegación en la página web del inmueble.
Ficheros
- Dataset "Modelar_UH2019.txt": El número total de registros es de 9958 con 52 variables por registro más la variable objetivo a predecir. Con este fichero deberás construir un modelo predictivo que permita estimar el tiempo medio en la web para cada inmueble.
- Dataset "Fotos_modelar_UH2019.zip": Para la realización del reto, adicionalmente se aportan las fotografías de los inmuebles relacionados en el fichero “Modelar_UH2019.txt”, según la siguiente codificación “HY_ID + posiciónFoto + cadenaCaracteresAleatorios.jpg”. Su uso no es obligatorio. “La posiciónFoto puede variar entre 1 y 5.
- Dataset "Estimar_UH2019.txt": El modelo generado lo aplicarás a los datos del fichero “Estimar_UH2019.txt”, de modo que calcules, para cada inmueble, tu estimación de tiempo medio. Este fichero consta de 1104 registros y 52 variables.
- Dataset "Fotos_estimar_UH2019.zip": contiene las fotografías de los inmuebles relacionados en el fichero "Estimar_UH2019.txt"
- Glosario: Relación de variables y su significado.
Variables
Las variables con el prefijo HY provienen de una selección de registros de Haya Real Estate.
Las variables con el prefijo IDEA provienen de Idealista/Lab y se refieren a las zonas donde están situados los registros anteriores.
Las variables con el prefijo GA provienen de la analítica web de Haya Real Estate.
Ámbito geográfico
El análisis dispone de información de inmuebles de todo el territorio español.
Formato y estructura
Los datasets con formato zip contienen las imágenes de los inmuebles en formato jpg.
Los datasets con formato txt tienen como estructura:
- Nombres de campo: Incluidos en la cabecera.
- Separador: "|".
- Codificación: UTF-8.
- Indicador de símbolo decimal: Como símbolo decimal se ha considerado el punto ".".
Horizonte temporal
Los datos GA_ se refieren al periodo 01/01/2017 hasta 15/12/2018
La información de las variables IDEA_ está zonificada y presentada a fecha 31/12/2017
Dataset respuesta
Se denominará “Equipo_UH2019.txt” donde Equipo será el nombre del equipo con el que te has inscrito y constará exclusivamente de 1104 registros (1105 con la cabecera), con dos columnas que corresponden a la variable “HY_ID” (identificación del inmueble en “Estimar_UH2019.txt”) y la variable “TM_Est”, que será el tiempo medio estimado por tu modelo
SE VALORARÁ
- La calidad y la técnica utilizada para generar un modelo
Se analizará la técnica analítica utilizada y se compararán objetivamente los valores reales frente a los valores predichos por el modelo. La métrica a minimizar será la “Median Absolute Error Loss”. - Comunicación
Que la documentación interna aportada (códigos, comentarios) esté correctamente expresada y estructurada, y sea reproducible. En la Fase de Presentación de mejores trabajos, el Jurado tendrá en cuenta que el modelado y los resultados obtenidos se transmitan de forma clara y concisa.
AYUDAS AL DESARROLLO DEL RETO
-
Librerías de análisis de datos y visualización
De cara a abordar el reto, y centrándonos en los dos principales lenguajes de programación que nos permiten realizar analítica avanzada, Python y R, os mostramos algunas librerías que os pueden servir de ayuda:
Librerías en R
dplyr/ data.table
Los paquetes dplyr y data.table son herramientas para la exploración y manipulación de datos.ggplot2
Completo paquete que nos permite representar una gran galería de gráficos. Mejora las funciones habituales de R para gráficos pudiendo incluir más capas y especificaciones.caret
Incluye sencillas herramientas para analizar la calidad de los datos, selección de características, optimización de parámetros o construcción de modelos predictivos.
mlr
Otro de los meta paquetes más populares. Presenta un marco completo para acceder a distintos paquetes de estadística y machine learning de una forma integrada y coherente.
Keras
API para redes neuronales de alto nivel.
Tensor Flow
Interfaz para acceder a la biblioteca de software libre TensorFlow™ que utiliza diagramas de flujo de datos realizar cálculos numéricos.
Librerías en Python
Numpy
Manejo de matrices y la realización de operaciones matriciales y vectoriales de forma sencilla y eficiente.Matplotlib
Gráficas muy completas para mostrar los resultados de tus pruebas.Scikit-learn
Librería centrada en machine learning: de clasificadores o regresores, hasta selección automática de modelos y análisis de resultados.