background

RETO MINSAIT REAL ESTATE MODELLING

¿Eres capaz de estimar la duración de una visita a una página web?

Conocer el tiempo que un usuario navega por una página web es uno de los factores clave para la gestión de los recursos digitales, al estar convirtiéndose éstos en la ventana donde el mundo se informa.

Obtener un modelo predictivo ayuda a establecer cuáles son los motivos por los que una página concreta es más visitada que otras.

En este desafío dispondrás de variables numéricas y categóricas, y también campos de texto libre e imágenes asociadas para estimar un modelo.



dos


EL OBJETIVO

Te retamos a que encuentres el mejor modelo de regresión mediante el desarrollo de un modelo predictivo que obtenga la duración media de las visitas recibidas en la web para cada inmueble en venta.

Para ello puedes utilizar las distintas técnicas de Machine Learning disponibles para este tipo de problemas.

Tu objetivo será minimizar la métrica “Median Absolute Error Loss”, definida como la mediana de los valores absolutos de las diferencias entre el valor objetivo y la predicción (en R, en Python).



EL DATASET

Se proporciona un dataset con datos históricos de viviendas y otros activos inmobiliarios con las características del mismo, ubicación, superficie, precio, texto descriptivo e imágenes, así como información sobre la navegación en la página web del inmueble.

Registros

  • Dataset "Modelar_UH2019.txt": El número total de registros es de 7245 con 56 variables por registro más la variable objetivo a predecir. Con este fichero deberás construir un modelo predictivo que permita estimar el tiempo medio en la web para cada inmueble.
  • Dataset "Fotos_modelar_UH2019.zip": Para la realización del reto, adicionalmente se aportan las fotografías de los inmuebles relacionados en el fichero “Modelar_UH2019.txt”, según la siguiente codificación “ID_HAYA + posiciónFoto + cadenaCaracteresAleatorios.jpg”. Su uso no es obligatorio.
  • Dataset "Estimar_UH2019.txt": El modelo generado lo aplicarás a los datos del fichero “Estimar_UH2019.txt”, de modo que calcules, para cada inmueble, tu estimación de tiempo medio. Este fichero consta de 1000 registros y 56 variables.
  • Dataset "Fotos_estimar_UH2019.zip": contiene las fotografías de los inmuebles relacionados en el fichero "Estimar_UH2019.txt"
  • Glosario: Relación de variables y su significad.
  • Dataset "Equipo_UH2019.txt": El dataset de respuesta a entregar se denominará con el nombre de tu equipo y constará exclusivamente de 1000 registros (1001 con la cabecera), con dos columnas que corresponden a la variable ID_Haya (identificación del inmueble en “Estimar_UH2019.txt”) y la variable TM_Est, que será el tiempo medio estimado por tu modelo.

Ámbito geográfico

El análisis dispone de información de inmuebles de todo el territorio español.

Formato y estructura

Los datasets con formato zip contienen las imágenes de los inmuebles en formato jpg.
Los datasets con formato txt tienen como estructura:

  • Nombres de campo: Incluidos en la cabecera.
  • Separador: "|".
  • Codificación: UTF-8.
  • Indicador de símbolo decimal: Como símbolo decimal se ha considerado el punto ".".

SE VALORARÁ

  • La calidad y la técnica utilizada para generar un modelo
    Se analizará la técnica analítica utilizada y se compararán objetivamente los valores reales frente a los valores predichos por el modelo. La métrica a minimizar será la “Median Absolute Error Loss”.
  • Comunicación
    Que la documentación interna aportada (códigos, comentarios) esté correctamente expresada y estructurada, y sea reproducible. En la Fase de Presentación de mejores trabajos, el Jurado tendrá en cuenta que el modelado y los resultados obtenidos se transmitan de forma clara y concisa.

AYUDAS AL DESARROLLO DEL RETO

  • Librerías de análisis de datos y visualización

    De cara a abordar el reto, y centrándonos en los dos principales lenguajes de programación que nos permiten realizar analítica avanzada, Python y R, os mostramos algunas librerías que os pueden servir de ayuda:

    Librerías en R

    dplyr/ data.table
    Los paquetes dplyr y data.table son herramientas para la exploración y manipulación de datos.

    ggplot2
    Completo paquete que nos permite representar una gran galería de gráficos. Mejora las funciones habituales de R para gráficos pudiendo incluir más capas y especificaciones.

    caret
    Incluye sencillas herramientas para analizar la calidad de los datos, selección de características, optimización de parámetros o construcción de modelos predictivos.


    mlr
    Otro de los meta paquetes más populares. Presenta un marco completo para acceder a distintos paquetes de estadística y machine learning de una forma integrada y coherente.


    Keras
    API para redes neuronales de alto nivel.


    Tensor Flow
    Interfaz para acceder a la biblioteca de software libre TensorFlow™ que utiliza diagramas de flujo de datos realizar cálculos numéricos.


    Librerías en Python

    Numpy
    Manejo de matrices y la realización de operaciones matriciales y vectoriales de forma sencilla y eficiente.

    Matplotlib
    Gráficas muy completas para mostrar los resultados de tus pruebas.

    Scikit-learn
    Librería centrada en machine learning: de clasificadores o regresores, hasta selección automática de modelos y análisis de resultados.

  • Herramientas

    Recuerda que puedes utilizar las herramientas y/o lenguaje de programación con los que te sientas más cómodo para enfrentarte a la Cajamar UniversityHack 2018.

    SALESFORCE
    Salesforce es la Customer Success Platform que ayuda a las empresas a conectar con sus clientes de una manera totalmente nueva a través de sus ventas, servicios, marketing, comunidades y aplicaciones de análisis.
    Descubre las herramientas que dispone: Sales Cloud, Service Cloud, Marketing Cloud, Commerce Cloud, Quip y Saleforce Plataform.