Datathon Cajamar UniversityHack 2022

El Data Partner

Desde sus orígenes en 1867, Agbar se ha consolidado como un referente en la preservación de los recursos naturales. Después de más de 150 años de trayectoria, seguimos adaptándonos e innovando para dar respuesta a las necesidades de nuestro entorno, con el objetivo de mejorar la calidad de vida de las personas. Gestionamos el agua con eficiencia y lideramos el desarrollo de soluciones y tecnologías en equilibrio con el medio ambiente, con la vocación de trasladar la experiencia acumulada y el valor de la sostenibilidad a la ciudadanía.

El objetivo

La estimación correcta de la demanda de agua potable representa una condición indispensable para la planificación, diseño y operación eficiente y sostenible de todos los elementos que conforman los sistemas de captación, transporte y suministro de agua potable. Esta demanda está sujeta a variaciones interanuales, estacionales, semanales, diarias e incluso horarias, muy significativas y que dependen de múltiples factores como son los ciclos de actividad económica, la meteorología, las situaciones de crisis sanitaria, los cambios en los bloques tarifarios, etc.

Dado lo anterior y partiendo de un amplio dataset con un histórico de consumos y utilizando otras bases de datos abiertos, te retamos a crear el mejor modelo de predicción de consumos en base al cual podamos realizar estimaciones a futuro en cualquiera de los municipios que gestionamos en España.

El dataset

Contiene la información sobre el consumo de agua de 2747 contadores, ubicados en el litoral de la Comunidad Valenciana, pudiendo comprender viviendas, locales comerciales o industrias.

El consumo se proporciona con una frecuencia horaria desde el 01/02/2019 hasta el 31/01/2020.

El objetivo es predecir el consumo para cada uno de los contadores en los siguientes horizontes temporales:
- Consumo diario del 1 al 7 de febrero incluidos.
- Consumo de la primera semana de febrero (del 1 al 7 incluidos).
- Consumo de la segunda semana de febrero (del 8 al 14 incluidos).

Fichero

• Dataset “Modelar_UH2022.txt”.

Con este fichero deberás construir un modelo predictivo que permita estimar el consumo de agua.

Variables

• ID: Identificador del Contador que registra la medida de lectura.
• SAMPLETIME: Fecha y hora del consumo en formato UTC. Momento en el que se produce el mensaje o el contador ha emitido el registro.
• READINGINTEGER: Medida registrada por el contador en litros. Parte entera.
• READINGTHOUSANDTH: Medida registrada por el contador en litros. Parte decimal.
• DELTAINTEGER: Consumo calculado en litros a partir de la medida registrada por el contador. Parte entera.
• DELTATHOUSANDTH: Consumo calculado en litros a partir de la medida registrada por el contador. Parte decimal.

Formato y extructura

Este dataset tiene extensión txt con la siguiente estructura y formato:
• Nombres de variables: incluidos en la cabecera
• Separador: "|"
• Codificación: UTF-8

Sin nombre de fila.

Dataset respuesta

Es el fichero solicitado con tus predicciones de consumo.

Se denominará “Equipo_UH2021.txt” donde ‘Equipo’ será el nombre del equipo con el que te has inscrito.

Sin cabecera ni nombres de filas.

Constará de 2.747 filas con 10 columnas cada fila:
• ID: ordenado de forma ascendente
• Dia_1: Predicción para el día 01/02/2020
• Dia_2: Predicción para el día 02/02/2020
• Dia_3: Predicción para el día 03/02/2020
• Dia_4: Predicción para el día 04/02/2020
• Dia_5: Predicción para el día 05/02/2020
• Dia_6: Predicción para el día 06/02/2020
• Dia_7: Predicción para el día 07/02/2020
• Semana_1: Predicción para la semana del 01/02 al 07/02/2020, ambos inclusive
• Semana_2: Predicción para la semana del 08/02 al 14/02/2020, ambos inclusive

Separando campos con “|”, el valor de la predicción en litros, y los decimales con “.”.

Se valorará

La calidad y la técnica utilizada para generar un modelo.

Se analizará la técnica analítica utilizada y se compararán objetivamente los valores reales frente a los valores predichos por el modelo. Para ello, se tendrá que minimizar las desviaciones con respecto a los datos reales.

Se calculará el “error cuadrático medio” o RMSE, definido como:

Siendo:
“n” el número de casos,
“ŷ” el valor estimado,
“y” el valor real

Se aplicará al subconjunto de las predicciones del mismo horizonte temporal, calculando una media para los 7 RMSE diarios y otra media para los 2 RMSE semanales, obteniéndose la métrica final del siguiente modo:
Métrica = 50% RMSE (media diaria) + 50%RMSE (media semanal).

¿Qué pedimos?

Además del “dataset respuesta”, te pedimos:

Un script (“script exploración”) que contendrá el análisis exploratorio y procesos relevantes testados o ejecutados pero no aplicados en la solución final.
Un script (“script predicción”) que contendrá el proceso de extracción, transformación y carga de los datos, el procesado aplicado así como la generación de predicciones.
Una breve descripción donde se expondrá el proceso y la metodología seguida, las técnicas aplicadas y los resultados obtenidos (en formato presentación, pdf o html, máximo 5 páginas con 3 imágenes).

Un valor menor no conllevará explícitamente una mejor clasificación. El “script de predicción” mencionado debe cumplir que sea generalizable y en el caso de métricas equiparables, se tendrán en cuenta los criterios siguientes:

el Jurado podrá valorar si la documentación interna aportada (código y comentarios) está correctamente estructurada, expresada y es reproducible.
los scripts de exploración y predicción deben constituir un proyecto de data science con todas sus fases.

En la fase de Presentación y Fallo, el Jurado Nacional tendrá en cuenta, además de los criterios anteriores, que el Proyecto se trasmita de forma clara y concisa.

Ayudas al desarrollo del reto

Además del dataset proporcionado, se muestran algunos recursos que podrían ser de interés para la realización del presente reto.

Librerías R y Python

Prophet
Prophet es un procedimiento de pronóstico implementado en R y Python. Es rápido y proporciona pronósticos completamente automatizados que los científicos y analistas de datos pueden ajustar manualmente.

Librerías en R

dplyr/data.table
Los paquetes dplyr y data.table son herramientas para la exploración y manipulación de datos.

ggplot2
Completo paquete que nos permite representar una gran galería de gráficos. Mejora las funciones habituales de R para gráficos pudiendo incluir más capas y especificaciones.

caret
Incluye sencillas herramientas para analizar la calidad de los datos, selección de características, optimización de parámetros o construcción de modelos predictivos.

mlr
Otro de los meta paquetes más populares. Presenta un marco completo para acceder a distintos paquetes de estadística y machine learning de una forma integrada y coherente.

Tidyverse
Colección de paquetes de R diseñados para data Science.

Keras
API para redes neuronales de alto nivel.

Tensor Flow
Interfaz para acceder a la biblioteca de software libre TensorFlow™ que utiliza diagramas de flujo de datos realizar cálculos numéricos.

Series Temporales
Paquetes de R para el análisis de series temporales.

Librerías en Python

Numpy
Manejo de matrices y la realización de operaciones matriciales y vectoriales de forma sencilla y eficiente.

Matplotlib
Gráficas muy completas para mostrar los resultados de tus pruebas.

Scikit-learn
Librería centrada en machine learning: de clasificadores o regresores, hasta selección automática de modelos y análisis de resultados.

Cajamar Water Footprint