Desde sus orígenes en 1867, Agbar se ha consolidado como un referente en la preservación de los recursos naturales. Después de más de 150 años de trayectoria, seguimos adaptándonos e innovando para dar respuesta a las necesidades de nuestro entorno, con el objetivo de mejorar la calidad de vida de las personas. Gestionamos el agua con eficiencia y lideramos el desarrollo de soluciones y tecnologías en equilibrio con el medio ambiente, con la vocación de trasladar la experiencia acumulada y el valor de la sostenibilidad a la ciudadanía.
La estimación correcta de la demanda de agua potable representa una condición indispensable para la planificación, diseño y operación eficiente y sostenible de todos los elementos que conforman los sistemas de captación, transporte y suministro de agua potable. Esta demanda está sujeta a variaciones interanuales, estacionales, semanales, diarias e incluso horarias, muy significativas y que dependen de múltiples factores como son los ciclos de actividad económica, la meteorología, las situaciones de crisis sanitaria, los cambios en los bloques tarifarios, etc.
Dado lo anterior y partiendo de un amplio dataset con un histórico de consumos y utilizando otras bases de datos abiertos, te retamos a crear el mejor modelo de predicción de consumos en base al cual podamos realizar estimaciones a futuro en cualquiera de los municipios que gestionamos en España.
Contiene la información sobre el consumo de agua de 2747 contadores, ubicados en el litoral de la Comunidad Valenciana, pudiendo comprender viviendas, locales comerciales o industrias.
El consumo se proporciona con una frecuencia horaria desde el 01/02/2019 hasta el 31/01/2020.
El objetivo es predecir el consumo para cada uno de los contadores en los siguientes horizontes temporales:
- Consumo diario del 1 al 7 de febrero incluidos.
- Consumo de la primera semana de febrero (del 1 al 7 incluidos).
- Consumo de la segunda semana de febrero (del 8 al 14 incluidos).
• Dataset “Modelar_UH2022.txt”.
Con este fichero deberás construir un modelo predictivo que permita estimar el consumo de agua.
• ID: Identificador del Contador que registra la medida de lectura.
• SAMPLETIME: Fecha y hora del consumo en formato UTC. Momento en el que se produce el mensaje o el contador ha emitido el registro.
• READINGINTEGER: Medida registrada por el contador en litros. Parte entera.
• READINGTHOUSANDTH: Medida registrada por el contador en litros. Parte decimal.
• DELTAINTEGER: Consumo calculado en litros a partir de la medida registrada por el contador. Parte entera.
• DELTATHOUSANDTH: Consumo calculado en litros a partir de la medida registrada por el contador. Parte decimal.
Este dataset tiene extensión txt con la siguiente estructura y formato:
• Nombres de variables: incluidos en la cabecera
• Separador: "|"
• Codificación: UTF-8
Sin nombre de fila.
Es el fichero solicitado con tus predicciones de consumo.
Se denominará “Equipo_UH2021.txt” donde ‘Equipo’ será el nombre del equipo con el que te has inscrito.
Sin cabecera ni nombres de filas.
Constará de 2.747 filas con 10 columnas cada fila:
• ID: ordenado de forma ascendente
• Dia_1: Predicción para el día 01/02/2020
• Dia_2: Predicción para el día 02/02/2020
• Dia_3: Predicción para el día 03/02/2020
• Dia_4: Predicción para el día 04/02/2020
• Dia_5: Predicción para el día 05/02/2020
• Dia_6: Predicción para el día 06/02/2020
• Dia_7: Predicción para el día 07/02/2020
• Semana_1: Predicción para la semana del 01/02 al 07/02/2020, ambos inclusive
• Semana_2: Predicción para la semana del 08/02 al 14/02/2020, ambos inclusive
Separando campos con “|”, el valor de la predicción en litros, y los decimales con “.”.
La calidad y la técnica utilizada para generar un modelo.
Se analizará la técnica analítica utilizada y se compararán objetivamente los valores reales frente a los valores predichos por el modelo. Para ello, se tendrá que minimizar las desviaciones con respecto a los datos reales.
Se calculará el “error cuadrático medio” o RMSE, definido como:
Siendo:
“n” el número de casos,
“ŷ” el valor estimado,
“y” el valor real
Se aplicará al subconjunto de las predicciones del mismo horizonte temporal, calculando una media para los 7 RMSE diarios y otra media para los 2 RMSE semanales, obteniéndose la métrica final del siguiente modo:
Métrica = 50% RMSE (media diaria) + 50%RMSE (media semanal).
Además del “dataset respuesta”, te pedimos:
Un valor menor no conllevará explícitamente una mejor clasificación. El “script de predicción” mencionado debe cumplir que sea generalizable y en el caso de métricas equiparables, se tendrán en cuenta los criterios siguientes:
En la fase de Presentación y Fallo, el Jurado Nacional tendrá en cuenta, además de los criterios anteriores, que el Proyecto se trasmita de forma clara y concisa.
Además del dataset proporcionado, se muestran algunos recursos que podrían ser de interés para la realización del presente reto.
Prophet
Prophet es un procedimiento de pronóstico implementado en R y Python. Es rápido y proporciona pronósticos completamente automatizados que los científicos y analistas de datos pueden ajustar manualmente.
dplyr/data.table
Los paquetes dplyr y data.table son herramientas para la exploración y manipulación de datos.
ggplot2
Completo paquete que nos permite representar una gran galería de gráficos. Mejora las funciones habituales de R para gráficos pudiendo incluir más capas y especificaciones.
caret
Incluye sencillas herramientas para analizar la calidad de los datos, selección de características, optimización de parámetros o construcción de modelos predictivos.
mlr
Otro de los meta paquetes más populares. Presenta un marco completo para acceder a distintos paquetes de estadística y machine learning de una forma integrada y coherente.
Tidyverse
Colección de paquetes de R diseñados para data Science.
Keras
API para redes neuronales de alto nivel.
Tensor Flow
Interfaz para acceder a la biblioteca de software libre TensorFlow™ que utiliza diagramas de flujo de datos realizar cálculos numéricos.
Series Temporales
Paquetes de R para el análisis de series temporales.
Numpy
Manejo de matrices y la realización de operaciones matriciales y vectoriales de forma sencilla y eficiente.
Matplotlib
Gráficas muy completas para mostrar los resultados de tus pruebas.
Scikit-learn
Librería centrada en machine learning: de clasificadores o regresores, hasta selección automática de modelos y análisis de resultados.