Compártelo
image

Reto IBM Card Analytics

EL OBJETIVO

Te retamos a que crees la mejor aplicación y/o visualización en base a nuestros datos anonimizados de transacciones con tarjeta en la ciudad de Valencia, con datos reales agregados del Grupo Cajamar durante los años 2015 y 2016. Puedes realizar un cuadro de mando, un ejercicio analítico exploratorio, una infografía, una web, un análisis gráfico avanzado... Sorpréndenos.

EL DATASET

Información contenida
El dataset contiene información del importe total y el número de operaciones realizadas durante los años 2015 y 2016 con tarjetas de débito/crédito del Grupo Cajamar en los comercios de la ciudad de Valencia. Se han agrupando dichas operaciones por código postal del cliente, código postal del comercio, sector de comercio y franja horaria.

01 02 03 04 05



Registros
El número total de registros es de 3.428.537 con 7 variables por registro.



Variables
CP_CLIENTE: variable categórica, código postal en el que reside el comprador (cliente), formato 46XXX. Hay un total de 291 códigos postales.
CP_COMERCIO: variable categórica, código postal en el que está ubicado el comercio, formato 46XXX. Hay un total de 25 códigos postales.
SECTOR: variable categórica, nombre del sector en el que está englobado el comercio. Hay un total de 10 sectores.

  • ALIMENTACION
  • AUTO
  • BELLEZA
  • HOGAR
  • MODA Y COMPLEMENTOS
  • OCIO Y TIEMPO LIBRE
  • RESTAURACION
  • SALUD
  • TECNOLOGIA
  • OTROS

DIA: variable tipo fecha, día del año en el que se ha realizado la compra, formato YYYY-MM-DD.
FRANJA_HORARIA: variable categórica, franja horaria en la que se realiza la compra, están definidas en periodo de 2 horas, formato hora inicio – hora fin (XX-XX). Definiendo así 12 franjas desde las 00 hasta las 24 horas.
IMPORTE: variable real, importe total en euros de las compras realizadas por los clientes de un código postal en los comercios de un código postal y un sector durante una franja horaria.
NUM_OP: variable entera, número de operaciones realizadas por los clientes de un código postal en los comercios de un código postal y un sector durante una franja horaria.

CP_CLIENTE CP_COMERCIO SECTOR DIA FRANJA_HORARIA IMPORTE NUM_OP
46970 46005 ALIMENTACION 2015-09-29 20-22 22,73 1
46390 46008 ALIMENTACION 2015-07-08 16-18 14,13 1
46020 46010 ALIMENTACION 2016-05-16 12-14 24,53 3
46009 46015 ALIMENTACION 2016-06-04 18-20 11,17 1


Ámbito geográfico
El análisis dispone de información de clientes de la provincia de Valencia sobre comercios ubicados únicamente en la capital.



Ventana temporal
Se han tenido en cuenta todas las operaciones realizadas entre las 00:00:01 horas del 2015-01-01 y las 23:59:59 horas del 2016-12-31.



Formato y estructura
El dataset se encuentra en formato txt, comprimido en un zip. La estructura del mismo es la siguiente:

  • Nombres de campo: Incluidos
  • Separador: Se ha usado como separador el símbolo pipe "|"
  • Codificación: UTF-8
  • Indicador de símbolo decimal: Como símbolo decimal se ha considerado la coma ","
  • Comillas para los símbolos: No se ha usado indicador para los símbolos

IBM Card Analytics Dataset

3.428.537

registros

7

variables por registro

SE VALORARÁ

  • Enriquecimiento de datos
    Que el Proyecto además de utilizar datos procedentes del Dataset contenga datos procedentes de otras Fuentes.
  • Utilidad social
    Que el Proyecto permita una mejor toma de decisiones para empresas e instituciones públicas, o bien mejore la calidad de vida de los ciudadanos.
  • Grado de innovación
    Que el Proyecto proponga idea/s y/o contenga conclusión/es innovadoras o novedosas.
  • Comunicación
    Que los resultados del Proyecto se transmitan de forma clara y concisa, la documentación interna aportada (códigos, comentarios) esté correctamente expresada y estructurada, y sea reproducible.

AYUDAS AL DESARROLLO DEL RETO

  • Información sociodemográfica y geográfica

    Instituto Nacional de Estadística
    El Instituto Nacional de Estadística ofrece en este sitio web una gran cantidad de información estadística de libre acceso para todos los usuarios de la estadística oficial española. Sin duda en la actualidad, a pesar de la vigencia de otros canales de comunicación con nuestros usuarios, el medio Internet es el más importante, tanto por su inmediatez como por su extraordinaria capacidad de almacenamiento y transmisión de contenidos.
    Junto con los datos estadísticos que se ofrecen sobre la economía, la demografía y la sociedad española en esta web también se encuentra información de carácter institucional y metodológico, así como sobre diversas actividades y servicios que el INE ofrece a los distintos segmentos de usuarios.


    CartoCiudad (Instituto Geográfico Nacional)
    Cartografía de las Administraciones Públicas de la red viaria urbana e interurbana con continuidad topológica asegurada en toda España. La unidad de distribución es un archivo ZIP por cada provincia, que contiene diversos archivos en formato shapefile correspondientes a las capas de:

    • Líneas Límite municipales (capa Municipio)
    • Fondo Urbano (capas Manzana, Lineas_Auxiliares, Topónimo)
    • Red Viaria (capa Tramos)
    • Portales y Puntos Kilométricos (capa Portal_PK)
    • Códigos Postales (capa Codigo_Postal)

    El resto de capas de CartoCiudad no está disponible a descarga, puede consultarse en el servicio de mapas de CartoCiudad. Más información sobre el producto en www.cartociudad.es/portal.


    Centro de descargas del Instituto Geográfico Nacional
    El Centro de Descargas (CdD) es un sitio web del Centro Nacional de Información Geográfica (CNIG) desde donde se puedendescargar gratuitamente ficheros digitales de carácter geográfico generados por la Dirección General del Instituto Geográfico Nacional (IGN).

  • Datos abiertos

    Catálogo de la datos de dataUPV
    dataUPV es un grupo estudiantil de la UPV que promueve el uso de los datos abiertos entre la Comunidad Universitaria.
    Desde dataUPV se persigue ayudar a generar, tratar, compartir y usar datos de forma abierta, para que todos sean capaces de explotarlos y darles uso.


    Datos.gov.es
    La Iniciativa Aporta es una iniciativa de carácter nacional que fomenta la apertura de datos por parte de las administraciones públicas para que el sector privado e infomediarios puedan reutilizarlos. Dentro de su marco de acciones se encuentra el portal de open data datos.gob.es donde se organizan y gestionan los catálogos de información del sector público.


    Datos abiertos Ayuntamiento Valencia
    Información relacionada con el uso de los recursos públicos y la planificación y gestión de la actividad municipal. El Ayuntamiento de Valencia pretende reforzar la transparencia de su actividad, así como estimular la participación de la ciudadanía.


    Datos históricos de contaminación en la Comunidad Valenciana GVA
    A través de esta página se tiene la posibilidad de descargar los valores históricos de calidad del aire, tanto horarios como diarios, de las diferentes estaciones que componen las redes de Control de la Contaminación Atmosférica de la Comunidad Valenciana. El usuario tiene la posibilidad de descargar los datos por estaciones y por periodos anuales desde el año 1994.


    Datos históricos Índice Ultravioleta GVA
    A través de esta página podrá descargar el fichero con la información de indice ultravioleta de la estación, año y mes que seleccione.

  • APIs (entre muchas otras...)

    Google Places API
    Obtén datos de la misma base de datos que usan Google Maps y Google+ Local. Places presenta más de 100 millones de negocios y puntos de interés que se actualizan regularmente mediante listas verificadas por el propietario y contribuciones moderadas por el usuario.


    Foursquare API
    Foursquare es un servicio basado en localización web aplicada a las redes sociales. La geolocalización permite localizar un dispositivo fijo o móvil en una ubicación geográfica.
    Te puede ser muy interesante poder trabajar con su "Search for Places in an Area".


    Agencia Estatal de Meteorlogía (AEMET)
    Este catálogo de datos contiene los datasets oficiales de AEMET. Todos los conjuntos de datos están representados mediante formatos estándar y reutilizables.


    Dark Sky API
    Dark Sky es una de las fuentes más precisas de información meteorológica hiperlocal, con observaciones hora por hora y día a día desde hace décadas.

  • Herramientas

    Recuerda que puedes utilizar las herramientas y/o lenguaje de programación con los que te sientas más cómodo para enfrentarte a la Cajamar UniversityHack 2017.

    IBM
    IBM es la mayor empresa tecnológica y consultora del mundo, atendiendo a clientes en 170 países. En esta nueva era de Cognitive Bussiness, IBM está ayudando a transformar la industria con su experiencia en Cloud, Analytics, Security, Móvil e Internet de las Cosas.
    Descubre las herramientas de Data Science de IBM: Data Science Experience, Watson Analytics, SPSS Modeler y DashDB Analytics.


    MICROSOFT
    Microsoft ha transformado constantemente la forma en la que la gente vive, trabaja, juega y se conecta a través de una gran tecnología.
    Descubre las herramientas de Data Science de Microsoft: SQL Azure, Azure Storage, DocumentDB, Azure Stream Analytics, Microsoft Power BI, Azure Machine Learning Studio, Visual Studio Dev Essentials y Microsoft Imagine.


    CARTO
    CARTO es una de las empresas líderes del análisis y visualización de datos geolocalizados, dando la posibilidad a cualquier empresa e individuo de descubrir y predecir información clave a partir de datos geolocalizados. Gracias a la plataforma de CARTO, es posible la creación, sin necesidad de programar, de herramientas analíticas geolocalizadas que facilitan la toma de decisiones a todos los niveles.


    TABLEAU
    Tableau Software fabrica productos de visualización de datos interactivos que se enfocan en inteligencia empresarial. El análisis visual en vivo que ofrecen sus herramientas alimenta la exploración de datos ilimitada. Los dashboards interactivos ayudan a descubrir información oculta en los datos. Tableau aprovecha la capacidad natural de las personas para detectar patrones visuales rápidamente.