Team Origin Data Visualization

Analisis de datos para la visualizacion de Atida Mifarma

Parte 1: Importar datos con pandas

Parte 2: Limpieza del fichero items_ordered_2years.txt

Limpiar codigos postales

Algunos codigos postales son de otros paises. Estos tienen un formato distinto a espanol, que es de cinco numeros "#####".

Ademas hay otros errores, y los mas comunes se separan caso por caso para poder ser corregidos

Corregir los errores en los codigos postales

Elimina los ausentes, codigos extranjeros y otros errores

Todos aquellas filas que:

Todas esas filas son eliminadas para dejar un dataset limpio

Parte 3: Cambios en las columnas

Parte 4: Guardar datos limpios de items_ordered_2years.txt

Parte 5: Limpieza del fichero products.csv

Este fichero tiene repetidas entradas de la columna product_id. Tras investigarlo, se trata de variaciones en la descripcion del producto, tales como cambiar el orden de las palabras, cambiar el idioma de la descripcion, cambiar alguna palabra de la descripcion. Sin embargo, campos como el sku y el URL se mantienen identicos entre los duplicaods.

Vamos a eliminar los duplicados de esta columna para facilitar su uso posterior con SQLite y evitar lineas duplicadas.

El criterio es mantener el primer product_id que aparezca en el fichero products.csv y eliminar los posteriores.

Parte 6: limpieza datos Renta Agencia Tributaria

Este programa limpia los datos de renta media bruta de la Agencia Tributaria

Fuente: https://sede.agenciatributaria.gob.es/AEAT/Contenidos_Comunes/La_Agencia_Tributaria/Estadisticas/Publicaciones/sites/irpfCodPostal/2018/jrubikf241580c2986609e03ee3216d79d3f457701c254e.html

Como entrada recibe un fichero rentas_cp.txt y devuelve un fichero de la forma:

Ciudad (str)-----------------Barrio (str)-----------------Codigo Postal (str)-----------------Renta media bruta (int)