Aunque no hay una receta única para analizar datos, en Escuela de Datos utilizamos un conjunto de pasos que pueden facilitar el trabajo y resultan provechosos para todos los que quieran aventurarse en el mundo de la data.
El “Data Pipeline” inicia planteándose una pregunta para luego encontrar la información, extraerla, limpiarla, verificarla, analizarla y presentarla. Tomando la idea de Code4SA, aquí les compartimos algunas de las herramientas que utilizamos en cada uno de los pasos:
1- Obtener la información
Estas son algunas fuentes y portales de datos en Latinoamérica:
CepalStat Es el portal estadístico de la Comisión Económica para América Latina y el Caribe que contiene toda clase de datos demográficos, sociales, ambientales, económicos, de género, juventud, pueblos indígenas, tecnología, entre otros. Los datos se pueden descargar en tablas predeterminadas y también tienen un sistema de consulta avanzada. Además tienen disponible un API.
Banco Mundial El portal de datos abiertos del Banco Mundial recopila toda clase de indicadores de los países latinoamericanos y del resto del mundo, que se pueden descargar fácilmente. Además en su sección de Microdatos se pueden descargar bases de datos completas de estudios o encuestas que realiza el Banco en diferentes países.
Números para el desarrollo Se trata del portal de datos abiertos del Banco Interamericano de Desarrollo, que compila más de 1700 indicadores sociales y económicos de 26 países de la región, los cuales se pueden consultar, combinar, visualizar y descargar. Además tienen bases de datos especializadas.
2- Extracción
Copiar+Pegar Hacer un par de clicks en ocasiones puede ser la herramienta más sencilla.
Herramientas para importar en Google Sheets Los comandos IMPORTHTML, IMPORTDATA o IMPORTXML permiten importar a la hoja de cálculo datos en formatos estructurados desde sitios web.
Tabula Permite extraer tablas de PDFs.
SmallPDF y Nitro Permiten convertir archivos de PDF a csv. La versión gratuita de Nitro permite un máximo de 50 páginas.
Import.io Permite scrappear de manera fácil algunos sitios web.
Puedes ves otras herramientas acá.
3-Limpieza y verificación
Buscar+Reemplazar Permite fácilmente buscar términos en la hoja de cálculo y reemplazarlos por otros.
Open Refine Permite limpiar, modificar y exportar bases de datos. Además es gratuita.
4-Análisis
Pivot Tables Una herramienta simple pero poderosa que permite hacer y responder preguntas con los datos. Acá un tutorial para usar tablas pivot en Google Sheets.
R Para los usuarios más avanzados, R es un lenguaje y entorno de programación para el análisis estadístico. Es gratuito y de software libre.
5-Visualización
Infogram Con infogram se pueden crear gráficos e infografías con un par de clicks. La herramienta es gratuita aunque para usar todas sus opciones se requiere pagar una cuota.
CartoDB Ideal para visualizar información geolocalizada.
Tableau Public El programa se descarga y offline permite hacer diferentes tipos de visualizaciones.
Datawrapper Útil para hacer diferentes tipos de gráficos, todo de forma gratuita.
Google Fusion Tables Permite organizar, visualizar y compartir información organizada en tablas de datos.