Estás navegando por el archivo de Camila Salazar.

Prácticas óptimas en nuevo sitio de Datos de La Nación CR

- el abril 19, 2016 en Uncategorized

redes
Documentación de la metodología, publicación de bases originales y narrativas visuales atractivas son algunas de las buenas prácticas que es posible ver en el nuevo sitio de La Nación Data Costa Rica.

La plataforma  permite a los usuarios tener acceso en un solo sitio a los proyectos publicados por la Unidad de Periodismo de Datos, cuyas publicaciones comenzaron a partir de 2010.

“Incluir la explicación del método es una regla fundamental del periodismo basado en análisis de datos. El lector debe saber cómo se llevó a cabo el estudio, cada paso seguido por el periodista, los criterios estadísticos o modelos aplicados, entre otros. Nuestra intención es que quienes deseen replicar, criticar o mejorar el análisis puedan hacerlo. Para ello, es vital tener acceso a los datos usados en el estudio periodístico”, comentó Hassel Fallas, editora de la Unidad de Data de La Nación.

A su vez la sección de bases de datos busca fomentar la transparencia y apertura de datos, al poner a disposición de la audiencia las bases en formatos de Excel, TXT o CSV.

Entre los trabajos más recientes que se han publicado se encuentra un interactivo  sobre  las elecciones municipales de 2016 donde se analizó información judicial, administrativa y profesional de la totalidad de candidatos a alcaldes en los 81 cantones del país.

También está el especial para elegir carrera universitaria que permite a los jóvenes tomar una decisión informada con datos de 107 disciplinas, los cuales incluyen cifras de desempleo, posibilidad de trabajar en el área seleccionada y salarios promedio

La Unidad de Data de La Nación está conformada por tres periodistas con formación en Estadística, Economía y Minería de datos. Además de un Ingeniero en Sistemas y dos diseñadores interactivos con conocimientos de Programación.web3

Herramientas para transformar PDF’s

- el diciembre 7, 2015 en Tutoriales

¿Has pasado horas de angustia tratando de utilizar bases de datos o documentos en formato PDF?

¡Ya no más! Camila Salazar nos tiene esta sencilla de guía de cómo convertir los terribles PDF’s a formato .csv, el cual es fácilmente manipulable en otros programas como Excel o Numbers, para que el manejo de datos sea amigable y sencillo. Además, incluye una lista de herramientas gratuitas que podemos utilizar para la conversión de los documentos en formatos utilizables.

¡Úsalas!

Encuentra aquí la presentación completa.

Captura de pantalla 2015-11-18 a las 13.22.08

 

Herramientas para analizar datos paso a paso

- el agosto 3, 2015 en Fuentes de datos

Aunque no hay una receta única para analizar datos, en Escuela de Datos utilizamos un conjunto de pasos que pueden facilitar el trabajo y resultan provechosos para todos los que quieran aventurarse en el mundo de la data.

pipeline

El “Data Pipeline” inicia planteándose una pregunta para luego encontrar la información, extraerla, limpiarla, verificarla, analizarla y presentarla. Tomando la idea de Code4SA, aquí les compartimos algunas de las herramientas que utilizamos en cada uno de los pasos:

1- Obtener la información

Estas son algunas fuentes y portales de datos en Latinoamérica:

CepalStat   Es el portal estadístico de la Comisión Económica para América Latina y el Caribe que contiene toda clase de datos demográficos, sociales, ambientales, económicos, de género, juventud, pueblos indígenas, tecnología, entre otros. Los datos se pueden descargar en tablas predeterminadas y también tienen un sistema de consulta avanzada. Además tienen disponible un API.

Banco Mundial  El portal de datos abiertos del Banco Mundial recopila toda clase de indicadores de los países latinoamericanos y del resto del mundo, que se pueden descargar fácilmente. Además en su sección de Microdatos se pueden descargar bases de datos completas de estudios o encuestas que realiza el Banco en diferentes países.

Números para el desarrollo Se trata del portal de datos abiertos del Banco Interamericano de Desarrollo, que compila más de 1700 indicadores sociales y económicos de 26 países de la región, los cuales se pueden consultar, combinar, visualizar y descargar. Además tienen bases de datos especializadas.

2- Extracción 

Copiar+Pegar  Hacer un par de clicks en ocasiones puede ser la herramienta más sencilla.

Herramientas para importar en Google Sheets  Los comandos IMPORTHTMLIMPORTDATA  o IMPORTXML permiten importar a la hoja de cálculo datos en formatos estructurados desde sitios web.

Tabula Permite extraer tablas de PDFs.

SmallPDF y Nitro  Permiten convertir archivos de PDF a csv.   La versión gratuita de Nitro permite un máximo de 50 páginas.

Import.io Permite scrappear de manera fácil algunos sitios web.

Puedes ves otras herramientas acá.

3-Limpieza y verificación

Buscar+Reemplazar Permite fácilmente buscar términos en la hoja de cálculo y reemplazarlos por otros.

Open Refine Permite limpiar, modificar y exportar bases de datos. Además es gratuita.

4-Análisis

Pivot Tables Una herramienta simple pero poderosa que permite hacer y responder preguntas con los datos. Acá un tutorial para usar tablas pivot en Google Sheets.

R  Para los usuarios más avanzados, R es un lenguaje y entorno de programación para el análisis estadístico. Es gratuito y de software libre.

5-Visualización

Infogram Con infogram se pueden crear gráficos e infografías con un par de clicks. La herramienta es gratuita aunque para usar todas sus opciones se requiere pagar una cuota.

CartoDB Ideal para visualizar información geolocalizada.

Tableau Public  El programa se descarga y offline permite hacer diferentes tipos de visualizaciones.

Datawrapper Útil para hacer diferentes tipos de gráficos, todo de forma gratuita.

Google Fusion Tables Permite organizar, visualizar y compartir información organizada en tablas de datos.

 

 

Dateando a los cantones: Expedición de datos en Costa Rica

- el junio 17, 2015 en Expediciones de Datos

En Costa Rica tenemos elecciones municipales el próximo año, en donde se elegirán 2.947 funcionarios para ocupar cargos públicos en 81 cantones del país. Pero, ¿realmente conocemos qué está pasando en cada uno de los cantones, qué características tienen o cómo han ejecutado su presupuesto?

Para responder a estas preguntas Abriendo Datos Costa Rica, Escuela de Datos y SocialTic nos dimos a la tarea de organizar una Expedición de Datos en Costa Rica. El resultado fueron 57 personas de sociedad civil (periodistas, académicos, analistas, programadores, diseñadores…) trabajando en equipo durante 8 horas con los datos y un grupo de facilitadores ayudando a responder las preguntas.

expe

La base de datos que utilizamos se puede descargar aquí. La construimos con datos del Tribunal Supremo de Elecciones, el Instituto Nacional de Estadística y Censos y la Contraloría General de la República.

¿Qué encontraron los participantes?

  • Un equipo se planteó este ejercicio: Si tuviéramos que destinar dinero a población adulta mayor en condiciones de pobreza, ¿en qué cantones lo invertiríamos? Analizando los datos concluyeron que en 17% de los cantones una décima parte de su población son adultos mayores en condición de pobreza y tres de esos cantones (Santa Cruz, Nicoya y Puntarenas) concentran la mayor parte de este grupo etario. Este fue un buen ejemplo de cómo usar datos para tomar decisiones informadas.exp4
  • ¿En qué cantón conviene vivir si una es mujer? Los participantes identificaron los cantones con menor y mayor índice de desigualdad de género y los caracterizaron. Por ejemplo, se dieron cuenta que entre ambos grupos de localidades, no había diferencia en la tasa de ocupación masculina, pero que en los de menor desigualdad la tasa de ocupación femenina era el doble que en los cantones más desiguales.
  • Turrubares, el cantón con la mayor participación electoral en comicios municipales, tiene una de las ejecuciones presupuestarias más deficientes. ¿Por qué no retribuye la municipalidad el alto apoyo?
  • La municipalidad de Belén es la que retribuye más dinero a sus ciudadanos, entre todos los cantones de la provincia de Heredia.
  • Otros grupos analizaron los cantones con mayor discapacidad, cómo era el uso de TIC’s según el nivel educativo entre los diferentes cantones o las particularidades del cantón de Alajuelita (el que tiene un Índice de Desarrollo Humano).

Entre los principales mitos que tratamos de aclarar durante la actividad fue la diferencia entre correlación y causalidad, es decir cómo no podemos concluir que una variable afecta el comportamiento de la otra, solamente por observar que las series se comportan de forma similar (lo discutiremos en otro post).

exp6

Pero, lo que más rescato de la experiencia fue el ver tanta gente interesada en aprender sobre el uso de datos, trabajando en equipo y respondiendo preguntas que les afectaban a diario. Como nos comentó Julio Cortés, uno de los participantes, la idea, con el trabajo que realizamos consiste en tratar de buscar un país mejor informado. ¡Quedan pendientes nuevas actividades para seguir despertando el interés en la data!

Por acá más fotos del evento.