Estás navegando por el archivo de Ximena Villagrán.

Nueve proyectos presentados en el primer #DatosYcañas

- el abril 18, 2017 en Expediciones de Datos, Noticias

Esto sucedió cuando los datos y las cañas se unieron por primera vez en Madrid.

El 11 de marzo el evento estrella de Escuela de Datos y SocialTic llegó por primera vez a España después de decenas de rondas exitosas en Latinoamérica.

Las cañas fueron la excusa para reunir a periodistas de los medios y proyectos con periodismo de datos más importantes del país y conocer sus mejores trabajos.

Las cañas del Café de Ruiz fueron patrocinadas por El Faro y SocialTic, quienes representaron a Latinoamérica durante esa noche.

Estas fueron las presentaciones:

El Confidencial – Crear bases de datos propias

Daniele Grasso, jefe de la unidad de datos, utilizó como ejemplo El Prometómetro, el trabajo sobre feminicidios y el comparador de tallas de ropa  para explicar como en su medio crean temas a partir de bases de datos hechas desde cero por el equipo.

Eldiario.es – Los papeles de la Castellana

Juan Luis Sánchez, subdirector, y Raúl Sánchez, periodista de datos, presentaron las investigaciones sobre amnistía fiscal realizadas a partir de una filtración en el buzón seguro Filtrala.

Datadista

Ana Tudela y Antonio Delgado, fundadores del proyecto, presentaron el trabajo que empezó hace algunos meses en el nuevo portal. Sus trabajos pueden ser a corto, mediano y largo plazo, con una sección de investigaciones basadas en datos abiertos.

El Mundo – Football Leaks

Paula Delgado, periodista de El Mundo Data, presentó las lecciones que obtuvo después de la investigación transnacional que reveló, por ejemplo, algunos documentos fiscales del futbolista Cristiano Ronaldo.

El Faro

José Luis Sanz, director de El Faro, que patrocinó este evento también presentó los proyectos con datos realizados por el medio salvadoreño. Uno de los proyectos que más llamó la atención fue El Retrato de la Desigualdad  que consistió en un levantamiento de datos autónomo para mostrar la movilización de 24 jóvenes en San Salvador.

Los aires del cáncer – Máster de periodismo de investigación, datos y visualización de El Mundo

Manuel Varela, ex estudiante del máster, presentó la investigación que realizó como trabajo final del curso acerca de cómo el cáncer de pulmón aumenta en las zonas industriales con mayor contaminación en el aire.

Maldito Bulo

(https://twitter.com/malditobulo?lang=en)

Clara Jiménez y Julio Montes, fundadores también de Maldita Hemeroteca, presentaron cómo identificar “fake news”, las razones por las que se crean y cómo medir la cantidad de mentiras de un medio de comunicación.

El País – The New Arrivals

http://elpais.com/agr/la_odisea_de_los_nuevos_europeos/a

Guimar del Ser, periodista de El País, presentó el trabajo hecho en conjunto con The Guardian y Der Spiguel que usa la historia de un equipo de fútbol integrado por refugiados en Jerez de la Frontera, España para plantear un escenario general con datos sobre la situación de los refugiados en Europa

Populate Tools – portal de peticiones de información

Martín González, de la empresa Populate Tools, presentó el portal de código abierto para realizar peticiones de información a el gobierno español, aunque puede adaptarse a cualquier país.

Usando Carto: ¿Cómo unir mi base de datos con un mapa de polígonos?

- el septiembre 21, 2016 en Tutoriales

La aplicación para hacer mapas Carto (antes CartoDB) es una herramienta útil para visualizar información geográfica pero tiene una desventaja, no cuenta con la información cartográfica de países pequeños o “poco importantes” a nivel mundial.

Es por eso que los que hacemos mapas en países latinoamericanos tenemos una misión un poco más complicada, debemos conseguir la información cartográfica y unirla con nuestras bases de datos.

A continuación describiremos el proceso para unir el archivo con la información cartográfica y una base de datos en Excel.

El archivo con los polígonos de los municipios de Guatemala en formato Shape (.shp) lo obtuve de la página web de la Secretaría de Planificación de la Presidencia, si necesitas un mapa de tu país puedes descargarlo en este enlace.

Sube el archivo .zip que contiene el archivo .shp a Carto para empezar a usarlo.

image10

 

 

 

 

Como podrás ver en la columna quinta columna “código” están los códigos asignados por el gobierno de Guatemala a cada municipio.
Estos son códigos estandarizados que debe tener el Instituto Nacional de Estadística de tu país. Estos son los códigos estandarizados de los 340 municipios de Guatemala.

image01

En el caso de Guatemala utilizamos los códigos porque normalmente ninguna base de datos de información gubernamental tiene los mismos nombres para todos los municipios, como en el caso del archivo .shp y la base de datos.
Ahora debes abrir la base de datos que quieres visualizar en el mapa. En mi caso usaré una que tiene información sobre las escuelas preprimaria del país.

 

 

image09

 

 

 

 

Para agregar los códigos estandarizados a la base de datos agregaremos una columna y usaremos la fórmula BUSCARV para localizar los códigos en el archivo anterior.

image11

 

 

 

 

Ya con los códigos en todos los municipios deberás subir el archivo a Carto.

image05

 

 

 

 

 

 

 

 

Ahora debes dar click en “edit” y a “Merge with dataset”

image02

 

 

 

 

Debes elegir la opción “Column join” para unir los dos archivos

image00

 

 

 

Y seleccionar en la segunda columna el archivo “municipios_gtm” que fue el que subiste del archivo .shp.

image13

 

 

 

 

Debes seleccionar que utilice la geometría del archivo “municipios_gtm” que es el que tiene la información cartográfica.

image08

 

 

 

 

Y ahora viene la magia. Debes hacer click en “Merge Datasets”. Así quedan las dos tablas unidas.

image03

 

 

 

 

Ahora debes hacer click en “Map view”. Todos los polígonos de los municipios estarán marcados.

image04

 

 

 

 

 

 

Luego ya deberás personalizar tu mapa como quieras utilizando los datos de tu base de datos.

Este fue mi resultado:

image12

Onodo: hacer mapas de relaciones no es complicado

- el agosto 23, 2016 en DAL, Experiencias, Fuentes de datos, Guest posts, Tutoriales

Hace un mes la Fundación Civio lanzó su aplicación gratuita para crear mapas de relaciones y se puede convertir en la solución para muchos, como yo, que nunca pudieron hacer uno porque las herramientas parecían muy complicadas.

Para poder hacer esa afirmación hice una prueba con las relaciones de los personajes de Narcos, la serie de Netflix, que narra la investigación que llevó a la captura del narcotraficante Pablo Escobar.

Este mapa fue realizado en un poco menos de una hora, recolectando toda la información e insertándola en Onodo. Ahora les explicaré porqué es tan fácil de usar:

  • No necesitas ser un experto en Excel, ni siquiera abrirlo. Onodo permite insertar uno a uno los nodos (cada una de las personas, instituciones, etc… que necesitamos poner en el mapa) y también permite personalizar una a una las relaciones de cada nodo dentro de la misma aplicación.

Screen Shot 2016-08-11 at 12.03.17 PM Onodo 1

 

 

 

 

 

 

 

  • Es intuitivo, no es necesario leer el manual para usar sus funciones básicas. Ni siquiera existe un manual, si quieres algo parecido puedes ver su demostración en este enlace.

Ahora te explicaré cómo hice este mapa de relaciones en menos de una hora:

  • Recolecté los datos de los personajes en IMBd y Wikipedia.
  • Inserté los datos de cada personaje como un nodo. Por ejemplo: Pablo Escobar era el líder del Cartel de Medellín. Entonces usé el botón “Añadir nodo” y puse el nombre y la imagen que busqué en Google. Añadí otro nodo para el Cartel de Medellín. Ambos se reflejaron al instante en la visualización.

Onodo 2

 

 

 

  • Los nodos no están completos sin una relación. Entonces cambié a la pestaña de “relaciones” y hice click en el botón “añadir relación” para indicar que el nodo “Pablo Escobar” es el líder  del “Cartel de Medellín”. Esto también se reflejó al instante.

Onodo 3

 

 

 

  • Así se muestra la visualización al hacer click sobre el nodo de “Pablo Escobar”.

Onodo 4

 

 

 

  • Luego agregue la información del resto de personajes principales y secundarios de la serie, de la misma manera que hice con Pablo Escobar.  Todas se fueron mostrando dentro de la visualización.
  • Compartir la visualización dentro de cualquier otro sitio es igual de sencillo. Pulsas en el botón “Comparte” donde harás pública la visualización y después te creará un iframe y un enlace fijo.

Onodo 5

 

 

 

 

 

Si aún no te convence esta sencilla explicación puedes entrar a este enlace para ver otros mapas de relaciones que han realizado otros usuarios.  Y si la explicación te convenció, como usarlo me convenció a mí, puedes entrar a este enlace para crear tu cuenta y empezar a experimentar.

 

Explorando SandDance, la nueva “tabla dinámica” visual.

- el julio 8, 2016 en Uncategorized

En Escuela de Datos decidimos probar una nueva herramienta para el análisis de datos. Aquí te explicamos los pros y contras de la aplicación web.

 

SandDance es una aplicación web desarrollada por el laboratorio de investigación de Microsoft. Hasta ahora no cobra por su descarga ni por su uso, fue lanzada hace tres meses y funciona con la misma lógica que una tabla dinámica de Excel y permite hacer análisis visual de la información.

Cada uno de los registros en la base de datos se muestra como un pequeño recuadro en el gráfico.

Aunque es una herramienta de visualización de datos está pensada para analistas que prefieren analizar los datos con visualizaciones y no para presentar la información.

Estas son las opciones que da la aplicación:

Tipos de gráfico: barras, cuadrícula, dispersión, densidad, pilas y recuadros.

111

 

 

 

 

  • Formatos: la aplicación solo acepta archivos en formato CSV, TXT y JSON.

112

 

 

 

  • Tipos de análisis: la aplicación permite crear clasificaciones, organizar por colores, y ordenar según alguna de las clasificaciones del documento.

113

Personalización: también permite, precisamente, personalizar los colores, el tamaño de los recuadros de registro, la opacidad y las líneas de cuadrícula dentro del gráfico.

114

Con la selección de clasificaciones permite un análisis más detallado creando tableros de información.

115

 

 

 

 

Ya que la aplicación no tiene ninguna opción para compartir los análisis nos comunicamos con el soporte técnico que nos compartió un código html que permite insertar la aplicación en cualquier plataforma web.

<!DOCTYPE html>

<html xmlns=»http://www.w3.org/1999/xhtml«>

<head>

<meta http-equiv=»X-UA-Compatible» content=»IE=Edge» />

<title>SandDance Embedding Test</title>

</head>

<body>

<h1>

This demo shows how to embed SandDance with a preloaded dataset into a custom webpage without programming.

</h1>

<div style=»margin: 20px;»>

<iframe src=»https://sanddance.azurewebsites.net/beachPartyApp/BeachPartyApp.html?data=http://samplecsvs.s3.amazonaws.com/SalesJan2009.csv»

style=»width: 100%; height: 700px»></iframe>

</div>

</body>

</html>

Lo único que hay que modificar es el de “src” por el enlace que estamos utilizando para el análisis.

Aunque este tampoco muestra los resultados a los que llegamos, sino permite que el usuario pueda hacer su propio análisis.

OCR con FineReader

- el junio 21, 2016 en Uncategorized

Convierte documentos en PDF desde imagen a Excel o Word, para que estos sean editables.

 

Después de probar varias herramientas para convertir de PDF a OCR como Tabula o CometDocs, la mayoría de ellas tenían dificultades convirtiendo documentos con imágenes o sin celdas definidas.

ABBYY FineReader OCR tiene otro tipo de complicación: la licencia cuesta entre 99 y 169 dólares. Pero según el trabajo que vayas a realizar, podría ser útil comprarla.

Si decides utilizarla, en este tutorial te mostramos cómo.

OCR 1(1)

Con la herramienta se puede extraer el texto de archivos PDF a texto plano, html y a Excel.

En este caso lo utilizaremos para convertir el archivo a Excel.

El proceso es muy sencillo:

  1.     Seleccionar el archivo PDF
  2.     El programa empezará a reconocer las imágenes dentro del archivo PDF

OCR 2(1)

  1.     Con el reconocimiento el programa identificará las filas y columnas de la tabla y también el texto y las imágenes en la misma tabla

OCR 3

  1.     El programa permite personalizar el texto que finalmente se va a extraer, es por eso que eliminaremos las imágenes y los encabezados que son útiles en Excel.

OCR 4

  1.     Al dar click sobre el botón ‘exportar’ se puede personalizar el formato del archivo que se obtendrá, la calidad y detalles, como si dejan fuera o dentro el contenido de las tablas.

Para obtener un mejor resultado en Excel seleccionaremos ignorar el contenido fuera de las tablas, no conservar las imágenes y que reconozca automáticamente los valores numéricos.

OCR 5

OCR 6

  1.     El documento en Excel está listo para ser modificado y analizado en menos de 3 minutos.

OCR 7

Ahora deberás decidir si la inversión en la licencia del ABBYY Finereader OCR es necesaria para realizar tu trabajo. Para conocer otras herramientas puedes ir a esta publicación de Escuela de Datos (https://es.schoolofdata.org/obteniendo-datos-de-los-pdfs/)