Estás navegando por el archivo de Experiencias.

Cómo empezar a armar tu base de datos sobre feminicidio

Raisa Valda Ampuero - el diciembre 8, 2016 en Experiencias, Tutoriales

El Observatorio de Igualdad de Género de América Latina y El Caribe dispone de datos de feminicidio de fuentes oficiales de 18 países latinoamericanos. Bolivia no es uno de ellos, pues aunque la ley 348 para Garantizar a las Mujeres una Vida Libre de Violencia fue promulgada en 2013, los datos que se publican se remiten a información general por parte de la Policía, y en el mejor de los casos, valiosas investigaciones de ONGs cuya base de datos no es abierta y se publican datos condensados a travé de informes.

Ante la urgencia de la creciente oleada de crímenes, algunas organizaciones de sociedad civil como “Cuántas Más” en Bolivia, ven como urgente la necesidad de armar una base de datos recopilando los hechos que además se encuentre abierta al público para que puedan ser consultados por investigadores, periodistas, o cualquier persona que tenga interés de hacer algo más con datos registrados y sistematizados; si en tu país no dispones de fuentes oficiales, aquí te damos algunos criterios que debes considerar para armar la base de datos.

image00

 

 

 

 

  1. Diferencia entre datos primarios y datos secundarios. Datos primarios son aquellos que se obtienen a través de una recopilación de datos propia, como la observación de procesos, una encuesta o una entrevista. Los datos secundarios por otra parte son datos que otros ya han recopilado y han puesto a disposición pública. Si estás planeando hacer una recopilación de casos, lo más probable es que recurras a este segundo grupo, con base en estudios, estadísticas de otras organizaciones, o publicaciones de prensa.
  2. Cuando recopiles datos propios considera que estos pueden ser cuantitativos o cualitativos. Los datos cuantitativos se caracterizan por su enfoque estandarizado y tienen como objetivo verificar, confirmando o refutando, diversas relaciones e hipótesis basadas en números. Los datos cualitativos ofrecen un enfoque abierto y sirven para recoger información que no se pueda representar mediante cifras pero puede dar una mejor comprensión de una cuestión.
  3. Algunas veces, los datos pueden estar publicados en sitios web pero no existe un link de descarga. En ese caso, te sugiero utilizar una herramienta para la extracción de datos fácil de usar que tiene como objetivo obtener datos de forma estructurada de cualquier sitio web; se trata de import.io y puedes consultar este tutorial para aprender a usarlo.
  4. Es importante conocer las otras organizaciones que trabajan en la recepción de denuncias de violencia de género o que proveen servicios legales; estas organizaciones también pueden proveer datos fuente de órganos descentralizados, por ejemplo, de carácter municipal, servicios de atención a la salud, el sistema de justicia penal y prestadores de servicios sociales, por nombrar algunos.
  5. Si vas a obtener tus datos desde información publicada en prensa, trata de cotejar adicionalmente con uno o dos medios; de esta forma garantizas la verificación de los datos publicados y el aumento de aquella información que algún medio no pudo obtener.
  6. Saca provecho de Google Alerts, un servicio de Google que te permite recibir alertas a tu email cuando el buscador indexa nueva información relacionada con las palabras clave de búsqueda. Con esta herramienta puedes automatizar el proceso de búsqueda o actualizar los resultados de una búsqueda de tu interés a lo largo del tiempo, hasta que decidas eliminar la alerta; programa por ejemplo las palabras feminicidio o mujer asesinada.
  7. Identifica todos los criterios relevantes para tu primer análisis: nombres, edades, y locaciones suelen ser datos que comúnmente identificamos; sin embargo, la riqueza para análisis de tu base de datos puede estar en los datos que no siempre consideramos como el número de hijos sobrevivientes al hecho, la relación de la víctima con el victimario, el estado del caso y si es que ha obtenido sentencia, el tipo de agresión que se produjo, si es que hubo una denuncia de violencia previa. La granularidad es importante.
  8. Documenta el proceso, es importante explicar los pasos que seguiste para que las personas interesadas en la base de datos tengan los argumentos completos de tu trabajo. Aquí puedes encontrar algunas opciones para realizar este paso.
  9. Finalmente escoge la mejor manera de mostrarlos, dependiendo del volumen y el contenido de tu base de datos puedes optar de mostrarlos, por ejemplo, en una línea de tiempo o un mapa. Solo recuerda publicarlos con el enlace de descarga.

Adicionalmente, si te interesa indagar más profundo, CEPAL lanza un curso cada año de introducción sobre estadística e indicadores de género que a la fecha va en su sexta versión. Debes estar atento al lanzamiento de la próxima convocatoria.

Datos al Tablero: análisis de desigualdad en Colombia.

invitado - el noviembre 28, 2016 en Experiencias, Fuentes de datos

 

Daniel Suárez Pérez, coordinador del proyecto colombiano Datos Al Tablero, comparte cómo éste se inició, cómo se desarrolló, y los retos que aún tiene por delante.

Datos al Tablero se realizó vía School of Data, a través del Data Member Support, en alianza con el movimiento Todos por la Educación. Es una análisis de la desigualdad educativa en Colombia, a través de la recolección y análisis de datos sobre deserción y repitencia entre 2012 y 2015.

Data Wrapper: visualización básica para periodismo

Raisa Valda Ampuero - el septiembre 15, 2016 en Experiencias, Fuentes de datos, Guest posts

Este post ha sido modificado debido al cambio de políticas de uso de Datawrapper.de acerca de los servicios gratuitos.

La inclusión de datos en artículos, noticias y reportajes es algo frecuente en los medios; los datos aumentan la credibilidad, contextualizan y resuelven dudas de los lectores; sin embargo, su visualización no siempre es sencilla y en algunos casos se puede caer en el uso de estos gráficos como simples elementos decorativos.

D3.js y otras bibliotecas de javascript son geniales para crear gráficos y visualizaciones interactivas, pero pueden ser complicadas de usar en una sala de redacción porque requieren conocimientos de codificación y por otra parte, no siempre tenemos la opción de contar con un(a) desarrollador(a) o un(a) diseñador(a) en nuestro equipo de trabajo.

Entonces debemos sortear nuestras propias limitaciones y buscar una herramienta que nos permita entender el uso necesario y pertinente de las gráficas y mapas, sin que éstas tengan un alto nivel de complejidad.

Aquí es donde puedes recurrir a Datawrapper, una plataforma de código abierto enfocada especialmente al periodismo para para cargar datos, crear visualizaciones y mejorar los artículos escritos a partir de cuatro pasos sencillos.

Crea una cuenta en la plataforma, y ten listo, limpio y a mano tu set de datos.

 

1r

 

 

 

Subir datos

Una vez que tengas seleccionado tu dataset, empieza por crear un nuevo gráfico; también puedes usar los datasets de prueba de la herramienta que son útiles porque combinan los datos de ejemplo con los tipos óptimos de gráficas de la herramienta.

En mi caso, uso de ejemplo el dataset de Ingresos y Gastos de Universidades Públicas de Bolivia de “Que no te la charlen” para saber qué universidades reportaron mayores ingresos y gastos durante el 2014; la herramienta te permite copiar los datos de tu hoja de cálculo o importarlos como csv.

2r

 

 

 

Revisar & Describir

Acá debes asegurarte que la herramienta interpreta tus datos correctamente: en la tabla de columnas de números se deben mostrar en azul, las fechas en verde y los textos en negro.

También te permite empezar a personalizar tus columnas desde trasponer la tabla de datos, añadir otras columnas a mano e incluso cambiar los formatos de número, como dividir los números por miles, millones o miles de millones.

3r

 

 

 

 

Visualizar

En esta etapa, verás todas las opciones para la visualización: puedes escoger entre 12 tipos de gráficos para ver cómo los datos se ve como en diferentes tablas.

Un punto a favor para la herramienta es que si requieres hacer correcciones en los pasos anteriores para que tus gráficos tengan más sentido, puedes regresar al paso previo; si tienes dudas de qué gráfico escoger, puedes ver esta guía.

Yo seleccioné el tipo de gráfica de barras de división o split bars, y ajusté el tamaño; luego puedes seguir refinando tu gráfico a partir de la personalización de ejes, etiquetas y grupos, la clasificación del orden de tus datos o la apariencia y colores de tu tabla.

Luego anota el título, las descripciones y fuentes de tu gráfica.

4r

 

 

 

 

Publicar & Incrustar

Finalmente, aunque en diciembre de 2014 Datawrapper cambió sus directivas acerca de los productos gratuitos; recientemente hizo una nueva modificación devolviendo la posibilidad a los usuarios de generar un código responsivo o un iFrame para embeber tu gráfico en tu sitio web o blog, y que adicionalmente tenga interactividad.

 

copy-of-5to-post-visualizacion-basica-para-periodismo

 

 

 

 

Puedes ver que elaborar una visualización con esta herramienta es muy sencillo, la herramienta ofrece múltiples opciones de personalización, es una buena manera para aprender el por qué y el para qué de tus visualizaciones sin mayor complicación sobre todo cuando estás empezando, y añade el valor de la interactividad de las visualizaciones para que tus lectores también puedan generar sus propias conclusiones a partir de tu reportaje.

 

¡Data Wrangler: limpia tus bases en un tris!

Omar Luna - el septiembre 13, 2016 en Expediciones de Datos, Experiencias, Fuentes de datos, Uncategorized

Amo el trabajo de datos. Pero hay una cosa que no me gusta: la limpieza. ¿No te ha pasado alguna vez? ¡A mí sí y sigo contando! Por eso, quiero enseñarte cómo utilizar una herramienta para hacer al mal tiempo buena y cara: Wrangler. Esta es una herramienta interactiva GRATUITA, desarrollada por el proyecto de investigación Stanford/Berkeley, que sirve para la limpieza y transformación de datos.

Con ella, te lo prometo, pasarás menos tiempo limpiando y más tiempo analizando tus datos a la hora de elaborar bases de datos. ¿Te animas a probarla? Bueno, pues, lee y te cuento cómo la probé con una tabla de datos, sobre las primeras tres jornadas de CONCACAF 2016-2017, que extraje de Mismarcadores.com.

1

 

 

 

 

¡Menor tiempo, mejor limpieza!
Un profesor en la “U” solía decirme que, lo bueno si breve, dos veces bueno. Y eso es lo que evoca Wrangler al momento de utilizarlo. Para comenzar, ingresa a http://vis.stanford.edu/wrangler/, donde encontrarás un botón al que hasta el más curioso y entusiasta datero dará clic con su provocativo Try It Now (¡Pruébala ahora!).

34

 

 

 

 

Como verás a continuación, la interfaz de Wrangler es sencilla. Un poco primaria para algunos, pero los resultados son prometedores para quienes deseamos limpiar datos rápido y bien. ¿Ves cómo está la tabla? Fea, ¿verdad?5

 

 

 

 

Para mejorarla, lo primero que hice fue seleccionar la primera fila de la tabla y acudí al auxilio de la opción Promote para que la primera fila sea el encabezado de cada una de nuestras columnas. Así, ya tenemos un encabezado con el cual la carpintería datera puede comenzar. ¡Eso sí! Para cambiar cada uno de sus nombres puedes dar doble clic y ¡listo! ¡Ya tienes categorías!

6 7

 

 

 

 

Ahora, rellenemos los espacios en blanco de cada jornada. Para eso, sombreé la columna JORNADA. Y me fui a la opción Fill, con la cual puedes reemplazar las columnas/filas en blanco por insumos de valor. Para este caso, le indiqué que debía rellenar todo espacio debajo de JORNADA que estuviera en blanco.

¿Cómo? Colocando lo siguiente en su barra de opciones:

Column JORNADA

Direction: above

Row: JORNADA is null

Finalizado esto, aparecerá una opción con nuestros comandos en el menú SUGGESTIONS. Dale clic al signo de “más” y verás cómo empieza a tomar forma la cosa.

8

 

 

 

 

Sí, yo también vi esas filas en blanco que no aportan nada en cada JORNADA. Para eliminarlas, selecciona cada una de las columnas e ingresa a la opción DELETE, donde podrás prescindir de cada una de ellas en el menú de la izquierda, dando clic al signo más en el menú SUGGESTIONS.

9

 

 

 

 

Mejor, ¿no? Ahora, tenemos otra piedrita en el camino: ¡Fecha y hora están unidas! Pero, que no panda el cúnico. Para separarlas, me di a la tarea de hacer lo siguiente:

1) Seleccioné la columna FECHA

2) Fui a la opción SPLIT y coloca WHITESPACE en la variable after.

3) Y voilá…

10

 

 

 

 

¡Eso sí! No pases por alto cambiar las columnas SPLIT a FECHA y HORA respectivamente. Ahora, veo que el MARCADOR está igual de sucio. Por tanto, tendremos que separar cada uno de esas ÊÊ que les mantienen unidos. ¡Empecemos entonces! Yo comencé por el marcador del equipo 2 e hice esto:

1) Sombreé la columna MARCADOR

2) Fui a la opción SPLIT y coloca ÊÊ en la variable after.

3) ¡Listo! ¡Ya me lo separó!

11

 

 

 

 

Ahora, viene lo mejor: ¿cómo quitamos esas ÊÊ del marcador del equipo 1? Antes de separar, sombreemos las ÊÊ y sígueme con lo siguiente:

1) Vamos a la opción SPLIT

2) Coloquemos ÊÊ en la opción on

3) ¡Mira qué padre! ¡Nos separó las ÊÊ del marcador!

4) ¡No olvides renombrar la columna separada como MARCADOR EQUIPO 1!

12

 

 

 

 

¡Solo nos queda prescindir de la columna en blanco del anterior SPLIT! Y, para eso, ve a la opción DROP y dale clic a la primera opción que te presenta el menú SUGGESTIONS.

13

 

 

 

 

¿Qué hacemos ahora? Ve a la opción EXPORT que se encuentra debajo de SUGGESTIONS y haz clic. Te saldrá una pantalla con la tabla de datos limpia. Copíala y llévala a tu Text Edit (Mac) o Bloc de Notas (Windows). Pega el archivo y guárdalo como un texto sin formato con extensión .csv.

15

 

 

 

 

Ahora, si la curiosidad te mata como a mí me pasó, abrí el .csv en Excel… ¡Y este fue el resultado!

16

 

 

 

 

¡Justo algo con lo cual podemos trabajar! ¡Gracias por oír mis plegarias dateras, Wrangler!

¿Por qué confiar en Wrangler?

“¿Para qué tanto problema?”, dijo sabiamente Juan Gabriel. Y yo le creo… yo te invito a darle un voto de confianza a Wrangler. ¿Por qué? Porque me ha pasado que se me va el tiempo (¡y la vida!) manipulando datos exclusivamente para que las herramientas de visualización y análisis las leen. Pero, ¡oh, sorpresa! Muchas veces, el resultado no es el esperado porque la limpieza no fue lo que yo deseaba.

Y, en esos deseos de cosas imposibles, Wrangler está diseñadas para acelerar esos procesos; más, si tienes a un editor o a tu jefe exigiendo bases de datos y visualizaciones rápidas y bien ejecutadas. Con este insumo, pasarás menos tiempo lidiando con tus datos y mucho más aprendiendo de ellos al tener las preguntas correctas que te ayuden a sustentar/refutar hipótesis de periodismo de datos.

También, te permite la transformación interactiva de información sucia que puedes encontrar a diario en insumos de análisis para cualquier proyecto en el cual te encuentres trabajando. Y, lo que más me encanta, te ayuda a exportar datos para su utilización en mis dos inseparables amigos: Excel o Tableau. ¡Yeeeeeeeeeeeeeey!
Por los registros, ¡no te preocupes! Una vez exportes la data trabajada, la herramienta volverá a su fase original con las bases precargadas (¡otra razón para amarte, Wrangler!). Ya si esto no te convence, anímate a probarla y compartirnos qué te parece y que no. ¡No te quedes con las ganas y comparte con nosotros tus impresiones acá o en nuestro Twitter (@EscueladeDatos)! ¡Cambio y fuera!

 

 

 

 

Onodo: hacer mapas de relaciones no es complicado

Ximena Villagrán - el agosto 23, 2016 en DAL, Experiencias, Fuentes de datos, Guest posts, Tutoriales

Hace un mes la Fundación Civio lanzó su aplicación gratuita para crear mapas de relaciones y se puede convertir en la solución para muchos, como yo, que nunca pudieron hacer uno porque las herramientas parecían muy complicadas.

Para poder hacer esa afirmación hice una prueba con las relaciones de los personajes de Narcos, la serie de Netflix, que narra la investigación que llevó a la captura del narcotraficante Pablo Escobar.

Este mapa fue realizado en un poco menos de una hora, recolectando toda la información e insertándola en Onodo. Ahora les explicaré porqué es tan fácil de usar:

  • No necesitas ser un experto en Excel, ni siquiera abrirlo. Onodo permite insertar uno a uno los nodos (cada una de las personas, instituciones, etc… que necesitamos poner en el mapa) y también permite personalizar una a una las relaciones de cada nodo dentro de la misma aplicación.

Screen Shot 2016-08-11 at 12.03.17 PM Onodo 1

 

 

 

 

 

 

 

  • Es intuitivo, no es necesario leer el manual para usar sus funciones básicas. Ni siquiera existe un manual, si quieres algo parecido puedes ver su demostración en este enlace.

Ahora te explicaré cómo hice este mapa de relaciones en menos de una hora:

  • Recolecté los datos de los personajes en IMBd y Wikipedia.
  • Inserté los datos de cada personaje como un nodo. Por ejemplo: Pablo Escobar era el líder del Cartel de Medellín. Entonces usé el botón “Añadir nodo” y puse el nombre y la imagen que busqué en Google. Añadí otro nodo para el Cartel de Medellín. Ambos se reflejaron al instante en la visualización.

Onodo 2

 

 

 

  • Los nodos no están completos sin una relación. Entonces cambié a la pestaña de “relaciones” y hice click en el botón “añadir relación” para indicar que el nodo “Pablo Escobar” es el líder  del “Cartel de Medellín”. Esto también se reflejó al instante.

Onodo 3

 

 

 

  • Así se muestra la visualización al hacer click sobre el nodo de “Pablo Escobar”.

Onodo 4

 

 

 

  • Luego agregue la información del resto de personajes principales y secundarios de la serie, de la misma manera que hice con Pablo Escobar.  Todas se fueron mostrando dentro de la visualización.
  • Compartir la visualización dentro de cualquier otro sitio es igual de sencillo. Pulsas en el botón “Comparte” donde harás pública la visualización y después te creará un iframe y un enlace fijo.

Onodo 5

 

 

 

 

 

Si aún no te convence esta sencilla explicación puedes entrar a este enlace para ver otros mapas de relaciones que han realizado otros usuarios.  Y si la explicación te convenció, como usarlo me convenció a mí, puedes entrar a este enlace para crear tu cuenta y empezar a experimentar.

 

VIS: gráficos de redes en una plataforma online

Daniel Villatoro - el agosto 11, 2016 en DAL, Experiencias, Fuentes de datos, Guest posts, Tutoriales

Para explicar muchos casos de corrupción, crimen organizado y otros delitos es necesario traducir complejos esquemas y estructuras en un lenguaje visual simple y fácil de entender.  Visual Investigative Scenarios (VIS) es una plataforma que te ayuda a mapear y graficar redes de personas, negocios y otras entidades.

A través de un usuario creado en VIS, puedes generar visualizaciones en lenguaje HTML5 dinámico.  Las visualizaciones generadas se pueden exportar tanto para su uso en impreso como para la web o transmisiones de televisión. Esta herramienta puede ser usada por periodistas, investigadores y activistas en su trabajo de difundir información con impacto social.

En cuanto al diseño, esta página web te ofrece siete plantillas con diferente paleta de color, tipografía e iconos para que puedas escoger el que se adapte mejor a tu proyecto.
Para explicar las dinámicas en una sociedad hiperconectada un gráfico de red es una herramienta ideal. VIS te permite también especificar diferentes tipos de personas o entidades, quienes además de tener íconos diferentes, tienen propiedades diferentes para añadir detalles sobre la conexión. Y para ser enfáticos, creamos este gráfico de red en el que te mostramos cómo se clasifican los diferentes tipos de puntos o nodos que VIS te permite generar.

Pero el detalle no se detiene en la iconografía. En VIS también puedes brindar información detallada sobre el tipo de conexión entre un punto y otro.  Por ejemplo, al conectar a una persona con una compañía, esta puede ser propietario, representante o empleado.  Las relaciones entre empresas, bancos y fundaciones también tienen niveles de detalle que pueden servir para explicar el porcentaje de acciones en una compañía, la propiedad de una sociedad o cualquier otro detalle sobre las uniones entre dos nodos. Entre personas se puede señalar que son familiares o compañeros en alguna empresa, fundación o partido político.

Los vínculos se expresan a través de una línea o flecha y es posible escribir detalles o  adjuntar documentos que prueben la relación entre ambos nodos. Toda esta información se almacena en una base de datos a la que cada usuario puede acceder para modificar o duplicar el contenido que ha creado.

VIS reconoce dos tipos de contenido principales: una entidad (persona o empresa) y una relación o vínculo. Para crear una entidad  es necesario hacer click en el botón con el signo más (+) y este comenzará a desplegar los tipos de entidades que describimos antes. Para crear un vínculo sólo debes seleccionar a una entidad ya creada, presionar el botón de vínculo y hacer click en otra entidad con la que exista algún tipo de relación.

Screen Shot 2016-08-11 at 12.03.17 PM

 

 

Existe también la opción de que la red se mueva en función de los nodos y vínculos que la componen. Activa la opción “Physics engine” y ve cómo tu red se transforma a la medida en que interactúas con los elementos. Para guardar, ve a el menú “Project” y selecciona “Save layout”. Las opciones para compartir en la web se encuentran bajo “Export layout” y puedes también descargar como imagen en formato JPEG o PNG con fondo y transparente en “Export image”.

Aplicar visualizaciones en red a cualquier trabajo es posible, sólo piensa en la estructura de la organización para la que trabajas, o cómo se relacionan las autoridades de algún ente gubernamental. Cuando las fiscalías presentan casos de corrupción, suelen apoyarse en visualizaciones de este tipo para explicar mejor los flujos dentro de una estructura delictiva.

En mi trabajo como periodista, he utilizado VIS en varias ocasiones. Ya sea para explicar cómo se conforma una megacorporación que es la principal acusada en un caso de ecocidio por la muerte de toda la fauna de un río en Guatemala, o para demostrar cómo un candidato presidencial escondía a través de sociedades anónimas vinculadas a él, el 46% del dinero que reportó para su campaña.

¿Has utilizado VIS para tus proyectos con datos? ¿Cómo te ha funcionado la herramienta? Mándanos un tuit etiquetando a @EscuelaDeDatos y @danyvillatoro para contarnos tu experiencia.

Tour Datero boliviano

Raisa Valda Ampuero - el agosto 3, 2016 en DAL, Expediciones de Datos, Experiencias, Fuentes de datos, Noticias, Tutoriales, Uncategorized

CC by SA NC MM

Bolivia CC by SA NC MM

¿Cuánto invierte el municipio en seguridad ciudadana, cuánto ha crecido la tala de árboles en los últimos años, cuántas lenguas indígenas se hablan por ciudad? El qué, cómo, cuándo y cuánto son preguntas en torno a las que gira la labor de organizaciones de la sociedad civil, activistas y estudiantes.
Dar respuesta a estas indagaciones viene de la mano del aprovechamiento de los datos existentes para generar valor e incidencia pública a partir de los hallazgos.

Por ello, con Escuela de Datos organizamos el “Tour Datero Bolivia” que se realizará este mes de agosto en las ciudades de Santa Cruz, Cochabamba, El Alto y La Paz. En cada ciudad hay espacio para 40 participantes.

El objetivo de esta serie de eventos es descubrir lo que los datos pueden mostrar a través de la capacitaciones y mentorías en depuración, análisis y representación de los datasets en formatos abiertos, cómo crearles valor, de qué forma pueden ser aprovechados; todo ello sobre la base de dudas y planteamientos propios de las organizaciones, y a partir de datos generados por organizaciones públicas y no gubernamentales en Bolivia.

Cuatro ciudades

Si estás en cualquiera de las ciudades que enlisto, puedes participar de talleres, expediciones de datos, mentorías a iniciativas o sesiones más ligeras acompañadas de una bebida.

Este es el calendario para escoger tu actividad, todos los eventos son gratuitos. Solamente recuerda que es requisito registrarse en el formulario correspondiente hasta el sábado 13 de agosto a las 20:00 (GMT -04:00).

Primero en Santa Cruz

Dos eventos abiertos y gratuitos orientados a colectivos, activistas, organizaciones de la sociedad civil y personas interesadas en mejorar sus capacidades para usar los datos de manera efectiva y eficiente.
Para cualquiera de ellos debes registrarte en este enlace: http://bit.ly/SantaCruzTourDatero
Solo requieres llevar tu laptop.

Cómo dar valor a los datos desde organizaciones de la sociedad civil
Dónde: Fundación Trabajo Empresa, Calle Moldes esquina Cobija (Edificio Telecentro Santa Cruz).
Fecha: 16 y 17 de agosto
Hora: 9:00 a 18:00 y de 10:00 a 13:00

Qué verás: 16/08 Taller con ejercicios prácticos para que los asistentes puedan absorber los conocimientos sobre los lineamientos básicos y el proceso para la utilización de datos abiertos.
17/08 Sesiones de mentoreo para iniciativas que deseen crear valor y aprovechar los datos abiertos para sus organizaciones y proyectos.
Organiza Escuela de Datos; apoyan Colectivo Rebeldía y Fundación Trabajo Empresa.
También “Datos y Cervezas” el 16 de agosto desde las 20:00 en La Esquina del Cronopio (calle Colón esq. Lemoine); conoce proyectos de datos abiertos (emergentes y consolidados) a nivel regional compartiendo una cerveza.

Cochabamba, tecnologías y género

En Cochabamba, nos lucimos con una serie de eventos de van desde la capacitación y expedición de datos con temas de género hasta sesiones más ligeras de mentoría de iniciativas o solamente hablar de datos comiendo un picado. Si tu interés está en temas de género o simplemente quieres aprender cómo trabajar con datos, registrate en este enlace: http://bit.ly/TourDateroCochabamba. Para el caso de la capacitación y expedición de datos, el equipo coordinador tomará contacto contigo para confirmar tu participación.
Solo requieres llevar tu laptop.

Datos que narran la violencia de género
Dónde: Centro de Estudios Superiores Universitarios, Calle Calama 235
Fecha: 18 y 19 de agosto
Hora: 9:00 a 18:00

Qué verás: 18/08 Taller con ejercicios prácticos para que los asistentes puedan absorber los conocimientos sobre los lineamientos básicos y el proceso para la utilización de datos abiertos.
19/08 Expedición de datos a partir de datos sobre violencia de género de organizaciones públicas y no gubernamentales para producir narrativas, visualizaciones y otros productos.

Organiza Cuántas Más, Escuela de Datos y SLIM Cochabamba; apoyan CESU-UMSS, Coordinadora de la Mujer, Udabol.

Conversatorio sobre Nuevas Tecnologías e Investigación en Ciencias Sociales
Dónde: Centro de Estudios Superiores Universitarios, Calle Calama 235
Fecha: Jueves 18 de agosto
Hora: 19:00

Organiza Cuántas Más, Escuela de datos , CESU-UMSS

También “Picando Datos” el 19 de agosto desde las 20:00 en Café Bistró El Caracol (calle Mayor Rocha Nº 286 casi esquina España); conoce proyectos de datos abiertos (emergentes y consolidados) a nivel regional acompañado de picados.

Mentoría express
Dónde: Centro de Estudios Superiores Universitarios, Calle Calama 235
Fecha: 20 de agosto
Hora: 09:00 a 12:00

Qué verás: Mentoría para iniciativas que deseen crear valor y aprovechar los datos abiertos para sus organizaciones y proyectos.
Organiza Escuela de Datos y Cuántas Más.

Estudiando en El Alto

Si vives en El Alto y estudias en comunicación, periodismo, sistemas e informática y diseño, o eres parte de colectivos activistas u otras organizaciones de la sociedad civil y principalmente; este evento te interesa. De la A a la Z, aprenderás los elementos esenciales para empezar tu trabajo con datos desde un enfoque de aplicación con datos de la vida real.
Debes registrarte en este enlace para participar: http://bit.ly/TourDateroElAlto
Solo requieres llevar tu laptop.

Cómo y dónde empezar a trabajar con datos
Dónde: Casa de las Culturas Wayna Tambo, Zona de Villa Dolores Calle 8 No 20
Fecha: 22 de agosto
Hora: 9:00 a 18:00

Organiza Escuela de datos; apoya La Pública y Wayna Tambo.
Qué verás: Taller con ejercicios prácticos para que los asistentes puedan absorber los conocimientos sobre los lineamientos básicos y el proceso para la utilización de datos abiertos.

Las experiencias de La Paz

En La Paz nos enfocaremos en los proyectos e iniciativas ciudadanas que ya empezaron a tomar impulso con dos eventos: el primero más relajado para conocer lo que se está haciendo en cuanto a datos abiertos en Latinoamérica; y el segundo, una sesión para resolver dudas específicas de cada proyecto.
Debes registrarte en este enlace para participar: http://bit.ly/TourDateroLaPaz
Solo requieres llevar tu laptop.

“Datos y Singanis” el 22 de agosto desde las 20:00 en La Obertura Café Arte Rock (Calle Boyacá #2286, sobre Medinacelli. Entre 20 de Octubre y Rosendo Gutiérrez); conoce proyectos de datos abiertos (emergentes y consolidados) a nivel regional más un vaso de singani.

Impulsando iniciativas y proyectos ciudadanos de datos abiertos
Dónde: Bolivia Tech Hub, Av. Sanchez Lima (final) esquina Pasaje Fabiani 2687
Fecha: 23 de agosto
Hora: 16.00 a 19.00

Qué verás: Sesiones de mentoría express para iniciativas que deseen crear valor y aprovechar los datos abiertos para sus organizaciones y proyectos.
Organiza Escuela de datos; colabora Bolivia Tech Hub.

Cómo DataBasic puede ayudarte a empezar tu storytelling

Raisa Valda Ampuero - el julio 19, 2016 en Experiencias, Fuentes de datos

Aprender a trabajar con datos y utilizar las herramientas correctas tienen una curva de aprendizaje, como todo proceso, que a veces puede intimidar un poco al inicio. Lo se por experiencia propia.

En el afán de aprender y despejar las dudas que surgen en el análisis de datos, muchas veces aceleramos la carrera tratando de comprender de inmediato herramientas complejas, no siempre es el mejor camino. Por ello es necesario revisar herramientas pensadas para quienes está empezando con datos abiertos en el entendido de que progresivamente se adquiera mayor destreza en el análisis de datos.

DataBasic IO es una suite de herramientas intuitivas y fáciles de usar pensada para personas curiosas por analizar datos y contar historias, que todavía no están interiorizadas en los conceptos, tareas específicas o sencillamente no saben por dónde comenzar. En pocas palabras, simplifican el primer acercamiento a partir de tres herramientas que dan como resultado análisis prácticos de tus datos.

Aquí te cuento, una a una, qué pueden hacer estas herramientas a través de ejemplos con los que te puedes encontrar en el día a día.

DataBasic1

Word Counter, la primera de la lista, hace un análisis cuantitativos de un texto plano y te muestra las palabras y frases más comunes, este último más interesante todavía porque te pone en contexto de las palabras más usadas a través de bigramas y trigramas.

Si lo deseas puedes usar los ejemplos de la herramienta (son letras de canciones), pegar un enlace o un texto, o subir un documento: yo me decidí por esta última y trabajé con el discurso del Presidente de Bolivia del pasado 1° de mayo de 2016; la herramienta sólo se acepta archivos txt, docx, rtf. El resultado se muestra en dos grupos, el primero es una nube de palabras:

DataBasic2

Seguido de bigramas, trigramas y palabras encontradas con mayor frecuencia; estas listas se pueden descargar como un archivo CSV.

DataBasic3

De esta última imagen puedes ver, por ejemplo, que la palabra “compañeros” se repite 25 veces, y la palabra “compañeras” solamente 14; también que la frase “millones de bolivianos” aparece 13 veces, y aunque no sale en la imagen, se repite 4 veces el nombre “Hernan Siles Suazo”, ex presidente de Bolivia (1982) en cuyo mandato logró preservar la democracia luego de 18 años de sucesivos gobiernos militares y golpes de estado.

Si no te interesan los discursos presidenciales, también podrías utilizar textos planos sobre propuestas de candidatos, planes de gobierno, etc. WordCounter te ayuda a entender que se pueden encontrar muchas historias en un solo conjunto de datos.

WTF csv, un nombre cuya pregunta nos hemos hecho todos alguna vez. Esta herramienta te da una visión general de lo que está en tu archivo .csv y te ayuda a pasar rápidamente a preguntarle cosas a tus hojas de cálculo en un conjunto de datos o a partir de la combinación de varios conjuntos de datos.

Nuevamente cuentas con ejemplos propios de la herramienta, como la lista de pasajeros del Titanic; yo decidí utilizar el .csv de “Que no te la charlen”, un proyecto de transparencia universitaria con datos de las universidades y carreras públicas de Bolivia.

La herramienta te muestra la información en bloques giratorios, de un lado la información puesta de forma visual, y del otro como resumen en texto. Cada bloque representa una columna y contiene un resumen de la información en las filas de esa columna.

DataBasic 3

Viendo los contenidos empiezas a hacerte preguntas desde cada bloque, como: “¿por qué la Universidad Autónoma Gabriel Rene Moreno se repite 91 veces?”; o combinando bloques, como abajo, “¿Por qué si “Universidad Mayor de San Simón” -Cochabamba- se repite 89 veces, aparecen “Cochabamba” 74 veces mencionada en la columna Ciudad/Región?

Puedes complementar tu análisis con datos de apoyo que te ayuden a entender mejor el contexto de la información, como los del Censo de Población y Vivienda; o repetir el ejercicio usando otros .csv por ejemplo si quieres revisar presupuestos públicos para identificar el ítem que genera más gasto y a su vez comparar estos datos con presupuestos de la misma institución pero de otras ciudades.
Same Diff, la última de esta suite, compara dos documentos de texto y encuentra similaridades y diferencias en las palabras basadas en un algoritmo de similitud coseno que indica cuán parecidos son dos documentos.

No considera las sílabas con acentos ni apóstrofes, por lo que algunas de las palabras analizadas se ven cortadas; decidí probar la herramienta comparando las leyes de Identidad de Género de Bolivia y de Argentina, este fue el resultado:

DataBasic5

La columna de la izquierda muestra palabras únicas de la Ley de Identidad de Género de Argentina (pila, articulo, registral, documento, integral), en tanto que la columna de la derecha muestra el resultado para la ley boliviana (dato, propio, sereci, estado, transexuales); los resultados de la columna central, por otra parte indican las palabras encontradas en ambos documentos: identidad, nombre, sexo, género, ley, cambio.

La herramienta es interesante para encontrar temas comunes en el caso de documentos diferentes, o los elementos diferenciadores en documentos muy similares, como en el ejemplo de arriba en que la legislación de Bolivia se enfoca en instituciones (SERECI) y el estado.

 Un plus general de DataBasic IO es que las herramientas se probaron en aulas y talleres para asegurar de que funcionen correctamente y que sean fácilmente comprensibles; también desarrollaron guías de actividades para cada herramienta, pensadas para replicar con estudiantes, periodistas, etc., y que combinan datos ligeros, como letras de canciones o avistamientos de OVNIS, para facilitar el abordaje de la búsqueda de historias de datos de manera más entretenida y simple.

Fact-checking: la fiebre que se contagia por toda Latinoamérica

Daniel Villatoro - el julio 19, 2016 en Experiencias, Fuentes de datos, Uncategorized

Ves a un político dando un discurso. “Está mintiendo”, te dices. Y allí se queda. Muchos políticos mienten, pero muchas veces los medios no se esfuerzan lo suficiente por comprobar si lo que una fuente de información dice es verdad o no. Es allí donde la comprobación de datos o fact checking entra al juego. Verificar que lo que se dice en el discurso público tenga credibilidad es una manera de hacer que las figuras públicas rindan cuentas. Lo mejor es que en los últimos años ha surgido un boom en la aplicación de estos principios a la realidad latinoamericana.

Existen iniciativas que se dedican a eso, a tomar de lo que se discute en los medios y comprobar la veracidad de lo que se dice a través de los datos disponibles. Uno de los grandes “culpables” de este boom latinoamericano por el fact-checking es Chequeado, un medio que busca mejorar el debate público que suele basarse en prejuicios, ideologías e intereses y no en datos y hechos. Lo hace verificando las declaraciones de personas públicas -como políticos, economistas o empresarios-, medios de comunicación y otras instituciones. Clasifican esos dichos como “verdadero” o “falso, con base en los hechos y datos que encuentran.
Este medio definió una serie de pasos que busca seguir en cada ocasión, y los compartió en muchas capacitaciones y talleres, lo que desencadenó el surgimiento de otros proyectos de chequeo en medios tradicionales y alternativos en América Latina.

Otros proyectos surgieron por su cuenta, pero ahora podemos conocer al menos 17 iniciativas de verificación del discurso público en 10 países de Latinoamérica.

La metodología que Chequeado estableció consiste en una serie de ocho pasos que culmina al brindarle a la frase una calificación en base a lo que se pudo comprobar, la cual varía desde verdadero hasta falso y todos los grises enmedio que se puedan preestablecer.

  1. Seleccionar una frase del ámbito público que sea verificable (Datos, no opiniones).
  2. Ponderar su relevancia, ya sea por el tema o por quién la dijo.
  3. Consultar a la fuente original, a la persona o institución que la dijo
  4. Consultar a la fuente oficial, aquella institución gubernamental que se encarga del tema y debería tener datos relacionados.
  5. Consultar a fuentes alternativas, como organizaciones sociales, centros de investigación y la academia.
  6. Ubicar la frase en su contexto
  7. Confirmar, relativizar o desmentir la afirmación que se seleccionó
  8. Calificar la declaración con una etiqueta que varía entre verdadero y falso.

50 sombras de la verdad

¿Existe una verdad a medias? ¿Y si digo la verdad, pero en un contexto engañoso? Por todas estos y otros problemas con la verificación de la veracidad en lo que alguien dice, las clasificaciones varían mucho, dependiendo de quien verifica. Chequeado estableció nueve grados para sus chequeos que van así: verdadero; verdadero +; verdadero, pero…; discutible, apresurado, exagerado, engañoso, insostenible y falso. Existen ocasiones en las que más de una calificación se podría aplicar.

Las clasificaciones expresan la conclusión a la que llegan los periodistas los sitios de fact-checking sobre la veracidad de los dichos en el ámbito social.

Según el recuento de los sitios latinoamericanos de chequeo que mencionamos, cada uno elige la manera de calificar que se acomode mejor en sus capacidades y en la manera en que quiere comunicarse con su público. Usando lenguaje popular o la misma identidad del medio, vemos como la verificación de datos siendo aplicada de maneras creativas.

Fact2

Las clasificaciones de La Casaquera, Politígrafo, Preto no Branco, Truco, El Sabueso, El Polígrafo, UY Check y Conpruebas

Un show en vivo

Los discursos de los presidenciables son la excusa perfecta para que a la verificación de datos se le añada la emoción por la inmediatez. En Costa Rica, el periódico Nación verificó en vivo el mensaje anual del presidente Luis Guillermo Solís en un especial que mostraba a tiempo real las verificaciones que se lograban comprobar, minuto a minuto.

Y por varios años, Chequeado ha invitado a que cualquier persona contribuya a su chequeo de los discursos presidenciales y puso a funcionar un portal para los chequeos en vivo, como puedes ver en este vídeo.

Si encontraste algún proyecto de verificación de datos en tu país, ¿por qué no pruebas contribuir enviándole una frase para que chequeen?
*¿Conoces una iniciativa latinoamericana de fact-checking que no hayamos mencionado? Mándanos un tuit con información sobre ella. Puedes encontrarme como @danyvillatoro y asegúrate de incluir a @EscuelaDeDatos para que podamos agregarla al mapa.

 

 

 

Cómo descubrir patrones en cientos de documentos con DocumentCloud

Daniel Villatoro - el julio 14, 2016 en Experiencias, Fuentes de datos, Tutoriales

En caso de que seas periodista y tengas muchos archivos para revisar e investigar, esta herramienta puede ayudarte revelando los nombres de personas, lugares o instituciones que se repiten en tus documentos, alinearte las fechas que menciona en líneas de tiempo, guardar tus archivos en la nube de manera privada y, para cuando quieras publicarlos, almacenarlos por ti.

¿Tienes mucho por investigar? Dile adiós a juntar todos los archivos en una carpeta, imprimirlos, armarte con marcadores resaltadores, post-its y etiquetas de color. Ese tardado trabajo de leer, encontrar información repetida y subrayarla lo puedes hacer en DocumentCloud.

DocumentCloud es una plataforma Open Source en la que los periodistas y medios pueden montar un archivo en línea de documentos digitales y textos escaneados. Provee un espacio para compartir los archivos que nutren cualquier investigación periodística.

Esta herramienta también te ayuda con los archivos físicos. Cuando subas un archivo PDF escaneado como imagen, la plataforma lo leerá con reconocimiento óptico de caracteres (OCR) para que puedas reconocer las palabras en el archivo. El propósito de este proyecto es que los periodistas de investigación pongan documentos de fuentes primarias al acceso del público y que puedan procesarlos de una mejor manera.

¿Qué otras funciones tiene esta herramienta?

Corre cada documento a través de OpenCalais, una tecnología de metadatos de Thomson Reuters la cual permite agregar otra información de contexto de los archivos cargados. Puede tomar las fechas de un documento y graficarlas en una línea de tiempo o ayudarte a encontrar documentos relacionados con tu historia.
También te permite anotar y resaltar secciones importantes de tus documentos. Cada nota que añadas tendrá su URL única para que puedas ordenar y tener todo sistematizado.
Puedes almacenar todo de manera segura y privada, pero para cuando quieras compartir e incrustar los documentos que tengas, tienes la opción de hacerlos públicos. Los documentos de una investigación no tienen porque quedarse almacenados en los archivos del periodista que la hizo o del medio que la publicó.
Puedes revisar los documentos que otras personas hayan liberado como transcripciones de audiencias, testimonios, leyes, reportes, correspondencia, minutas de reuniones y documentos desclasificados.

La plataforma en acción

Muchos periódicos han utilizado DocumentCloud de maneras creativas para almacenar sus archivos y dar un acceso a los hallazgos de sus investigaciones.

Hace un mes, en una investigación sobre cómo ciertas farmacéuticas manipulan la compra de medicamentos del seguro social guatemalteco, Oswaldo Hernández de Plaza Pública utilizó esta tecnología. El reportaje revelaba una red de abogados, médicos, asociaciones de pacientes y especialistas que forzaban la compra de fármacos para pacientes terminales.

“Busqué palabras como ‘Doctor’ o ‘abogado’ para ir descubriendo nombres personales. Y así fui armando una base de datos y encontrando las redes de implicados. Es como tener un documento de word en el que exploras todo por búsquedas”, explica Hernández.

Al analizar uno de los documentos sobre los medicamentos, DocumentCloud muestra los nombres e instituciones que se repiten en el texto de manera gráfica.

DocumentCloud1

Una captura de pantalla de los análisis que DocumentCloud grafica sobre los archivos cargados en la plataforma

Cuatro buenos ejemplos de otras maneras de utilizar esta herramienta

Estos son algunos buenos ejemplos de cómo —al mezclar buena información, imaginación y las funciones de esta herramienta— puedes producir diferentes tipos de contenido.

La plataforma VozData del periódico La Nación combina código propio con la tecnología de DocumentCloud para montar una plataforma de colaboración abierta que transforma los documentos de gastos del Senado en información útil y abierta.

DocumentCloud2

Debido a que su reportaje sobre las agresiones en una prisión apareció en el New York Times, The Marshall Project hizo un seguimiento sobre cómo los oficiales de la prisión tacharon los nombres de internos y guardias, así como fotos aéreas del recinto, cuando el periódico fue distribuido a los prisioneros.

DocumentCloud3

El International Consortium of Investigative Journalist (ICIJ) utiliza esta herramienta para que cualquier persona tenga acceso y pueda explorar los documentos originales de los leaks de Luxemburgo, acuerdos secretos que reducían impuestos a 350 empresas de todo el mundo aprobados por las autoridades de este país.

DocumentCloud4

El Washington Post explicó las instrucciones que la National Security Agency da a sus analistas para no revelar mucha información sospechosa en los formularios que deben llenar para acceder a bases de datos y otros servicios de información.

DocumentCloud5

Así que la próxima vez que tengas muchos documentos originales sobre una investigación, puedes hacer esta información pública a través de DocumentCloud. Y si no eres periodista, puedes utilizarla para buscar documentos hechos públicos por diferentes medios alrededor del mundo.