Cómo descubrir patrones en cientos de documentos con DocumentCloud

el julio 14, 2016 en Experiencias, Fuentes de datos, Tutoriales

En caso de que seas periodista y tengas muchos archivos para revisar e investigar, esta herramienta puede ayudarte revelando los nombres de personas, lugares o instituciones que se repiten en tus documentos, alinearte las fechas que menciona en líneas de tiempo, guardar tus archivos en la nube de manera privada y, para cuando quieras publicarlos, almacenarlos por ti.

¿Tienes mucho por investigar? Dile adiós a juntar todos los archivos en una carpeta, imprimirlos, armarte con marcadores resaltadores, post-its y etiquetas de color. Ese tardado trabajo de leer, encontrar información repetida y subrayarla lo puedes hacer en DocumentCloud.

DocumentCloud es una plataforma Open Source en la que los periodistas y medios pueden montar un archivo en línea de documentos digitales y textos escaneados. Provee un espacio para compartir los archivos que nutren cualquier investigación periodística.

Esta herramienta también te ayuda con los archivos físicos. Cuando subas un archivo PDF escaneado como imagen, la plataforma lo leerá con reconocimiento óptico de caracteres (OCR) para que puedas reconocer las palabras en el archivo. El propósito de este proyecto es que los periodistas de investigación pongan documentos de fuentes primarias al acceso del público y que puedan procesarlos de una mejor manera.

¿Qué otras funciones tiene esta herramienta?

Corre cada documento a través de OpenCalais, una tecnología de metadatos de Thomson Reuters la cual permite agregar otra información de contexto de los archivos cargados. Puede tomar las fechas de un documento y graficarlas en una línea de tiempo o ayudarte a encontrar documentos relacionados con tu historia.
También te permite anotar y resaltar secciones importantes de tus documentos. Cada nota que añadas tendrá su URL única para que puedas ordenar y tener todo sistematizado.
Puedes almacenar todo de manera segura y privada, pero para cuando quieras compartir e incrustar los documentos que tengas, tienes la opción de hacerlos públicos. Los documentos de una investigación no tienen porque quedarse almacenados en los archivos del periodista que la hizo o del medio que la publicó.
Puedes revisar los documentos que otras personas hayan liberado como transcripciones de audiencias, testimonios, leyes, reportes, correspondencia, minutas de reuniones y documentos desclasificados.

La plataforma en acción

Muchos periódicos han utilizado DocumentCloud de maneras creativas para almacenar sus archivos y dar un acceso a los hallazgos de sus investigaciones.

Hace un mes, en una investigación sobre cómo ciertas farmacéuticas manipulan la compra de medicamentos del seguro social guatemalteco, Oswaldo Hernández de Plaza Pública utilizó esta tecnología. El reportaje revelaba una red de abogados, médicos, asociaciones de pacientes y especialistas que forzaban la compra de fármacos para pacientes terminales.

“Busqué palabras como ‘Doctor’ o ‘abogado’ para ir descubriendo nombres personales. Y así fui armando una base de datos y encontrando las redes de implicados. Es como tener un documento de word en el que exploras todo por búsquedas”, explica Hernández.

Al analizar uno de los documentos sobre los medicamentos, DocumentCloud muestra los nombres e instituciones que se repiten en el texto de manera gráfica.

DocumentCloud1

Una captura de pantalla de los análisis que DocumentCloud grafica sobre los archivos cargados en la plataforma

Cuatro buenos ejemplos de otras maneras de utilizar esta herramienta

Estos son algunos buenos ejemplos de cómo —al mezclar buena información, imaginación y las funciones de esta herramienta— puedes producir diferentes tipos de contenido.

La plataforma VozData del periódico La Nación combina código propio con la tecnología de DocumentCloud para montar una plataforma de colaboración abierta que transforma los documentos de gastos del Senado en información útil y abierta.

DocumentCloud2

Debido a que su reportaje sobre las agresiones en una prisión apareció en el New York Times, The Marshall Project hizo un seguimiento sobre cómo los oficiales de la prisión tacharon los nombres de internos y guardias, así como fotos aéreas del recinto, cuando el periódico fue distribuido a los prisioneros.

DocumentCloud3

El International Consortium of Investigative Journalist (ICIJ) utiliza esta herramienta para que cualquier persona tenga acceso y pueda explorar los documentos originales de los leaks de Luxemburgo, acuerdos secretos que reducían impuestos a 350 empresas de todo el mundo aprobados por las autoridades de este país.

DocumentCloud4

El Washington Post explicó las instrucciones que la National Security Agency da a sus analistas para no revelar mucha información sospechosa en los formularios que deben llenar para acceder a bases de datos y otros servicios de información.

DocumentCloud5

Así que la próxima vez que tengas muchos documentos originales sobre una investigación, puedes hacer esta información pública a través de DocumentCloud. Y si no eres periodista, puedes utilizarla para buscar documentos hechos públicos por diferentes medios alrededor del mundo.

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *