Obteniendo datos de los PDF

Obteniendo datos de los PDFs

Seguramente, te ha pasado que, en la búsqueda de datos, esperas encontrar datos útiles que puedas visualizar y analizar… pero, en lugar de eso, te encuentras con un PDF. ¡Qué gran decepción!

En este curso aprenderás a obtener datos de los PDF en un formato que sea fácil de usar para ti, y para la correcta extracción de datos.

Navega las diapositivas con la tecla de flecha.

Cuando las funciones copiar y pegar no son suficientes, ¡necesitas herramientas más poderosas! A continuación, encontrarás más información sobre los dos caminos truculentos mostrados en el diagrama de flujo anterior.

No todos los PDFs son iguales. La mayoría son generados automáticamente por programas de computadora (en el mejor de los casos); sin embargo, en la mayoría de los casos, son copias escaneadas de imágenes. Peor aún: tienen manchas, están torcidos, o no están bien enfocados. En este caso, tu trabajo será mucho más difícil. Sin embargo, ¡aquí tenemos algunos tips para facilitar tu vida!

(Texto original de Tim McNamara)

El sistema OCR

El sistema Optical Character Recognition (OCR)  te permite convertir PDFs o imágenes a formatos editables, tales como texto o bases de datos. Pero muchas veces, es difícil lograr esto. En the Data Science Toolkit (en inglés), podrás extraer texto de los archivos que estés buscando para complementar tus datos.

OCR, a grandes rasgos, crea un transportador-traductor de programas y herramientas para que sean legibles por otros programas. Los pasos son los siguientes:

  • Limpia el contenido;

  • Entiende la manera en que los datos están acomodados;

  • Extrae fragmentos de textos de cada página de acuerdo al acomodo de cada dato;

  • Rehace los fragmentos de texto en una forma que se pueda usar y entender.

Limpieza de páginas

Esta función generalmente remueve las manchas oscuras que dejó el scanner; le da encuadre a las página, y le da contraste al fondo y al texto. Te recomendamos usar unpaper para dicha tarea.

Archivos que OCR puede convertir

OCR sólo puede traducir algunos tipos de archivos. Normalmente, tendrás que convertir tus imágenes a un formato legible por el programa, que es el formato .ppm.

En está sección, te daremos sugerencias de programas que puedes utilizar para extraer texto de los PDF. Tendrás que leer el manual de cada software para saber usarlo. Aquí sólo te damos una introducción para que puedas elegir el mejor programa para extraer tus datos del PDF.

Sin saber programar, las opciones que te damos a continuación son limitadas. Aquí te las presentamos:

  • Tabula – Actualmente, está de moda el uso de este software. La desventaja es que la tienes que descargar e instalar por tu propia cuenta.

  • ABBYY Finereader – Tienes que pagar para adquirirlo, pero se recomienda su uso para esclarecer la información contenida en los PDFs.

  • CometDocs – está en internet .

Advertencia – los programas a continuación requieren que descargues Command Line para instalarlos y correrlos en tu computadora. Algunos incluso requieren de conocimiento básico de programación. Los mencionamos aquí para que te des una idea:

Los candidatos son:

Además de los mencionados, también existen otras opciones como:

TaskMeUp esta diseñado para que puedas distribuir trabajos entre millones de participantes. Si tienes un proyecto que se puede beneficiar por cada usuario que lo lea, éste puede ser una buena opción.

Puedes encontrar otra alternativa en Amazon Mechanical Turk. Ellos proveen un servicio integral.  También puedes usar el servidor Cloudflower o Microtask. Microtask tiene como filosofía el no proporcionar el servicio por debajo del salario mínimo. En lugar de eso, se aliaron con proveedores de videojuegos para regalar al usuario juegos.

Desafío: Ayuda a liberar el presupuesto

Tarea: ¡Encuentra un PDF encarcelado que puedas liberar!

Por ejemplo, existen muchos PDFs que necesitan tu ayuda en este link: Budget Library of the International Budget Partnership.

Advertencia – Una vez que liberes tus datos, compártelos con alguien y ahórrales el penoso trabajo. Incluso los pues subir al OpenSpending group en Datahub o al OpenSpending Mailing List , complementado con una explicación de lo que hiciste.

2 respuestas a “Obteniendo datos de los PDF”

  1. Juan Manuel dice:

    ¡Gracias por las herramientas! Creo que Tabula me va a servir para extraer los datos de una tabla que tengo en un archivo PDF .

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *