OCR con FineReader
Convierte documentos en PDF desde imagen a Excel o Word, para que estos sean editables.
Después de probar varias herramientas para convertir de PDF a OCR como Tabula o CometDocs, la mayoría de ellas tenían dificultades convirtiendo documentos con imágenes o sin celdas definidas.
ABBYY FineReader OCR tiene otro tipo de complicación: la licencia cuesta entre 99 y 169 dólares. Pero según el trabajo que vayas a realizar, podría ser útil comprarla.
Si decides utilizarla, en este tutorial te mostramos cómo.
Con la herramienta se puede extraer el texto de archivos PDF a texto plano, html y a Excel.
En este caso lo utilizaremos para convertir el archivo a Excel.
El proceso es muy sencillo:
- Seleccionar el archivo PDF
- El programa empezará a reconocer las imágenes dentro del archivo PDF
- Con el reconocimiento el programa identificará las filas y columnas de la tabla y también el texto y las imágenes en la misma tabla
- El programa permite personalizar el texto que finalmente se va a extraer, es por eso que eliminaremos las imágenes y los encabezados que son útiles en Excel.
- Al dar click sobre el botón ‘exportar’ se puede personalizar el formato del archivo que se obtendrá, la calidad y detalles, como si dejan fuera o dentro el contenido de las tablas.
Para obtener un mejor resultado en Excel seleccionaremos ignorar el contenido fuera de las tablas, no conservar las imágenes y que reconozca automáticamente los valores numéricos.
- El documento en Excel está listo para ser modificado y analizado en menos de 3 minutos.
Ahora deberás decidir si la inversión en la licencia del ABBYY Finereader OCR es necesaria para realizar tu trabajo. Para conocer otras herramientas puedes ir a esta publicación de Escuela de Datos (https://es.schoolofdata.org/obteniendo-datos-de-los-pdfs/)
Deja un comentario