Conoce el formato de tus datos

el octubre 31, 2013 en Tutoriales

Este post de Neil Ashton fue publicado originalmente en inglés en School of Data el 21 de octubre de 2013, y traducido por Aura Montemayor de SocialTIC.

Seamos honestos: tus datos no sirven de nada si no están disponibles en un formato en que los puedas usar. Hasta las visualizaciones, aplicaciones interactivas y análisis más sencillos requieren que los datos sean legibles en algún lenguaje de computadora. Para que los datos puedan ser usados, deben ser legibles en diferentes formatos.

Los datos deben ser abiertos y estar disponibles en un formato que sea legible para cualquier computadora; así se asegura que la información pueda ser procesada con la mínima intervención humana. Si tus datos cumplen con estas características, serán accesibles para cualquier persona y cualquiera los podrá procesar y usar.

Datos legibles

El término se refiere a que la información esté en un formato o formatos que sean legibles y, por lo tanto, totalmente transparentes. Si los datos no son legibles, los usuarios tendrán que armar un documento desde cero para crear una estructura legible. ¡Esto no es recomendable!

Los datos que no están estructurados no necesariamente están mal. Si te decimos que la mayoría de los documentos se encuentran en formatos no legibles para la máquina, como PDF o Word e imágenes como GIF, JPEG, PNG, BMP, tal vez te parezca muy extraño que estos formatos no sean legibles en computadora. A lo que nos referimos es que estos formatos no son buenos vehículos para procesar datos. Están diseñados para que se vean estéticos o para imprimir, pero no para poder procesar la información.

Los datos que sí pueden ser leídos por las computadoras son simples y están codificados para que la computadora los pueda entender y procesar. Al contrario de los datos no estructurados (Pdf, Word), NO son sencillos de leer para nosotros, pero sí para las computadoras.

Los datos vienen en muchos formatos, siendo las tablas los formatos más comunes. Una tabla representa un set de datos en columnas y filas, y cada dato es único. Cada dato puede presentarse como una letra o como números. Los formatos CSV o TSV son necesarios para tabular datos y son legibles por tu computadora. Ambos formatos representan un solo set de datos en una fila, una coma para CSV y una tabla para TSV en columnas separadas. Todas las bases de datos son fáciles de trabajar en los dos formatos antes descritos.

Vista de la página web toronto.ca

Dos maneras de visualizar los datos de una tabla CSV: La primera es un ejemplo del alcalde de Toronto, Rob Ford, y su registro de votantes (tomado de toronto.ca). Algunos datos incluyen estructuras que no pueden ser codificadas por una tabla. Por ejemplo, cada dato puede estar asociado con una lista interminable de nombres. Estos nombres se pueden representar como una cadena; sin embargo, los programas para tabular lo reconocen como una oración, y no como una fila o columna. Para que estas cadenas de nombres puedan ser traducidos a formatos legibles para la computadora, existen los formatos como JSON (JavaScript Object Notation) o XML (eXtensible Markup Language). JSON lee datos en formato JavaScript, incluyendo listas y objetos como los que contienen los mapas. El formato XML representa los datos como árboles de HTML. Los dos formatos son ampliamente usados.

Visualización de datos en formato XML

Formatos abiertos

No todos los formatos fueron creados iguales: algunos están diseñados para que sólo un software los pueda leer, y otros son privados. Este tipo de formatos no permiten distribuir datos, ya que sólo algunas personas tendrían acceso a éstos. Desafortunadamente, los datos privados abundan en la web. Por ejemplo: todo lo desarrollado por Microsoft Office no se puede leer si no compras el sistema operativo. La mayoría de los formatos que puedes encontrar en la red están en Microsoft Word documents (.doc, .docx) o en Microsoft Excel spreadsheets (.xls, .xlsx). Actualmente existen muchos softwares que son abiertos y que permiten importar los formatos de Microsoft Office; sin embargo, existen muchas dificultades técnicas para que ambos softwares sean compatibles.

Si compartes tus datos en formatos abiertos, muchas personas tendrán acceso a ellos. Todos los formatos que son legibles para la computadora (que se describe en la sección de abajo) son formatos libres y, por lo tanto, excelentes vectores de distribución de datos.

Visualización de datos en formato JSON tomada de Green P Parking data de toronto.ca

¡Vamos a empezar!

Empezar a trabajar con formatos que sean legibles por la computadora y con datos abiertos es tan fácil como dar un click. Los datos que están en tablas o como hojas de cálculo en Microsoft Excel, LibreOffice, Google Drive son fáciles de guardar, ya que todos te permiten hacerlo con la opción CSV. Tomar la decisión de guardarlos en ese formato es el primer paso para que tus datos sean abiertos. Para ir más allá de ese  primer formato, necesitas aprender a programar: por ejemplo, en JSON o XML. Si deseas aprender, aquí hay un par de páginas (en inglés) que te introducirán al mundo del hacking cívico: http://docs.python.org/2/library/json.html http://docs.python.org/2/library/xml.html .

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *