Estás navegando por el archivo de estándares.

¡Data Wrangler: limpia tus bases en un tris!

- el septiembre 13, 2016 en Expediciones de Datos, Experiencias, Fuentes de datos, Uncategorized

Amo el trabajo de datos. Pero hay una cosa que no me gusta: la limpieza. ¿No te ha pasado alguna vez? ¡A mí sí y sigo contando! Por eso, quiero enseñarte cómo utilizar una herramienta para hacer al mal tiempo buena y cara: Wrangler. Esta es una herramienta interactiva GRATUITA, desarrollada por el proyecto de investigación Stanford/Berkeley, que sirve para la limpieza y transformación de datos.

Con ella, te lo prometo, pasarás menos tiempo limpiando y más tiempo analizando tus datos a la hora de elaborar bases de datos. ¿Te animas a probarla? Bueno, pues, lee y te cuento cómo la probé con una tabla de datos, sobre las primeras tres jornadas de CONCACAF 2016-2017, que extraje de Mismarcadores.com.

1

 

 

 

 

¡Menor tiempo, mejor limpieza!
Un profesor en la «U» solía decirme que, lo bueno si breve, dos veces bueno. Y eso es lo que evoca Wrangler al momento de utilizarlo. Para comenzar, ingresa a http://vis.stanford.edu/wrangler/, donde encontrarás un botón al que hasta el más curioso y entusiasta datero dará clic con su provocativo Try It Now (¡Pruébala ahora!).

34

 

 

 

 

Como verás a continuación, la interfaz de Wrangler es sencilla. Un poco primaria para algunos, pero los resultados son prometedores para quienes deseamos limpiar datos rápido y bien. ¿Ves cómo está la tabla? Fea, ¿verdad?5

 

 

 

 

Para mejorarla, lo primero que hice fue seleccionar la primera fila de la tabla y acudí al auxilio de la opción Promote para que la primera fila sea el encabezado de cada una de nuestras columnas. Así, ya tenemos un encabezado con el cual la carpintería datera puede comenzar. ¡Eso sí! Para cambiar cada uno de sus nombres puedes dar doble clic y ¡listo! ¡Ya tienes categorías!

6 7

 

 

 

 

Ahora, rellenemos los espacios en blanco de cada jornada. Para eso, sombreé la columna JORNADA. Y me fui a la opción Fill, con la cual puedes reemplazar las columnas/filas en blanco por insumos de valor. Para este caso, le indiqué que debía rellenar todo espacio debajo de JORNADA que estuviera en blanco.

¿Cómo? Colocando lo siguiente en su barra de opciones:

Column JORNADA

Direction: above

Row: JORNADA is null

Finalizado esto, aparecerá una opción con nuestros comandos en el menú SUGGESTIONS. Dale clic al signo de «más» y verás cómo empieza a tomar forma la cosa.

8

 

 

 

 

Sí, yo también vi esas filas en blanco que no aportan nada en cada JORNADA. Para eliminarlas, selecciona cada una de las columnas e ingresa a la opción DELETE, donde podrás prescindir de cada una de ellas en el menú de la izquierda, dando clic al signo más en el menú SUGGESTIONS.

9

 

 

 

 

Mejor, ¿no? Ahora, tenemos otra piedrita en el camino: ¡Fecha y hora están unidas! Pero, que no panda el cúnico. Para separarlas, me di a la tarea de hacer lo siguiente:

1) Seleccioné la columna FECHA

2) Fui a la opción SPLIT y coloca WHITESPACE en la variable after.

3) Y voilá…

10

 

 

 

 

¡Eso sí! No pases por alto cambiar las columnas SPLIT a FECHA y HORA respectivamente. Ahora, veo que el MARCADOR está igual de sucio. Por tanto, tendremos que separar cada uno de esas ÊÊ que les mantienen unidos. ¡Empecemos entonces! Yo comencé por el marcador del equipo 2 e hice esto:

1) Sombreé la columna MARCADOR

2) Fui a la opción SPLIT y coloca ÊÊ en la variable after.

3) ¡Listo! ¡Ya me lo separó!

11

 

 

 

 

Ahora, viene lo mejor: ¿cómo quitamos esas ÊÊ del marcador del equipo 1? Antes de separar, sombreemos las ÊÊ y sígueme con lo siguiente:

1) Vamos a la opción SPLIT

2) Coloquemos ÊÊ en la opción on

3) ¡Mira qué padre! ¡Nos separó las ÊÊ del marcador!

4) ¡No olvides renombrar la columna separada como MARCADOR EQUIPO 1!

12

 

 

 

 

¡Solo nos queda prescindir de la columna en blanco del anterior SPLIT! Y, para eso, ve a la opción DROP y dale clic a la primera opción que te presenta el menú SUGGESTIONS.

13

 

 

 

 

¿Qué hacemos ahora? Ve a la opción EXPORT que se encuentra debajo de SUGGESTIONS y haz clic. Te saldrá una pantalla con la tabla de datos limpia. Copíala y llévala a tu Text Edit (Mac) o Bloc de Notas (Windows). Pega el archivo y guárdalo como un texto sin formato con extensión .csv.

15

 

 

 

 

Ahora, si la curiosidad te mata como a mí me pasó, abrí el .csv en Excel… ¡Y este fue el resultado!

16

 

 

 

 

¡Justo algo con lo cual podemos trabajar! ¡Gracias por oír mis plegarias dateras, Wrangler!

¿Por qué confiar en Wrangler?

«¿Para qué tanto problema?», dijo sabiamente Juan Gabriel. Y yo le creo… yo te invito a darle un voto de confianza a Wrangler. ¿Por qué? Porque me ha pasado que se me va el tiempo (¡y la vida!) manipulando datos exclusivamente para que las herramientas de visualización y análisis las leen. Pero, ¡oh, sorpresa! Muchas veces, el resultado no es el esperado porque la limpieza no fue lo que yo deseaba.

Y, en esos deseos de cosas imposibles, Wrangler está diseñadas para acelerar esos procesos; más, si tienes a un editor o a tu jefe exigiendo bases de datos y visualizaciones rápidas y bien ejecutadas. Con este insumo, pasarás menos tiempo lidiando con tus datos y mucho más aprendiendo de ellos al tener las preguntas correctas que te ayuden a sustentar/refutar hipótesis de periodismo de datos.

También, te permite la transformación interactiva de información sucia que puedes encontrar a diario en insumos de análisis para cualquier proyecto en el cual te encuentres trabajando. Y, lo que más me encanta, te ayuda a exportar datos para su utilización en mis dos inseparables amigos: Excel o Tableau. ¡Yeeeeeeeeeeeeeey!
Por los registros, ¡no te preocupes! Una vez exportes la data trabajada, la herramienta volverá a su fase original con las bases precargadas (¡otra razón para amarte, Wrangler!). Ya si esto no te convence, anímate a probarla y compartirnos qué te parece y que no. ¡No te quedes con las ganas y comparte con nosotros tus impresiones acá o en nuestro Twitter (@EscueladeDatos)! ¡Cambio y fuera!

 

 

 

 

Finanzas públicas, APIs y estándares: la experiencia de IMCO

- el enero 8, 2014 en Experiencias

Screen Shot 2014-01-08 at 12.09.17

(Imagen capturada en imco.org.mx)

¿Tú conoces el panorama de las finanzas públicas en tu entidad, incluyendo sus fortalezas y debilidades? ¿Te sientes capaz de compararlo en ese sentido con otras entidades?

Finanzas públicas es un sitio del Instituto Mexicano para la Competitividad que busca ayudar a los mexicanos a contestar afirmativamente las preguntas anteriores. Pero la historia no termina ahí: tiene una propuesta tecnológica que lo hace replicable, que garantiza capacidad en el servicio, y que invita a ejercitar la creatividad.

Te compartimos la entrevista con Francisco Mekler del IMCO.

IMCO.datos from Jaime Fraire Quiroz on Vimeo.

Conoce el formato de tus datos

- el octubre 31, 2013 en Tutoriales

Este post de Neil Ashton fue publicado originalmente en inglés en School of Data el 21 de octubre de 2013, y traducido por Aura Montemayor de SocialTIC.

Seamos honestos: tus datos no sirven de nada si no están disponibles en un formato en que los puedas usar. Hasta las visualizaciones, aplicaciones interactivas y análisis más sencillos requieren que los datos sean legibles en algún lenguaje de computadora. Para que los datos puedan ser usados, deben ser legibles en diferentes formatos.

Los datos deben ser abiertos y estar disponibles en un formato que sea legible para cualquier computadora; así se asegura que la información pueda ser procesada con la mínima intervención humana. Si tus datos cumplen con estas características, serán accesibles para cualquier persona y cualquiera los podrá procesar y usar.

Datos legibles

El término se refiere a que la información esté en un formato o formatos que sean legibles y, por lo tanto, totalmente transparentes. Si los datos no son legibles, los usuarios tendrán que armar un documento desde cero para crear una estructura legible. ¡Esto no es recomendable!

Los datos que no están estructurados no necesariamente están mal. Si te decimos que la mayoría de los documentos se encuentran en formatos no legibles para la máquina, como PDF o Word e imágenes como GIF, JPEG, PNG, BMP, tal vez te parezca muy extraño que estos formatos no sean legibles en computadora. A lo que nos referimos es que estos formatos no son buenos vehículos para procesar datos. Están diseñados para que se vean estéticos o para imprimir, pero no para poder procesar la información.

Los datos que sí pueden ser leídos por las computadoras son simples y están codificados para que la computadora los pueda entender y procesar. Al contrario de los datos no estructurados (Pdf, Word), NO son sencillos de leer para nosotros, pero sí para las computadoras.

Los datos vienen en muchos formatos, siendo las tablas los formatos más comunes. Una tabla representa un set de datos en columnas y filas, y cada dato es único. Cada dato puede presentarse como una letra o como números. Los formatos CSV o TSV son necesarios para tabular datos y son legibles por tu computadora. Ambos formatos representan un solo set de datos en una fila, una coma para CSV y una tabla para TSV en columnas separadas. Todas las bases de datos son fáciles de trabajar en los dos formatos antes descritos.

Vista de la página web toronto.ca

Dos maneras de visualizar los datos de una tabla CSV: La primera es un ejemplo del alcalde de Toronto, Rob Ford, y su registro de votantes (tomado de toronto.ca). Algunos datos incluyen estructuras que no pueden ser codificadas por una tabla. Por ejemplo, cada dato puede estar asociado con una lista interminable de nombres. Estos nombres se pueden representar como una cadena; sin embargo, los programas para tabular lo reconocen como una oración, y no como una fila o columna. Para que estas cadenas de nombres puedan ser traducidos a formatos legibles para la computadora, existen los formatos como JSON (JavaScript Object Notation) o XML (eXtensible Markup Language). JSON lee datos en formato JavaScript, incluyendo listas y objetos como los que contienen los mapas. El formato XML representa los datos como árboles de HTML. Los dos formatos son ampliamente usados.

Visualización de datos en formato XML

Formatos abiertos

No todos los formatos fueron creados iguales: algunos están diseñados para que sólo un software los pueda leer, y otros son privados. Este tipo de formatos no permiten distribuir datos, ya que sólo algunas personas tendrían acceso a éstos. Desafortunadamente, los datos privados abundan en la web. Por ejemplo: todo lo desarrollado por Microsoft Office no se puede leer si no compras el sistema operativo. La mayoría de los formatos que puedes encontrar en la red están en Microsoft Word documents (.doc, .docx) o en Microsoft Excel spreadsheets (.xls, .xlsx). Actualmente existen muchos softwares que son abiertos y que permiten importar los formatos de Microsoft Office; sin embargo, existen muchas dificultades técnicas para que ambos softwares sean compatibles.

Si compartes tus datos en formatos abiertos, muchas personas tendrán acceso a ellos. Todos los formatos que son legibles para la computadora (que se describe en la sección de abajo) son formatos libres y, por lo tanto, excelentes vectores de distribución de datos.

Visualización de datos en formato JSON tomada de Green P Parking data de toronto.ca

¡Vamos a empezar!

Empezar a trabajar con formatos que sean legibles por la computadora y con datos abiertos es tan fácil como dar un click. Los datos que están en tablas o como hojas de cálculo en Microsoft Excel, LibreOffice, Google Drive son fáciles de guardar, ya que todos te permiten hacerlo con la opción CSV. Tomar la decisión de guardarlos en ese formato es el primer paso para que tus datos sean abiertos. Para ir más allá de ese  primer formato, necesitas aprender a programar: por ejemplo, en JSON o XML. Si deseas aprender, aquí hay un par de páginas (en inglés) que te introducirán al mundo del hacking cívico: http://docs.python.org/2/library/json.html http://docs.python.org/2/library/xml.html .