¡Data Wrangler: limpia tus bases en un tris!
Amo el trabajo de datos. Pero hay una cosa que no me gusta: la limpieza. ¿No te ha pasado alguna vez? ¡A mí sí y sigo contando! Por eso, quiero enseñarte cómo utilizar una herramienta para hacer al mal tiempo buena y cara: Wrangler. Esta es una herramienta interactiva GRATUITA, desarrollada por el proyecto de investigación Stanford/Berkeley, que sirve para la limpieza y transformación de datos.
Con ella, te lo prometo, pasarás menos tiempo limpiando y más tiempo analizando tus datos a la hora de elaborar bases de datos. ¿Te animas a probarla? Bueno, pues, lee y te cuento cómo la probé con una tabla de datos, sobre las primeras tres jornadas de CONCACAF 2016-2017, que extraje de Mismarcadores.com.
¡Menor tiempo, mejor limpieza!
Un profesor en la «U» solía decirme que, lo bueno si breve, dos veces bueno. Y eso es lo que evoca Wrangler al momento de utilizarlo. Para comenzar, ingresa a http://vis.stanford.edu/wrangler/, donde encontrarás un botón al que hasta el más curioso y entusiasta datero dará clic con su provocativo Try It Now (¡Pruébala ahora!).
Como verás a continuación, la interfaz de Wrangler es sencilla. Un poco primaria para algunos, pero los resultados son prometedores para quienes deseamos limpiar datos rápido y bien. ¿Ves cómo está la tabla? Fea, ¿verdad?
Para mejorarla, lo primero que hice fue seleccionar la primera fila de la tabla y acudí al auxilio de la opción Promote para que la primera fila sea el encabezado de cada una de nuestras columnas. Así, ya tenemos un encabezado con el cual la carpintería datera puede comenzar. ¡Eso sí! Para cambiar cada uno de sus nombres puedes dar doble clic y ¡listo! ¡Ya tienes categorías!
Ahora, rellenemos los espacios en blanco de cada jornada. Para eso, sombreé la columna JORNADA. Y me fui a la opción Fill, con la cual puedes reemplazar las columnas/filas en blanco por insumos de valor. Para este caso, le indiqué que debía rellenar todo espacio debajo de JORNADA que estuviera en blanco.
¿Cómo? Colocando lo siguiente en su barra de opciones:
Column JORNADA
Direction: above
Row: JORNADA is null
Finalizado esto, aparecerá una opción con nuestros comandos en el menú SUGGESTIONS. Dale clic al signo de «más» y verás cómo empieza a tomar forma la cosa.
Sí, yo también vi esas filas en blanco que no aportan nada en cada JORNADA. Para eliminarlas, selecciona cada una de las columnas e ingresa a la opción DELETE, donde podrás prescindir de cada una de ellas en el menú de la izquierda, dando clic al signo más en el menú SUGGESTIONS.
Mejor, ¿no? Ahora, tenemos otra piedrita en el camino: ¡Fecha y hora están unidas! Pero, que no panda el cúnico. Para separarlas, me di a la tarea de hacer lo siguiente:
1) Seleccioné la columna FECHA
2) Fui a la opción SPLIT y coloca WHITESPACE en la variable after.
3) Y voilá…
¡Eso sí! No pases por alto cambiar las columnas SPLIT a FECHA y HORA respectivamente. Ahora, veo que el MARCADOR está igual de sucio. Por tanto, tendremos que separar cada uno de esas ÊÊ que les mantienen unidos. ¡Empecemos entonces! Yo comencé por el marcador del equipo 2 e hice esto:
1) Sombreé la columna MARCADOR
2) Fui a la opción SPLIT y coloca ÊÊ en la variable after.
3) ¡Listo! ¡Ya me lo separó!
Ahora, viene lo mejor: ¿cómo quitamos esas ÊÊ del marcador del equipo 1? Antes de separar, sombreemos las ÊÊ y sígueme con lo siguiente:
1) Vamos a la opción SPLIT
2) Coloquemos ÊÊ en la opción on
3) ¡Mira qué padre! ¡Nos separó las ÊÊ del marcador!
4) ¡No olvides renombrar la columna separada como MARCADOR EQUIPO 1!
¡Solo nos queda prescindir de la columna en blanco del anterior SPLIT! Y, para eso, ve a la opción DROP y dale clic a la primera opción que te presenta el menú SUGGESTIONS.
¿Qué hacemos ahora? Ve a la opción EXPORT que se encuentra debajo de SUGGESTIONS y haz clic. Te saldrá una pantalla con la tabla de datos limpia. Copíala y llévala a tu Text Edit (Mac) o Bloc de Notas (Windows). Pega el archivo y guárdalo como un texto sin formato con extensión .csv.
Ahora, si la curiosidad te mata como a mí me pasó, abrí el .csv en Excel… ¡Y este fue el resultado!
¡Justo algo con lo cual podemos trabajar! ¡Gracias por oír mis plegarias dateras, Wrangler!
¿Por qué confiar en Wrangler?
«¿Para qué tanto problema?», dijo sabiamente Juan Gabriel. Y yo le creo… yo te invito a darle un voto de confianza a Wrangler. ¿Por qué? Porque me ha pasado que se me va el tiempo (¡y la vida!) manipulando datos exclusivamente para que las herramientas de visualización y análisis las leen. Pero, ¡oh, sorpresa! Muchas veces, el resultado no es el esperado porque la limpieza no fue lo que yo deseaba.
Y, en esos deseos de cosas imposibles, Wrangler está diseñadas para acelerar esos procesos; más, si tienes a un editor o a tu jefe exigiendo bases de datos y visualizaciones rápidas y bien ejecutadas. Con este insumo, pasarás menos tiempo lidiando con tus datos y mucho más aprendiendo de ellos al tener las preguntas correctas que te ayuden a sustentar/refutar hipótesis de periodismo de datos.
También, te permite la transformación interactiva de información sucia que puedes encontrar a diario en insumos de análisis para cualquier proyecto en el cual te encuentres trabajando. Y, lo que más me encanta, te ayuda a exportar datos para su utilización en mis dos inseparables amigos: Excel o Tableau. ¡Yeeeeeeeeeeeeeey!
Por los registros, ¡no te preocupes! Una vez exportes la data trabajada, la herramienta volverá a su fase original con las bases precargadas (¡otra razón para amarte, Wrangler!). Ya si esto no te convence, anímate a probarla y compartirnos qué te parece y que no. ¡No te quedes con las ganas y comparte con nosotros tus impresiones acá o en nuestro Twitter (@EscueladeDatos)! ¡Cambio y fuera!
Deja un comentario