Aprender a trabajar con datos y utilizar las herramientas correctas tienen una curva de aprendizaje, como todo proceso, que a veces puede intimidar un poco al inicio. Lo se por experiencia propia.
En el afán de aprender y despejar las dudas que surgen en el análisis de datos, muchas veces aceleramos la carrera tratando de comprender de inmediato herramientas complejas, no siempre es el mejor camino. Por ello es necesario revisar herramientas pensadas para quienes está empezando con datos abiertos en el entendido de que progresivamente se adquiera mayor destreza en el análisis de datos.
DataBasic IO es una suite de herramientas intuitivas y fáciles de usar pensada para personas curiosas por analizar datos y contar historias, que todavía no están interiorizadas en los conceptos, tareas específicas o sencillamente no saben por dónde comenzar. En pocas palabras, simplifican el primer acercamiento a partir de tres herramientas que dan como resultado análisis prácticos de tus datos.
Aquí te cuento, una a una, qué pueden hacer estas herramientas a través de ejemplos con los que te puedes encontrar en el día a día.
Word Counter, la primera de la lista, hace un análisis cuantitativos de un texto plano y te muestra las palabras y frases más comunes, este último más interesante todavía porque te pone en contexto de las palabras más usadas a través de bigramas y trigramas.
Si lo deseas puedes usar los ejemplos de la herramienta (son letras de canciones), pegar un enlace o un texto, o subir un documento: yo me decidí por esta última y trabajé con el discurso del Presidente de Bolivia del pasado 1° de mayo de 2016; la herramienta sólo se acepta archivos txt, docx, rtf. El resultado se muestra en dos grupos, el primero es una nube de palabras:
Seguido de bigramas, trigramas y palabras encontradas con mayor frecuencia; estas listas se pueden descargar como un archivo CSV.
De esta última imagen puedes ver, por ejemplo, que la palabra “compañeros” se repite 25 veces, y la palabra “compañeras” solamente 14; también que la frase “millones de bolivianos” aparece 13 veces, y aunque no sale en la imagen, se repite 4 veces el nombre “Hernan Siles Suazo”, ex presidente de Bolivia (1982) en cuyo mandato logró preservar la democracia luego de 18 años de sucesivos gobiernos militares y golpes de estado.
Si no te interesan los discursos presidenciales, también podrías utilizar textos planos sobre propuestas de candidatos, planes de gobierno, etc. WordCounter te ayuda a entender que se pueden encontrar muchas historias en un solo conjunto de datos.
WTF csv, un nombre cuya pregunta nos hemos hecho todos alguna vez. Esta herramienta te da una visión general de lo que está en tu archivo .csv y te ayuda a pasar rápidamente a preguntarle cosas a tus hojas de cálculo en un conjunto de datos o a partir de la combinación de varios conjuntos de datos.
Nuevamente cuentas con ejemplos propios de la herramienta, como la lista de pasajeros del Titanic; yo decidí utilizar el .csv de “Que no te la charlen”, un proyecto de transparencia universitaria con datos de las universidades y carreras públicas de Bolivia.
La herramienta te muestra la información en bloques giratorios, de un lado la información puesta de forma visual, y del otro como resumen en texto. Cada bloque representa una columna y contiene un resumen de la información en las filas de esa columna.
Viendo los contenidos empiezas a hacerte preguntas desde cada bloque, como: “¿por qué la Universidad Autónoma Gabriel Rene Moreno se repite 91 veces?”; o combinando bloques, como abajo, “¿Por qué si “Universidad Mayor de San Simón” -Cochabamba- se repite 89 veces, aparecen “Cochabamba” 74 veces mencionada en la columna Ciudad/Región?
Puedes complementar tu análisis con datos de apoyo que te ayuden a entender mejor el contexto de la información, como los del Censo de Población y Vivienda; o repetir el ejercicio usando otros .csv por ejemplo si quieres revisar presupuestos públicos para identificar el ítem que genera más gasto y a su vez comparar estos datos con presupuestos de la misma institución pero de otras ciudades.
Same Diff, la última de esta suite, compara dos documentos de texto y encuentra similaridades y diferencias en las palabras basadas en un algoritmo de similitud coseno que indica cuán parecidos son dos documentos.
No considera las sílabas con acentos ni apóstrofes, por lo que algunas de las palabras analizadas se ven cortadas; decidí probar la herramienta comparando las leyes de Identidad de Género de Bolivia y de Argentina, este fue el resultado:
La columna de la izquierda muestra palabras únicas de la Ley de Identidad de Género de Argentina (pila, articulo, registral, documento, integral), en tanto que la columna de la derecha muestra el resultado para la ley boliviana (dato, propio, sereci, estado, transexuales); los resultados de la columna central, por otra parte indican las palabras encontradas en ambos documentos: identidad, nombre, sexo, género, ley, cambio.
La herramienta es interesante para encontrar temas comunes en el caso de documentos diferentes, o los elementos diferenciadores en documentos muy similares, como en el ejemplo de arriba en que la legislación de Bolivia se enfoca en instituciones (SERECI) y el estado.
Un plus general de DataBasic IO es que las herramientas se probaron en aulas y talleres para asegurar de que funcionen correctamente y que sean fácilmente comprensibles; también desarrollaron guías de actividades para cada herramienta, pensadas para replicar con estudiantes, periodistas, etc., y que combinan datos ligeros, como letras de canciones o avistamientos de OVNIS, para facilitar el abordaje de la búsqueda de historias de datos de manera más entretenida y simple.