Puedes usar minería de texto y “Machine Learning” sin programación

Daniel Villatoro - el enero 10, 2017 en Tutoriales

Esta API te permite obtener datos procesables y clasificables a partir de textos. Puedes entrenarla para que aprenda automáticamente (machine learning) a reconocer y clasificar en las categorías que tú establezcas.

A partir de un set de datos (que puede ser .csv, o .xls) puedes entrenar esta API para que trabaje para ti. En la interfaz web de MonkeyLearn puedes ir probando y entrenando para aplicar un modelo.  Debido a que es una API, esta plataforma es integrable con otros lenguajes de programación que te permitirán procesar los textos de tu fuente de datos a tiempo real y publicarlos.

Una de las ventajas de esta plataforma es que no tienes que ser programador o un experto en Machine Learning para empezar a usarla. La interfaz de usuario te irá dando pasos que deberás seguir para crear un modelo y cuando entiendas la manera en que funciona, podrás ir avanzando en su uso.

Esta herramienta aprende a base de clasificadores de texto, una categoría o etiqueta que se asigna automáticamente a una pieza de texto. Aunque el programa ya cuenta con unos clasificadores comunes, puedes crear los propios.

Con base en estas etiquetas, MonkeyLearn hará una clasificación al leer el contenido de tu set de datos. Por ejemplo, en una base de datos sobre proyectos de compras de una institución pública, esta herramienta te podría ayudar a reconocer los rubros de los fondos, o a clasificar qué tipo de productos se compraron y clasificarlos en base a una jerarquía establecida.

Al leer el texto, MonkeyLearn aplica los parámetros establecidos en los clasificadores de texto y te provee un resultado. El resultado se muestra en lenguaje JSON, para la API. La categorización del producto puede ser en varias categorías, por ejemplo Compras / Materiales de construcción / Asfalto. Aparte de esta clasificación, el programa también te provee un valor de probabilidad, el cual determina el nivel de certidumbre sobre la predicción realizada para que puedas mantener control sobre el rigor con el que tu modelo se aplica y la manera en que funciona.

Los módulos

Esta herramienta te permite tres funciones principales que indican el tipo de módulo que creas:

  1. Clasificación: Es un módulo que toma el texto y lo devuelve con etiquetas o categorías organizadas en algún tipo de jerarquía
  2. Extracción: Es el módulo que extrae ciertos datos dentro de un texto, que pueden ser entidades, nombres, direcciones, palabras clave, etc.
  3. Pipeline: Es el módulo que combina otros módulos, tanto de clasificación como de extracción, para que puedas construir un modelo más robusto con mayor nivel de procesamiento.

Las tres funciones principales de esta plataforma son:

    1. Análisis de sentimientos: Te permite detectar sentimientos (positivos, negativos, etc) en un texto a través de machine learning.
    2. Categorización de temas: Identifica el tema de un texto y lo reconoce.
  • Otras clasificaciones: Clasifica los contenidos de un texto y los asigna a una jerarquía.

Tutorial: Cómo crear un clasificador de textos a partir de una descripción

Para probar esta herramienta, vamos a crear un clasificador que lea un texto y lo asigne a una categoría y jerarquía establecida por nosotros. En este caso, trabajaré con los datos de las compras del estado de Guatemala. Aunque mi set de datos contiene mucha información, voy a trabajar solo con el campo “Descripción” que tiene contenidos como este: INTRODUCCION DE ENERGIA ELECTRICA, CASERIO PENIEL, TUCURU, A. V.

Para utilizar MonkeyLearn debes crear un usuario o vincularlo a tu cuenta de Github.
Al hacer click en +Create Module se te desplegarán las opciones para guardar tu primer clasificador.

image09

MonkeyLearn te va guiando paso a paso para que completes la información necesaria para crear un módulo. Al rellenar los datos de tu clasificador, da click en Next.image04

Responde a las preguntas que te hace sobre el tipo de trabajo que estás haciendo. En este caso, seleccionamos “otras clasificaciones”.

image11

Selecciona la opción que más se ajuste al tipo de texto que vas a analizar, pueden ser tweets (textos cortos con emoticones), noticias de diferentes medios, comentarios o reseñas de usuarios, descripciones de productos, emails, o texto personalizado. Debido a que estamos trabajando las compras del estado, vamos a seleccionar Product Descriptions. También es importante que señales el idioma en que está tu texto.

image01

Al crear tu módulo, se abrirá un panel con diferentes opciones. En Category Tree se enlistan las diferentes categorías de tu modelo. Para crear nuevas categorías, haz click en el menú a la par de Root y selecciona Add child. Al hacer esto, creas nuevas categorías “hijas”. En este caso crearemos “Agua potable” “Caminos y carreteras” “Energía eléctrica” “Agricultura” y cuantas secciones queramos tener. MonkeyLearn también permite añadir subcategorías dentro de las categorías.

image05

Para que nuestro modelo funcione, debemos entrenar cada categoría con ejemplos que le permitirán al programa reconocer automáticamente textos similares a los ejemplos que le dimos. Al hacer click en el menú desplegable a la par de cada categoría se muestra la opción Create sample, que te permite ingresar ejemplos.

image06

Para entrenar la categoría “Caminos y carreteras” vamos a añadir cuantos ejemplos podamos de descripciones que se ajusten a esta sección. Por ejemplo, “MEJORAMIENTO CALLE PAVIMENTADO Y ENCUNETADO…”. El agregar muchos ejemplos robustece la capacidad de que nuestro modelo identifique con mayor celeridad las categorías.

El panel principal de MonkeyLearn muestra las categorías en la sección Tree. Al hacer click en Samples, podemos ver los ejemplos que añadimos para cada categoría.

image00

 

Luego de añadir varios ejemplos a todas nuestras categorías, dejamos que las capacidades de machine learning se ajusten al hacer click en Train

image08

Con nuestro modelo ya entrenado, nos vamos a la secció Classify para aplicar este modelo a un set de datos. La fuente de datos puede ser un texto corrido o un archivo csv o xls.

image08

Seleccionamos nuestro archivo y nos presenta una muestra de nuestro set de datos y nos  pregunta qué columna es la que vamos a analizar.  Para seleccionar nuestra columna debemos marcar la opción Use as text que se muestra en la primera fila.  Y para aplicar el modelo pulsamos Next.

image03

image07

MonkeyLearn aplicará el modelo de clasificación que creamos y devolverá un archivo descargable.

En nuestro ejemplo, utilizamos un set de datos de las adjudicaciones del estado a proveedores. Nuestra base de datos contaba con categorías útiles como la entidad compradora, modalidad, fecha de adjudicación, proveedor y descripción. Sin embargo, las descripciones son texto escrito no categorizado, por lo que buscábamos categorizar esas compras por el tipo de materiales que se compraban.

En el archivo que MonkeyLearn produce se agregan varios elementos. “Classification path” te muestra la categorización que realizó y, si tiene jerarquía, te muestra los diferentes niveles separados por / una barra diagonal. Te muestra también “Level 1 label”, la clasificación que realizó, y “Level 1 probability”, un índice de probabilidad sobre la similitud entre el texto que encontró y los ejemplos que le mostraste.

image10

 

A medida que entrenes más cada categoría, tus resultados serán más certeros. Debido a la cantidad de registros de una base de datos, la clasificación manual sería un proceso muy tardado. Así que cuando tengas estos problemas puedes aplicar el machine learning para clasificar o tematizar bases de datos con texto.

Yo estoy aprendiendo a utilizar esta herramienta, pero si tienes dudas o ejemplos sobre cómo aplicar estas habilidades a un trabajo con datos, tuiteanos a @EscuelaDeDatos y @danyvillatoro. Nos gustaría saber de qué manera has podido aplicar esta herramienta a tu trabajo.

 

magazine.image = http://es.scoda.okfn.org/files/2017/01/image07.png

 

Cómo hacer visualizaciones de datos con Tableau

Omar Luna - el diciembre 29, 2016 en Expediciones de Datos, Tutoriales, Uncategorized

Mi incursión en Tableau surgió como una oportunidad. Hace dos años, trabajaba en una Organización No Gubernamental (ONG) en El Salvador especializada en el tema de mujeres. Mi exjefe estaba por comprar un software especializado en visualizar datos. Se me acercó y me preguntó: “¿Le interesaría aprenderlo?” Dudé. No mucho, pero dudé. Y, pese a las dificultades iniciales, acepté el reto y heme aquí intentando que la gente lo ame tanto como yo lo hago.

De ahí, cada que puedo recomiendo Tableau, una herramienta creada por tres entusiastas de los datos en la Universidad de Stanford, como un excelente aliado en visualización cuando carecemos de equipos multidisciplinarios (conformado por visualizadores, infografistas, diseñadores, entre otros), pues se sustenta en el concepto one man band para contar cierto tipo de temáticas con gráficos. ¡Ojo! Tiene una versión pagada, pero si trabajas en una universidad o lo utilizas para fines académicos puedes solicitar una copia GRATUITA para dos años y válida para ser instalada en dos computadoras acá: http://www.tableau.com/academic/students.

Por eso, hoy quiero compartir contigo cómo puedes hacer visualizaciones de mapas y gráficas que, en su momento, impactaron al funcionario salvadoreño con un set de datos que trabajé durante mi paso por dicho proyecto, enfocado en la problemática de mujeres salvadoreñas deportadas de México y Estados Unidos, un fenómeno que casi no había sido analizado ni comprendido del todo en mi país. Sin más, zambullámonos en el vasto y fascinante mundo de Tableau, ¿sí?

¡Bellísimo así!

Es lo primero que dirás al abrir la nueva versión de Tableau, pues su edición 10 ha apostado por una interfaz más intuitiva para quien se anime a explorar el noble arte de la visualización. Te lo digo yo porque vengo de donde asustan, ya que me tocó aprender a utilizarlo en su versión 7. Como puedes ver en el menú de la izquierda, puedes conectar tus bases desde un archivo (ya sea .xls, .csv, .tsv, entre otros) hasta aquellas que tengas trabajadas en un servidor (MySQL, Oracle Server, etcétera).

image00

 

 

¡Comencemos! Conectaremos mi archivo con la opción Conectar a un archivo > Excel. Buscaremos la base trabajada en mi computadora y Tableau se tomara unos momentos para procesarla. ¡Voilá! Tendremos una previsualización para que podamos revisar la data antes de trabajar con ella. Esta deberías verla de la siguiente forma:

image12

El trabajo de carpintería con una base de datos se vuelve fundamental, pues dicho set se encuentra preparado para ser leído por un programa de computadora como Tableau con el objetivo de que puedan realizarse todas las conexiones y relaciones necesarias para analizar datos que nos hagan ver más allá de lo evidente (Thunder, Thunder,Thundercats, ¡oooooooooooh!).

A ojo de buen cubero, puedes ver que Tableau automáticamente establecer una diferenciación entre aquellos valores que son textos y números; no puede establecer que los años, las latitudes y longitudes son variables que pueden trabajarse de forma diferenciada en el caso de una visualización.

Para cambiarlas, haz clic sobre el ícono Numeral (#) que aparece arriba de dichas categorías > Rol geográfico > Latitud/Longitud. Finalizado este paso, verás que ha cambiado el ícono Numeral (#) por un globo terráqueo. ¡Eso significa que funcionó! ¡Yey! De igual forma, sigue los mismos pasos para la variable Ano y cambíalo por una Cadena que nos servirá para analizar los años de forma continua.

image02

 

 

 

 

¡A trabajar! Demos clic en el recuadro naranja denominado Hoja 1 y sigamos el camino datero hacia nuestro canvas en blanco. Qué belleza, ¿no? Tableau establece una clara diferenciación entre cada aspecto clave de visualización (filtros, marcas, gráficos, hojas, dashboards, entre otros) y, además, simplifica el trabajo mediante el arrastre de variables hacia determinados campos o con solo darle doble clic a las medidas y dimensiones podemos verlas desplegadas en nuestro canvas.

image23

 

Comencemos con un mapa. Para desplegarlo, haz doble clic en Longitud y Latitud; te aparecerá un punto geográfico que localizará a El Salvador en un mapa de OpenStreet. Como necesitamos visibilizar a los 262 municipios del país para visibilizar la temática de las mujeres repatriadas, arrastremos las Medidas Departamento y Municipio hacia la opción Detalle del Menú Marcas. ¡Listo!

image21

¿Ves? Ya podemos ver cómo cambia nuestra forma de visualizar mapas. Gracias a Tableau, podemos estilizar colores y tamaños de los puntos con cantidades o tasas; arrastremos Municipio y Tasa por cada 100,000 habitantes a las opciones Color y Tamaño del menú Marca respectivamente. Así, podemos mostrar la gravedad, repitencia de un fenómeno u otra problemática nacional.

image16

 

 

Pero, ¿qué pasa si no deseas los colores y tamaños preestablecidos de Tableau? Tableau te ofrece la maravillosa ventaja de arreglarlos a tu gusto en las opciones del menú Marca. Acá, yo cambié un poco el tamaño y utilicé la paleta de color púrpura de la herramienta. Para modificarlo, hice lo siguiente: di clic a la opción Color del Menú Marca > Editar Colores > Seleccionar paleta de colores > Púrpura > Asignar Paleta > Aceptar. ¡Y me quedó así!

ya

 

¡Momento! ¡Falta algo! Exacto: limpiar la descripción emergente. Aún contempla la Latitud y Longitud, así como otras variables útiles para describir el fenómeno en cada localidad. Dado que nos interesa que la gente se familiarice y lo entienda de un vistazo, arrastremos las siguientes Medidas a la opción Descripción emergente (Tooltip) del Menú Marcas: Forma de repatriacion y Cantidad.

Por las demás variables, ¡tranquilo! Ya se encuentran contempladas en dicho apartado. Para limpiar la suciedad persistente en el Tooltip puedes editar y condensar la información a lo más importante. ¡Ojo! No abuses de la paleta de colores, pues tu historia puede difuminarse ante una paleta de colores infinita e innecesaria. Finalizada tu edición, dale clic a Aceptar. ¡Primera hoja lista!

Do the evolution!
Como la rola de Pearl Jam, esta herramienta te ayuda a ver cómo evoluciona un fenómeno con gráficas de líneas o áreas. Para ver este caso, hagamos lo siguiente. Agreguemos una nueva hoja a nuestro libro de trabajo, haciendo clic en el botón inferior derecho, ubicado cerca de la hoja Mapa. En ella, arrastraremos la dimension de los años y la medida Cantidad a los apartados de columnas y filas respectivamente. ¿Ves cómo se despliega ahora?

image13

 

 

 

 

 

 

 

 

Maticemos el grado de intensidad de la gráfica arrastrando la medida Cantidad en la opción Color del menú Marcas y editemos el color a púrpura. Así, daremos aire de familia a nuestra visualización. Ahora bien, para vislumbrar las cantidades, arrastremos la medida Cantidad al campo Etiqueta del menú Marca y así podrás ver cómo se presentó el fenómeno en general durante tres años.

 

 

 

 

 

 

 

 

 

 

 

Si eres curioso como yo, notarás que al pasar el cursor sobre los puntos, verás que la Descripción emergente no tiene lo que necesitamos. Por eso, arrastraremos las siguientes variables a Descripción emergente: Departamento y Forma de repatriacion. Nuevamente, condensemos y editemos para resaltar lo importante. Así, tendremos un before and after espectacultar. Maravilloso, ¿verdad?

image07

 

 

 

 

 

 

 

 

 

 

 

Entre el mapa y el gráfico, ¿notaste elementos comunes que pueden servir para filtros? Yo también. Sazonemos nuestras hojas con ellos para que sean aplicables en un dashboard. Arrastremos las dimensiones Departamento y Forma de repatriación al campo Filtros, ubicado arriba del menú Marca. Seleccionemos todas sus variables y apliquémoslas a ambas hojas. Para el caso de los años, solo se lo aplicaremos al mapa, dado que ya contamos con un gráfico que muestra la evolución en el tiempo.

image10

 

 

 

 

 

 

 

 

 

 

 

image06

 

 

 

 

 

 

 

 

 

 

 

image04

 

 

 

 

 

 

 

 

 

 

 

¿Y si hacemos un muñeco?

¡Llegó el momento! Creemos un dashboard. Este es un elemento que contendrá nuestras hojas y otros elementos de interés para nuestra visualización. Accedamos a él con el botón Nuevo dashboard, ubicado cerca del botón Nueva hoja. ¡Voilá! Un canvas con la posibilidad de visibilizar el fenómeno de mujeres repatriadas a El Salvador. Arrastremos nuestras dos hojas para que nos queden así:

image11

 

 

 

 

 

 

 

 

 

 

 

Ordenemos la casa. Coloquemos la cantidad de tasas como valor flotante. Para hacerlo, haremos clic derecho sobre la flecha desplegable hacia abajo del contenedor de tasas y seleccionaremos la opción Flotante. Deshágamonos de las leyendas de colores de los municipios haciendo clic en la X que aparece en su contenedor. Finalizado esto, convoquemos los filtros a escena. Haremos clic sobre la flecha negra desplegable en el contenedor de la hoja Mapa y seleccionaremos la opción Filtro > Ano, Forma de repatriación y Departamento. Estos aparecerán de la siguiente forma:

image18

 

 

 

 

 

 

 

 

 

 

 

¡Yo sé! Aún no se ve lindo nuestro dashboard. Coloquemos dos filas imaginarias arriba de nuestro mapa. ¿Cómo? Utilicemos la opción Objetos > En blanco para colocarlas en el dashboard. Al principio, nos saldrán fuera de lugar, pero podemos arrastrarlas para acomodarlas en lo más alto de nuestra visualización. Una vez posicionadas, necesitamos redactar un titular y un indicador que guié a nuestro usuario a darse un vueltín por nuestra visualización.

Hagámoslo realidad haciendo clic en la opción Texto del Menú Objetos. Posteriormente, posicionemos el titular en la primera fila y el indicador en la siguiente. Terminado esto, elimina la fila del titular y despliega el titular en toda la fila; con el indicador ocurre lo contrario, dado que deberás arrastrar los filtros posterior a él. Acómodalos y obtendrás como resultado lo siguiente:

image01

 

 

 

 

 

 

 

 

Prescindamos del titular del Mapa. Haremos clic sobre la flecha desplegable del contenedor Mapa y le quitaremos el cheque a la opción Título. ¡Se fue, se fue! Ahora, pulamos el títular de nuestra gráfica. ¿Cómo? Hagamos clic sobre su titular y redactemos: Cantidad de mujeres repatriadas en. Finalizado eso, haremos clic en Insertar y coloquemos las siguientes variables en nuestro titular: ATTR(Departamento) – ATTR(Forma de repatriacion). Así, le daremos interactividad una vez el usuario se valga de los filtros para analizar la información. image14

 

 

 

 

 

 

 

 

 

 

 

 

image08

 

 

 

 

 

 

 

 

 

 

 

Ah, ¡lo olvidaba! También, puedes formatear el título para darle el mismo realce que al titular de nuestro dashboard. ¡Ojo! Siempre, siempre, siempre cita la fuente de dónde obtuviste la información, dado que eso te será de mucha utilidad para respaldar de dónde fue extraída y qué otras consideraciones tomaste en cuenta al momento de analizar la data, como el caso de las tasas.

 

¿Con quién se queda el Tableau?

Supongamos que ya tenemos nuestra visualización como la queremos. Acá, solo nos queda publicarlo en línea. Para eso, Tableau nos pide que elaboremos un extracto de nuestra información como respaldo. ¡Manos a la obra! Iremos a la barra de Menús > Datos > Extraer Datos. Acá, aparecerá un menú donde podremos añadir todas las variables clave que se extraerán de tu data.

image25

 

 

 

 

 

 

 

 

 

 

 

 

Haremos clic a la opción Añadir y seleccionaremos Año. A continuación, aparecerá una ventana emergente donde estarán todos los años. Escogélos todos y daremos clic en el botón Aceptar. Seguiremos el mismo procedimiento para el resto de variables; finalizado este procedimiento, crearemos el extracto dando clic en el botón Extracto.

image19

 

 

 

 

 

 

 

 

 

 

 

image03

 

 

 

 

 

 

 

 

 

 

 

image19

 

 

 

 

 

 

 

 

 

 

 

¡Ya casi, ya casi! Ahora vamos a la opción Servidor de la barra de menú. Escogeremos Tableau Public > Guardar en Tableau Public como… En cuanto hagamos eso, nos aparecerá una ventana donde ingresaremos nuestro correo electrónico y nuestra clave para acceder a nuestra cuenta. Si no cuentas con una, ¡tranquilo! Esta herramienta te permite crearla durante este proceso.

image17

 

 

 

 

 

 

 

 

 

 

 

 

image15

 

 

 

 

 

 

 

 

 

 

 

 

image05

 

 

 

 

 

 

 

 

 

 

 

Tan pronto como ingresemos nuestros datos, nos pedirá que redactemos el nombre de nuestra visualización. En este caso, le puse Mujeres repatriadas en El Salvador. Damos clic al botón Guardar. La herramienta procesará… ¡Voilá! ¡Nuestro Tableau aparecerá desplegado en nuestro perfil público de Tableau, donde podemos editarle detalles, como una breve descripción, qué tipo de formatos autorizamos a la herramienta para que la gente pueda descargar, entre otras utilidades.

image20

 

 

 

 

 

 

 

 

 

 

 

¿Tableau o no Tableau? ¡Esa es la cuestión!

Mi recomendación es que apuestes por Tableau. Y, si tu medio de comunicación u organización puede adquirirlo, mucho que mejor, pues una clara diferencia entre la versión gratuita y la versión pagada es que tienes mejor cobertura de seguridad, acceso al servidor pagado (con mejor seguridad que el público) y mayor lectura de líneas de registro y formato de apertura de ciertos archivos.

Sumado a eso, concuerdo con Ojo Público (2016) al garantizarte que la creación de filtros permite que los usuarios consulten y obtengan resultados personalizados en datos. Y, sobre todo, el hecho de que no se necesita saber programación para usarla, pues, al descubrir que algunas de sus funcionalidades provienen de herramientas como Excel, la cosa pinta mucho que mejor.

¡Eso sí! “Sobre advertencia, no hay engaño”. Actualmente, la mayoría de información sobre esta herramienta se encuentra en inglés, su foro de atención al usuario se tarda un poco (¡o un siglo!) en responder y algunos gráficos, como el mapa de relleno, dejan mucho que desear cuando son regiones o naciones foráneas a Estados Unidos…

Aun así, es una herramienta que promete mucho en su nueva actualización, a la que vale la pena acercarse por facilitarte un poco más las cosas a la hora de visibilizarse historias con datos, así como el grado de interactividad que le brinda al usuario y, si ya con esto no logro convencerte, te reto a que la pruebes y nos compartas qué te parece y que no debajo de esta publicación o en nuestro Twitter (@EscueladeDatos). Cheers!

Cómo empezar a armar tu base de datos sobre feminicidio

Raisa Valda Ampuero - el diciembre 8, 2016 en Experiencias, Tutoriales

El Observatorio de Igualdad de Género de América Latina y El Caribe dispone de datos de feminicidio de fuentes oficiales de 18 países latinoamericanos. Bolivia no es uno de ellos, pues aunque la ley 348 para Garantizar a las Mujeres una Vida Libre de Violencia fue promulgada en 2013, los datos que se publican se remiten a información general por parte de la Policía, y en el mejor de los casos, valiosas investigaciones de ONGs cuya base de datos no es abierta y se publican datos condensados a travé de informes.

Ante la urgencia de la creciente oleada de crímenes, algunas organizaciones de sociedad civil como “Cuántas Más” en Bolivia, ven como urgente la necesidad de armar una base de datos recopilando los hechos que además se encuentre abierta al público para que puedan ser consultados por investigadores, periodistas, o cualquier persona que tenga interés de hacer algo más con datos registrados y sistematizados; si en tu país no dispones de fuentes oficiales, aquí te damos algunos criterios que debes considerar para armar la base de datos.

image00

 

 

 

 

  1. Diferencia entre datos primarios y datos secundarios. Datos primarios son aquellos que se obtienen a través de una recopilación de datos propia, como la observación de procesos, una encuesta o una entrevista. Los datos secundarios por otra parte son datos que otros ya han recopilado y han puesto a disposición pública. Si estás planeando hacer una recopilación de casos, lo más probable es que recurras a este segundo grupo, con base en estudios, estadísticas de otras organizaciones, o publicaciones de prensa.
  2. Cuando recopiles datos propios considera que estos pueden ser cuantitativos o cualitativos. Los datos cuantitativos se caracterizan por su enfoque estandarizado y tienen como objetivo verificar, confirmando o refutando, diversas relaciones e hipótesis basadas en números. Los datos cualitativos ofrecen un enfoque abierto y sirven para recoger información que no se pueda representar mediante cifras pero puede dar una mejor comprensión de una cuestión.
  3. Algunas veces, los datos pueden estar publicados en sitios web pero no existe un link de descarga. En ese caso, te sugiero utilizar una herramienta para la extracción de datos fácil de usar que tiene como objetivo obtener datos de forma estructurada de cualquier sitio web; se trata de import.io y puedes consultar este tutorial para aprender a usarlo.
  4. Es importante conocer las otras organizaciones que trabajan en la recepción de denuncias de violencia de género o que proveen servicios legales; estas organizaciones también pueden proveer datos fuente de órganos descentralizados, por ejemplo, de carácter municipal, servicios de atención a la salud, el sistema de justicia penal y prestadores de servicios sociales, por nombrar algunos.
  5. Si vas a obtener tus datos desde información publicada en prensa, trata de cotejar adicionalmente con uno o dos medios; de esta forma garantizas la verificación de los datos publicados y el aumento de aquella información que algún medio no pudo obtener.
  6. Saca provecho de Google Alerts, un servicio de Google que te permite recibir alertas a tu email cuando el buscador indexa nueva información relacionada con las palabras clave de búsqueda. Con esta herramienta puedes automatizar el proceso de búsqueda o actualizar los resultados de una búsqueda de tu interés a lo largo del tiempo, hasta que decidas eliminar la alerta; programa por ejemplo las palabras feminicidio o mujer asesinada.
  7. Identifica todos los criterios relevantes para tu primer análisis: nombres, edades, y locaciones suelen ser datos que comúnmente identificamos; sin embargo, la riqueza para análisis de tu base de datos puede estar en los datos que no siempre consideramos como el número de hijos sobrevivientes al hecho, la relación de la víctima con el victimario, el estado del caso y si es que ha obtenido sentencia, el tipo de agresión que se produjo, si es que hubo una denuncia de violencia previa. La granularidad es importante.
  8. Documenta el proceso, es importante explicar los pasos que seguiste para que las personas interesadas en la base de datos tengan los argumentos completos de tu trabajo. Aquí puedes encontrar algunas opciones para realizar este paso.
  9. Finalmente escoge la mejor manera de mostrarlos, dependiendo del volumen y el contenido de tu base de datos puedes optar de mostrarlos, por ejemplo, en una línea de tiempo o un mapa. Solo recuerda publicarlos con el enlace de descarga.

Adicionalmente, si te interesa indagar más profundo, CEPAL lanza un curso cada año de introducción sobre estadística e indicadores de género que a la fecha va en su sexta versión. Debes estar atento al lanzamiento de la próxima convocatoria.

Datos al Tablero: análisis de desigualdad en Colombia.

invitado - el noviembre 28, 2016 en Experiencias, Fuentes de datos

 

Daniel Suárez Pérez, coordinador del proyecto colombiano Datos Al Tablero, comparte cómo éste se inició, cómo se desarrolló, y los retos que aún tiene por delante.

Datos al Tablero se realizó vía School of Data, a través del Data Member Support, en alianza con el movimiento Todos por la Educación. Es una análisis de la desigualdad educativa en Colombia, a través de la recolección y análisis de datos sobre deserción y repitencia entre 2012 y 2015.

Combinando bases de datos con Tableau Public de manera automática

Daniel Villatoro - el octubre 24, 2016 en Tutoriales

En ocasiones, tenemos dos o más bases de datos que queremos combinar por un factor común. El uso de datos es más efectivo cuando puedes combinar varias bases de datos y ver cómo se relacionan entre ellas. Tableau Public es un programa que nos permite hacer esto de manera sencilla. En este tutorial veremos cómo hacerlo.

Al combinar datos de manera automática te ahorras el tedioso trabajo de tener que emparejar de manera manual dos o varios set de datos.

Al combinar datos de manera automática te ahorras el tedioso trabajo de tener que emparejar de manera manual dos o varios set de datos.

 

  • Instala el programa

 

Este programa gratuito te permite importar tus datos para crear visualizaciones interactivas. Todo tu trabajo se guarda en tu usuario y se puede compartir a través de códigos embed o iframes. Otra ventaja es que el programa está disponible para los sistemas operativos Windows y Mac. Para descargar la aplicación, entra en este link y sigue las instrucciones que el instalador te señala.

2) Asegúrate de que tus datos compartan un denominador común

Cuando quieres unir bases de datos debes asegurarte de que ambas compartan algún campo que vincule los dos sets de datos. Por ejemplo, si tienes dos set de datos sobre los países de Latinoamérica, tu denominador común puede ser el nombre del país. O si tienes datos sobre denuncias y delitos de los partidos políticos, el denominador común puede ser el nombre o las siglas del partido.

3) Repasa la teoría de los conjuntos

Tableau Public te permite realizar dos tipos de combinaciones.

La primera, es una unión interior.

image00

 

 

 

 

En este tipo de unión, sólo se copiaran los datos en los que el denominador común de ambas fuentes de datos coincida. Por ejemplo, si tenemos un set de datos sobre alfabetización en  todos los países del mundo y lo combinamos con datos sobre el acceso a la educación primaria en los países de Latinoamérica, nuestra base de datos combinada solo mostrará los datos de los países de Latinoamérica.

La segunda, es una unión izquierda.

image01

 

 

 

 

En este tipo de unión, se copiarán todos los datos de tu primera fuente de datos y sólo se agregarán los datos de la segunda fuente cuando estos coincidan en denominador común. Las filas que no tengan coincidencias se mostrarán como valores nulos. Siguiendo nuestro ejemplo, nuestra base de datos combinada mostraría los datos de alfabetización de todos los países del mundo, pero aquellos que no forman parte de Latinoamérica no contarían con datos sobre el acceso a educación primaria.

4) Abre el programa y conecta tu primera fuente de datos

Al iniciar, el programa te invita a conectar a un archivo de base de datos, que puede ser en formatos Excel (xls, xlsx), Archivos de texto (csv) o Access. Selecciona tu primer set de datos. En nuestro ejemplo, sería el archivo con el porcentaje de alfabetización de todos los países del mundo.

image03

 

 

 

 

5) Añade tu segunda fuente de datos

Haz click en la palabra añadir y agrega una segunda base de datos. En nuestro ejemplo, es el archivo con el porcentaje de acceso a la educación primaria en los países latinoamericanos.

image05

 

 

 

 

6) Arrastra ambos sets de datos y conéctalos

Al arrastrar las diferentes hojas de cálculo a la pantalla de Tableau Public, el programa te mostrará la relación que estás creando entre ambas bases de datos y te dará una muestra de cómo luce tu conexión de datos.

image06

 

 

 

 

7) Edita la conexión

Haz click en los dos círculos unidos que se muestran entre tus fuentes de datos para abrir una ventana de edición de tu unión. En esta pestaña debes de decidir si quieres una combinación interior o una combinación izquierda. También debes de indicar cuál es la categoría en tus fuentes de datos que coincide o es igual en ambas. En este caso, seleccionamos el campo Country (País) para que combine los datos de cada país de manera automática.

image04

 

 

 

 

Siguiendo el ejemplo, si decides hacer una conexión interior, la combinación de estas dos bases de datos sólo te mostraria 42 filas con los datos de alfabetización y acceso a educación primaria de los 42 países de Latinoamérica y el Caribe.

En cambio, si eliges una conexión izquierda, el set de datos resultante te mostraría 254 filas con los nombres de todos los países del mundo y sus datos sobre alfabetización, pero los datos sobre acceso a educación primaria solo estarían en los países latinoamericanos. El resto de países tendría un valor nulo en esta categoría.

Durante todo el proceso, Tableau Public te muestra una previsualización de cómo se ve tu set de datos combinado debajo de la sección en la que editas las uniones.

8) Copiar y guardar.

Selecciona todas las filas y columnas de tu base de datos combinada haciendo click en la esquina superior izquierda de la previsualización que te muestra el programa. Copia el contenido con la combinación Ctrl+C o ⌘+C,  pégalo en el editor de hojas de cálculo de tu preferencia y guárdalo.

Así, de manera sencilla, puedes combinar bases de datos con muchos campos y sin tener que prestar atención y copiar manualmente las coincidencias. Esta práctica es de mucha utilidad cuando quieres combinar diferentes estadísticas sobre varios lugares, o cuando quieres combinar una base de datos con datos georeferenciales con una que contenga estadísticas.

La combinación izquierda te puede servir para identificar valores que coincidan entre dos bases de datos. Esto es de mucha utilidad cuando estás creando hipótesis para investigaciones o quieres comprobar relaciones entre listados de personas o entidades.

Usando Carto: ¿Cómo unir mi base de datos con un mapa de polígonos?

Ximena Villagrán - el septiembre 21, 2016 en Tutoriales

La aplicación para hacer mapas Carto (antes CartoDB) es una herramienta útil para visualizar información geográfica pero tiene una desventaja, no cuenta con la información cartográfica de países pequeños o “poco importantes” a nivel mundial.

Es por eso que los que hacemos mapas en países latinoamericanos tenemos una misión un poco más complicada, debemos conseguir la información cartográfica y unirla con nuestras bases de datos.

A continuación describiremos el proceso para unir el archivo con la información cartográfica y una base de datos en Excel.

El archivo con los polígonos de los municipios de Guatemala en formato Shape (.shp) lo obtuve de la página web de la Secretaría de Planificación de la Presidencia, si necesitas un mapa de tu país puedes descargarlo en este enlace.

Sube el archivo .zip que contiene el archivo .shp a Carto para empezar a usarlo.

image10

 

 

 

 

Como podrás ver en la columna quinta columna “código” están los códigos asignados por el gobierno de Guatemala a cada municipio.
Estos son códigos estandarizados que debe tener el Instituto Nacional de Estadística de tu país. Estos son los códigos estandarizados de los 340 municipios de Guatemala.

image01

En el caso de Guatemala utilizamos los códigos porque normalmente ninguna base de datos de información gubernamental tiene los mismos nombres para todos los municipios, como en el caso del archivo .shp y la base de datos.
Ahora debes abrir la base de datos que quieres visualizar en el mapa. En mi caso usaré una que tiene información sobre las escuelas preprimaria del país.

 

 

image09

 

 

 

 

Para agregar los códigos estandarizados a la base de datos agregaremos una columna y usaremos la fórmula BUSCARV para localizar los códigos en el archivo anterior.

image11

 

 

 

 

Ya con los códigos en todos los municipios deberás subir el archivo a Carto.

image05

 

 

 

 

 

 

 

 

Ahora debes dar click en “edit” y a “Merge with dataset”

image02

 

 

 

 

Debes elegir la opción “Column join” para unir los dos archivos

image00

 

 

 

Y seleccionar en la segunda columna el archivo “municipios_gtm” que fue el que subiste del archivo .shp.

image13

 

 

 

 

Debes seleccionar que utilice la geometría del archivo “municipios_gtm” que es el que tiene la información cartográfica.

image08

 

 

 

 

Y ahora viene la magia. Debes hacer click en “Merge Datasets”. Así quedan las dos tablas unidas.

image03

 

 

 

 

Ahora debes hacer click en “Map view”. Todos los polígonos de los municipios estarán marcados.

image04

 

 

 

 

 

 

Luego ya deberás personalizar tu mapa como quieras utilizando los datos de tu base de datos.

Este fue mi resultado:

image12

Data Wrapper: visualización básica para periodismo

Raisa Valda Ampuero - el septiembre 15, 2016 en Experiencias, Fuentes de datos, Guest posts

Este post ha sido modificado debido al cambio de políticas de uso de Datawrapper.de acerca de los servicios gratuitos.

La inclusión de datos en artículos, noticias y reportajes es algo frecuente en los medios; los datos aumentan la credibilidad, contextualizan y resuelven dudas de los lectores; sin embargo, su visualización no siempre es sencilla y en algunos casos se puede caer en el uso de estos gráficos como simples elementos decorativos.

D3.js y otras bibliotecas de javascript son geniales para crear gráficos y visualizaciones interactivas, pero pueden ser complicadas de usar en una sala de redacción porque requieren conocimientos de codificación y por otra parte, no siempre tenemos la opción de contar con un(a) desarrollador(a) o un(a) diseñador(a) en nuestro equipo de trabajo.

Entonces debemos sortear nuestras propias limitaciones y buscar una herramienta que nos permita entender el uso necesario y pertinente de las gráficas y mapas, sin que éstas tengan un alto nivel de complejidad.

Aquí es donde puedes recurrir a Datawrapper, una plataforma de código abierto enfocada especialmente al periodismo para para cargar datos, crear visualizaciones y mejorar los artículos escritos a partir de cuatro pasos sencillos.

Crea una cuenta en la plataforma, y ten listo, limpio y a mano tu set de datos.

 

1r

 

 

 

Subir datos

Una vez que tengas seleccionado tu dataset, empieza por crear un nuevo gráfico; también puedes usar los datasets de prueba de la herramienta que son útiles porque combinan los datos de ejemplo con los tipos óptimos de gráficas de la herramienta.

En mi caso, uso de ejemplo el dataset de Ingresos y Gastos de Universidades Públicas de Bolivia de “Que no te la charlen” para saber qué universidades reportaron mayores ingresos y gastos durante el 2014; la herramienta te permite copiar los datos de tu hoja de cálculo o importarlos como csv.

2r

 

 

 

Revisar & Describir

Acá debes asegurarte que la herramienta interpreta tus datos correctamente: en la tabla de columnas de números se deben mostrar en azul, las fechas en verde y los textos en negro.

También te permite empezar a personalizar tus columnas desde trasponer la tabla de datos, añadir otras columnas a mano e incluso cambiar los formatos de número, como dividir los números por miles, millones o miles de millones.

3r

 

 

 

 

Visualizar

En esta etapa, verás todas las opciones para la visualización: puedes escoger entre 12 tipos de gráficos para ver cómo los datos se ve como en diferentes tablas.

Un punto a favor para la herramienta es que si requieres hacer correcciones en los pasos anteriores para que tus gráficos tengan más sentido, puedes regresar al paso previo; si tienes dudas de qué gráfico escoger, puedes ver esta guía.

Yo seleccioné el tipo de gráfica de barras de división o split bars, y ajusté el tamaño; luego puedes seguir refinando tu gráfico a partir de la personalización de ejes, etiquetas y grupos, la clasificación del orden de tus datos o la apariencia y colores de tu tabla.

Luego anota el título, las descripciones y fuentes de tu gráfica.

4r

 

 

 

 

Publicar & Incrustar

Finalmente, aunque en diciembre de 2014 Datawrapper cambió sus directivas acerca de los productos gratuitos; recientemente hizo una nueva modificación devolviendo la posibilidad a los usuarios de generar un código responsivo o un iFrame para embeber tu gráfico en tu sitio web o blog, y que adicionalmente tenga interactividad.

 

copy-of-5to-post-visualizacion-basica-para-periodismo

 

 

 

 

Puedes ver que elaborar una visualización con esta herramienta es muy sencillo, la herramienta ofrece múltiples opciones de personalización, es una buena manera para aprender el por qué y el para qué de tus visualizaciones sin mayor complicación sobre todo cuando estás empezando, y añade el valor de la interactividad de las visualizaciones para que tus lectores también puedan generar sus propias conclusiones a partir de tu reportaje.

 

¡Data Wrangler: limpia tus bases en un tris!

Omar Luna - el septiembre 13, 2016 en Expediciones de Datos, Experiencias, Fuentes de datos, Uncategorized

Amo el trabajo de datos. Pero hay una cosa que no me gusta: la limpieza. ¿No te ha pasado alguna vez? ¡A mí sí y sigo contando! Por eso, quiero enseñarte cómo utilizar una herramienta para hacer al mal tiempo buena y cara: Wrangler. Esta es una herramienta interactiva GRATUITA, desarrollada por el proyecto de investigación Stanford/Berkeley, que sirve para la limpieza y transformación de datos.

Con ella, te lo prometo, pasarás menos tiempo limpiando y más tiempo analizando tus datos a la hora de elaborar bases de datos. ¿Te animas a probarla? Bueno, pues, lee y te cuento cómo la probé con una tabla de datos, sobre las primeras tres jornadas de CONCACAF 2016-2017, que extraje de Mismarcadores.com.

1

 

 

 

 

¡Menor tiempo, mejor limpieza!
Un profesor en la “U” solía decirme que, lo bueno si breve, dos veces bueno. Y eso es lo que evoca Wrangler al momento de utilizarlo. Para comenzar, ingresa a http://vis.stanford.edu/wrangler/, donde encontrarás un botón al que hasta el más curioso y entusiasta datero dará clic con su provocativo Try It Now (¡Pruébala ahora!).

34

 

 

 

 

Como verás a continuación, la interfaz de Wrangler es sencilla. Un poco primaria para algunos, pero los resultados son prometedores para quienes deseamos limpiar datos rápido y bien. ¿Ves cómo está la tabla? Fea, ¿verdad?5

 

 

 

 

Para mejorarla, lo primero que hice fue seleccionar la primera fila de la tabla y acudí al auxilio de la opción Promote para que la primera fila sea el encabezado de cada una de nuestras columnas. Así, ya tenemos un encabezado con el cual la carpintería datera puede comenzar. ¡Eso sí! Para cambiar cada uno de sus nombres puedes dar doble clic y ¡listo! ¡Ya tienes categorías!

6 7

 

 

 

 

Ahora, rellenemos los espacios en blanco de cada jornada. Para eso, sombreé la columna JORNADA. Y me fui a la opción Fill, con la cual puedes reemplazar las columnas/filas en blanco por insumos de valor. Para este caso, le indiqué que debía rellenar todo espacio debajo de JORNADA que estuviera en blanco.

¿Cómo? Colocando lo siguiente en su barra de opciones:

Column JORNADA

Direction: above

Row: JORNADA is null

Finalizado esto, aparecerá una opción con nuestros comandos en el menú SUGGESTIONS. Dale clic al signo de “más” y verás cómo empieza a tomar forma la cosa.

8

 

 

 

 

Sí, yo también vi esas filas en blanco que no aportan nada en cada JORNADA. Para eliminarlas, selecciona cada una de las columnas e ingresa a la opción DELETE, donde podrás prescindir de cada una de ellas en el menú de la izquierda, dando clic al signo más en el menú SUGGESTIONS.

9

 

 

 

 

Mejor, ¿no? Ahora, tenemos otra piedrita en el camino: ¡Fecha y hora están unidas! Pero, que no panda el cúnico. Para separarlas, me di a la tarea de hacer lo siguiente:

1) Seleccioné la columna FECHA

2) Fui a la opción SPLIT y coloca WHITESPACE en la variable after.

3) Y voilá…

10

 

 

 

 

¡Eso sí! No pases por alto cambiar las columnas SPLIT a FECHA y HORA respectivamente. Ahora, veo que el MARCADOR está igual de sucio. Por tanto, tendremos que separar cada uno de esas ÊÊ que les mantienen unidos. ¡Empecemos entonces! Yo comencé por el marcador del equipo 2 e hice esto:

1) Sombreé la columna MARCADOR

2) Fui a la opción SPLIT y coloca ÊÊ en la variable after.

3) ¡Listo! ¡Ya me lo separó!

11

 

 

 

 

Ahora, viene lo mejor: ¿cómo quitamos esas ÊÊ del marcador del equipo 1? Antes de separar, sombreemos las ÊÊ y sígueme con lo siguiente:

1) Vamos a la opción SPLIT

2) Coloquemos ÊÊ en la opción on

3) ¡Mira qué padre! ¡Nos separó las ÊÊ del marcador!

4) ¡No olvides renombrar la columna separada como MARCADOR EQUIPO 1!

12

 

 

 

 

¡Solo nos queda prescindir de la columna en blanco del anterior SPLIT! Y, para eso, ve a la opción DROP y dale clic a la primera opción que te presenta el menú SUGGESTIONS.

13

 

 

 

 

¿Qué hacemos ahora? Ve a la opción EXPORT que se encuentra debajo de SUGGESTIONS y haz clic. Te saldrá una pantalla con la tabla de datos limpia. Copíala y llévala a tu Text Edit (Mac) o Bloc de Notas (Windows). Pega el archivo y guárdalo como un texto sin formato con extensión .csv.

15

 

 

 

 

Ahora, si la curiosidad te mata como a mí me pasó, abrí el .csv en Excel… ¡Y este fue el resultado!

16

 

 

 

 

¡Justo algo con lo cual podemos trabajar! ¡Gracias por oír mis plegarias dateras, Wrangler!

¿Por qué confiar en Wrangler?

“¿Para qué tanto problema?”, dijo sabiamente Juan Gabriel. Y yo le creo… yo te invito a darle un voto de confianza a Wrangler. ¿Por qué? Porque me ha pasado que se me va el tiempo (¡y la vida!) manipulando datos exclusivamente para que las herramientas de visualización y análisis las leen. Pero, ¡oh, sorpresa! Muchas veces, el resultado no es el esperado porque la limpieza no fue lo que yo deseaba.

Y, en esos deseos de cosas imposibles, Wrangler está diseñadas para acelerar esos procesos; más, si tienes a un editor o a tu jefe exigiendo bases de datos y visualizaciones rápidas y bien ejecutadas. Con este insumo, pasarás menos tiempo lidiando con tus datos y mucho más aprendiendo de ellos al tener las preguntas correctas que te ayuden a sustentar/refutar hipótesis de periodismo de datos.

También, te permite la transformación interactiva de información sucia que puedes encontrar a diario en insumos de análisis para cualquier proyecto en el cual te encuentres trabajando. Y, lo que más me encanta, te ayuda a exportar datos para su utilización en mis dos inseparables amigos: Excel o Tableau. ¡Yeeeeeeeeeeeeeey!
Por los registros, ¡no te preocupes! Una vez exportes la data trabajada, la herramienta volverá a su fase original con las bases precargadas (¡otra razón para amarte, Wrangler!). Ya si esto no te convence, anímate a probarla y compartirnos qué te parece y que no. ¡No te quedes con las ganas y comparte con nosotros tus impresiones acá o en nuestro Twitter (@EscueladeDatos)! ¡Cambio y fuera!

 

 

 

 

Onodo: hacer mapas de relaciones no es complicado

Ximena Villagrán - el agosto 23, 2016 en DAL, Experiencias, Fuentes de datos, Guest posts, Tutoriales

Hace un mes la Fundación Civio lanzó su aplicación gratuita para crear mapas de relaciones y se puede convertir en la solución para muchos, como yo, que nunca pudieron hacer uno porque las herramientas parecían muy complicadas.

Para poder hacer esa afirmación hice una prueba con las relaciones de los personajes de Narcos, la serie de Netflix, que narra la investigación que llevó a la captura del narcotraficante Pablo Escobar.

Este mapa fue realizado en un poco menos de una hora, recolectando toda la información e insertándola en Onodo. Ahora les explicaré porqué es tan fácil de usar:

  • No necesitas ser un experto en Excel, ni siquiera abrirlo. Onodo permite insertar uno a uno los nodos (cada una de las personas, instituciones, etc… que necesitamos poner en el mapa) y también permite personalizar una a una las relaciones de cada nodo dentro de la misma aplicación.

Screen Shot 2016-08-11 at 12.03.17 PM Onodo 1

 

 

 

 

 

 

 

  • Es intuitivo, no es necesario leer el manual para usar sus funciones básicas. Ni siquiera existe un manual, si quieres algo parecido puedes ver su demostración en este enlace.

Ahora te explicaré cómo hice este mapa de relaciones en menos de una hora:

  • Recolecté los datos de los personajes en IMBd y Wikipedia.
  • Inserté los datos de cada personaje como un nodo. Por ejemplo: Pablo Escobar era el líder del Cartel de Medellín. Entonces usé el botón “Añadir nodo” y puse el nombre y la imagen que busqué en Google. Añadí otro nodo para el Cartel de Medellín. Ambos se reflejaron al instante en la visualización.

Onodo 2

 

 

 

  • Los nodos no están completos sin una relación. Entonces cambié a la pestaña de “relaciones” y hice click en el botón “añadir relación” para indicar que el nodo “Pablo Escobar” es el líder  del “Cartel de Medellín”. Esto también se reflejó al instante.

Onodo 3

 

 

 

  • Así se muestra la visualización al hacer click sobre el nodo de “Pablo Escobar”.

Onodo 4

 

 

 

  • Luego agregue la información del resto de personajes principales y secundarios de la serie, de la misma manera que hice con Pablo Escobar.  Todas se fueron mostrando dentro de la visualización.
  • Compartir la visualización dentro de cualquier otro sitio es igual de sencillo. Pulsas en el botón “Comparte” donde harás pública la visualización y después te creará un iframe y un enlace fijo.

Onodo 5

 

 

 

 

 

Si aún no te convence esta sencilla explicación puedes entrar a este enlace para ver otros mapas de relaciones que han realizado otros usuarios.  Y si la explicación te convenció, como usarlo me convenció a mí, puedes entrar a este enlace para crear tu cuenta y empezar a experimentar.

 

Analiza tus datos cualitativos con QDA Miner

Raisa Valda Ampuero - el agosto 16, 2016 en Uncategorized

Hace un par de semanas tuve la oportunidad de conocer a un grupo de entusiastas sociólogos que tienen el proyecto de lanzar un observatorio de medios sobre temas de género. Entre café y café me comentaron que habían empezado a recolectar publicaciones de medios sobre violencia de género y mencionaron QDA Miner como herramienta para su análisis. Está de más decir que esto llamó mi atención y decidí probarla por mi cuenta.

En la descripción del producto indica que “QDA Miner es un paquete de software fácil  en su uso para análisis de datos cualitativos: codificar, anotar, recuperar y analizar pequeñas y grandes colecciones de documentos e imágenes. (…) herramienta de análisis de datos cualitativos puede utilizarse para analizar las transcripciones de entrevistas o grupos focales, documentos legales, artículos de revistas, discursos, incluso libros enteros.”; y además de ello provee una suite de herramientas complementarias de integración como SimStat y WordStat.

Se trata de una herramienta de pago con una versión de prueba de un mes y una versión “lite” gratuita y disponible para descarga a través de un formulario. Sea cual fuera el caso, la instalación es rápida y sencilla y tiene la particularidad de permitirte instalar recursos de lenguaje que podrías utilizar, como ortografía, lematización y tesauro, u ortografía médica y legal.

Puedes seleccionar varios documentos sobre los que quieras trabajar, la herramienta te permite subir documentos tipo .txt, .pdf, .html, .rtf, .doc y otros.

Empezamos con los códigos

Antes de empezar a trabajar con la herramienta es recomendable leer los textos que quieres analizar y empezar a identificar los elementos en común que serán la base para tus futuras codificaciones porque ahí es donde empieza el trabajo con la herramienta.

El sistema de códigos de QDA Miner funciona a partir de un principio de anidación donde escoges un código principal e indicas las variables dentro del mismo; conocer el contenido de tus textos te permitirá empezar a identificar los códigos para empezar a marcar tu documento. Puedes tener tantos códigos como veas necesario.

 

Para facilitar tu trabajo en la asignación de códigos puedes resaltar, oscurecer o darle colores al texto yendo a la pestaña “Documento”, “Texto Codificado” y escoger de las opciones que mejor te convenga.

Claro que no siempre es posible leer todo el texto completo, aunque esto se recomienda. Pero para darte una mano extra la herramienta dispone de una ayuda en la pestaña “Recuperación”. En el caso de ejemplo, quise buscar todas las oraciones que tuvieran la palabra violencia para identificar si todas han sido codificadas correctamente. Entonces, dentro la pestaña “Recuperación” seleccionamos la opción recuperación de texto que justamente nos permitirá recuperar la palabra de los textos en los que estamos trabajando. Es recomendable expandir las previsualizaciones de los textos y mostrar resultados de la pantalla usando la tabla de codificación para tener un contexto más claro de nuestra búsqueda y los códigos que ya han sido asignados al párrafo en cuestión. Si encuentras una oración o párrafo que tiene relación con tu búsqueda y que no ha sido codificada puedes seleccionar la casilla y hacer doble clic en el código de tu elección.

Uno de los elementos más útiles de esta herramienta es que puedes guardar tus recuperaciones para volver a usarlas más adelante en caso de que aumentes nuevos documentos a tu proyecto. Solo debes ir a donde empezaste la búsqueda, selecciona “Guardar consulta” y en adelante, cuando vuelvas a tu proyecto con más documentos solo tendrás que cargar la consulta previamente guardada.

Paso dos: analizar desde las codificaciones

La opción “Recuperando Código” es útil cuando ya casi terminas de asignar los códigos a tus textos; selecciona los códigos que tengan más relación entre sí y la búsqueda te arrojará los resultados de los códigos seleccionados; nuevamente es recomendable expandir las previsualizaciones de los textos. Lo más útil de esta opción radica en usar las condicionales (por ejemplo: es igual a, cerca de, seguido de, precedido de, etc.) con las que puedes hacer relaciones de los códigos preseleccionados y adicionar uno diferente, en este caso usé los códigos “víctima” y “victimario” y la condicional “cerca de Activista”.

Ahora, ¿cómo se analiza?

Finalmente, puedes analizar tu proyecto codificado identificando la frecuencia de ciertos códigos, para ello ve a la pestaña “Analizar” y selecciona la opción “frecuencia de código”, selecciona los códigos que deseas analizar y te mostrará el resultado de cuántas veces aparece el código y en cuántos casos. Para hacer más sencillo el trabajo selecciona todos tus resultados y selecciona el gráfico para mostrar tus columnas.

La herramienta permite que puedas guardar cada uno de los segmentos trabajados, ya sea como tablas en xls en el caso de los análisis de código o gráficos de frecuencia como imágenes.

Tiene más funcionalidades de las que describo, sin embargo estos tres pasos te permiten conocer la potencialidad general de la herramienta y hacer tus propios descubrimientos en adelante.