Estás navegando por el archivo de datos abiertos.

Fellows Estado Abierto en Costa Rica: Conóceles.

- el agosto 9, 2018 en Fellowship

Este año comenzamos una nueva modalidad de fellowship, la Fellowship Estado Abierto, a través de la cual líderes locales colaboran con instituciones públicas para afrontar los retos de abrir datos desde el sector público.

Esta generación tendrá la oportunidad de trabajar en conjunto con dos instituciones del Gobierno de Costa Rica, así como en colaboración con la Iniciativa Latinoamericana de Datos Abiertos (ILDA) y Escuela de Datos.

Lee el resto de la entrada →

Buscamos a la generación 2018 de fellows de EscuelaDeDatos

- el abril 16, 2018 en Noticias

Buscamos mujeres y hombres apasionadxs por los datos. Si tienes experiencia en periodismo, diseño, desarrollo web, visualización de datos, economía, ciencia de datos o cualquier otra rama relacionada con el uso de datos y tecnología para contribuir a la sociedad, te estamos buscando.

Conoce más detalles sobre esta oportunidad…

Lee el resto de la entrada →

Cómo una base de datos en México se adelantó al gobierno para buscar desaparecidos

- el diciembre 5, 2017 en Noticias, Uncategorized

Peronasdesaparecidas.org.mx es el nombre de la interfaz creada por la organización sin fines de lucro Data Cívica, que logró acercar datos cruciales a familias y organizaciones que buscan a personas desparecidas en México. Estos datos, como el nombre propio de las personas en los casos del fuero común (estatal o de provincias), no están actualmente publicados en la base oficial gubernamental, el Registro Nacional de Personas Extraviadas o Desaparecidas (RNPED).

 

Lee el resto de la entrada →

Únete al mapeo y validación de datos por terremoto en México

- el septiembre 14, 2017 en Experiencias

CopyfarleftP2P Subversiones.org

El desastre en México no ha concluido. Los terremotos del 8 y 19 de septiembre dejaron centenares de muertos y millones de damnificados, muchos de los cuales lo perdieron todo.

La comunidad del equipo humanitario de OpenStreetMap (HOT), por sus siglas en inglés, se volcó inmediatamente a la tarea de mapear los daños en caminos y edificaciones, labor que es fundamental para evaluar el daño y continuar haciendo llegar ayuda humanitaria, particularmente a los estados de Chiapas y Oaxaca en ese país.

Aquí puedes consultar la tarea del último terremoto en México, y las tareas de validación y mapeo pendientes. A la cabeza de este esfuerzo está Miriam González, parte de OpenStreetMap México.

Lee el resto de la entrada →

Datos para fiscalizar a municipios en Argentina

- el agosto 2, 2017 en Uncategorized

En un entorno donde los datos locales se hacen cada vez más necesarios y relevantes, Datos Concepción, organización evangelista sobre datos abiertos en Argentina, lanzó un portal de apertura de datos municipales con visualizaciones interactivas, filtros para bucear en los datos y bases descargables para que puedan ser reutilizadas en nuevas aplicaciones y herramientas.

En esta colaboración, Adrián Pino, coordinador de Datos Concepción y Soledad Arreguez, periodista, investigadora y colaboradora de la misma organización, comparten cinco aprendizajes clave sobre la creación y navegación del portal de datos abiertos.

El proyecto nació hace un año con la meta de montar el primer portal de transparencia de la provincia de Entre Ríos (Argentina) para la Municipalidad de Concepción del Uruguay. La plataforma se lanzó el lunes 4 de Julio de 2017 y ya está en línea en www.concepciontransparente.org.   desde allí es posible el acceso a los gastos del Municipio desde 2009 hasta la actualidad.
La plataforma (en versión beta) permite a los usuarios filtrar y visualizar el régimen de contrataciones y otras modalidades a partir de la información oficial que publica la Municipalidad, incluyendo la cantidad de órdenes de compra, el ranking de obra pública y el monto que percibió cada proveedor.

El coordinador de Datos Concepción, Adrián Pino,  dijo que “el desafío implicó pensar en una herramienta dinámica, simple de entender para el común de los usuarios y con una fuerte apuesta a estructurar los datos de forma clara y ordenada para que sea fácil efectuar búsquedas, seleccionar proveedores y descargar la información”.

Aprendizajes

1. Mostrar los contratistas de la Obra Pública

 

 

 

La enorme sensibilidad que despiertan los hechos de corrupción vinculados a las coimas en las obras Públicas vuelve necesario exhibir un Ranking de Contratos de Obra Pública para dar seguimiento a los principales beneficiarios de este rubro. No hay transparencia posible si no se identifica claramente quiénes son los principales contratistas de la obra pública, cuántos contratos recibieron y por cuánto dinero.

2. Filtros para bucear en los datos

Para promover un gobierno transparente hay que permitir que todas las contrataciones estén disponibles y en línea, y puedan ser exploradas con filtros para comparar. El control cruzado de proveedores y los procesos de auditoría cívica que permite el Portal Concepción Transparente marcan un piso elevado para los intentos de corrupción. La posibilidad de interactuar con los datos es crucial en este tipo de proyectos.

 

 

 

 

 

 

 

 

 

 

 

3. Permitir el análisis a través del tiempo

Si se muestra información a partir de los años disponibles, es posible trabajar con el filtro de fecha, que permite analizar algunos patrones en los datos y gastos de los Municipios.

4. Visualizaciones interactivas.

La sencillez y claridad de las visualizaciones es una necesidad creciente entre los Portales de Transparencia, que tienen la enorme misión de ayudar a los ciudadanos a entender el destino de los dineros públicos.

 

 

 

 

 

 

 

 

5. Datos Abiertos

La disponibilidad para descargar los datos en formatos abiertos es un requisito cada vez más necesario en la promoción de formas de empoderamiento que impulsan los procesos de apertura y transparencia de datos públicos. Con más datos en poder de los usuarios, es más probable que haya mejores controles para evitar el desvío de fondos públicos.

El desafío de escalar

El trabajo de Datos Concepción en el desarrollo de esta herramienta contó con las aportaciones del equipo de Genosha y se estructuró con un esquema que permite ser adaptado a los requerimientos de otros Municipios de Latinoamérica. En esta etapa posterior al lanzamiento estamos mejorando las prestaciones del Portal, agregando funcionalidades y visualizaciones que mejoren la comprensión de los gastos de cada Municipio.

El esfuerzo de nuestro equipo está enfocado en ciudades de hasta 300 mil habitantes, entendiendo que los Municipios de menor cantidad de población son los que requieren más acompañamiento para avanzar en políticas de Transparencia y Apertura de Datos.

En este momento el equipo de Datos Concepción está a la búsqueda de financiamiento adicional que les permita escalar a otros Municipios de Latinoamérica que ya han mostrado interés en replicar este Portal de Transparencia.

Relevancia de datos abiertos: del discurso al impacto

- el mayo 29, 2017 en DAL, Experiencias, Fuentes de datos, Guest posts

Chasm

CC by SA Monyo Kararan

Hay todavía un abismo entre el discurso de datos abiertos y el impacto que esta apertura, publicación, vinculación y otras prácticas tienen en la vida de las poblaciones globales. El puente entre los extremos de ese abismo es la relevancia de los datos, es decir, la capacidad que estos tienen para ser aprovechados efectivamente por las diversas poblaciones globales. Este abismo parece especialmente insondable para poblaciones que son política y socialmente excluidas.

La vinculación de los dos extremos de ese hueco es cada vez de una necesidad mayor, toda vez que organismos, oficiales y autónomos globales, han adoptado en mayor o menor medida dicho discurso de apertura de datos.

Es necesario en este punto, a la vez que admitir los avances, prestar atención a las muchas deficiencias en políticas de apertura en regiones específicas, reconocer que la apertura no es un fin en sí mismo, y que resulta trivial si no viene aparejada de garantías de acceso y uso de los conjuntos de datos. Más aún, resulta indispensable establecer mecanismos concretos y específicos para corregir esta deficiencia.

Para ello deben desarrollarse estándares contextuales, técnicos y de evaluación,  con miras a la inclusión de amplias poblaciones que se beneficien del impacto de las políticas de apertura de datos.

El eje técnico

Dear W3C

CC by NC SA Paul Downey

En un sentido técnico, la relevancia de datos es una métrica de calidad de datos que vincula los sets de datos disponibles con el interés de actores sociales. En este mismo sentido, parte del abismo entre apertura e impacto es irónicamente un vacío de (meta)datos: aquellos que se refieren a las potencialidades de “consumo” de dichos conjuntos de datos.

En una publicación sobre prácticas recomendables para la publicación de datos en la web,  el World Wide Web Consortium (W3C) detalla una serie de criterios para que los conjuntos de datos sean vinculables y aprovechables en máximo grado. Entre estas prácticas, se encuentra el uso de un Vocabulario para el Uso de Conjuntos de datos (DUV, por sus siglas en inglés), para proveer un modo de retroalimentación entre “consumidores” y “publicadores” de datos sobre el uso de los mismos. Por ejemplo, agregando metadatos descriptivos a los conjuntos de datos, tanto sobre la base en sí misma, como de sus posibles usos. De esta manera, se generan metadatos que permiten contrastar el uso sugerido y el reuso dado.

Estas nuevas prácticas se adscriben a los principios FAIR y concuerdan con el espíritu de distribución y acceso universal que originalmente concibió internet.

Phil Archer, una de las diecinueve personas que redactó las recomendaciones, describe el propósito del documento de la siguiente manera:

“Quiero una revolución. No una revolución política, ni ciertamente una revolución violenta, pero una revolución a fin de cuentas. Una revolución de la manera en la que las personas piensan sobre compartir datos en la red”.

El eje contextual

Ayot2inapa

CC by SA Marcos Ge

Para implementar relevancia hace falta una revolución que sí es de índole política: el reconocimiento de necesidades prioritarias en la publicación de conjuntos de datos, con respecto a necesidades de todos los grupos poblacionales, pero con especial atención a datos sobre garantías individuales que son sistemáticamente violentadas por gobiernos y otros actores sociales en distintas latitudes globales.

Por ejemplo, en el contexto mexicano, la Corte Interamericana de Derechos Humanos (CIDH) detalla en uno de sus informes más recientes no sólo algunas de las violaciones sistemáticas de Derechos Humanos: desaparición, desaparición forzada, tortura, ejecuciones extrajudiciales, injusticia; sino también las poblaciones más vulneradas por estas violaciones: mujeres, pueblos indígenas, niñas, niños, adolescentes, defensoras de derechos humanos, personas migrantes, personas lesbianas, gay, bisexuales, trans y otras formas de disentimiento sexual.

En países en que se viven estas condiciones, es indispensable que este contexto de Derechos Humanos sea considerado como un factor determinante para la elaboración de políticas de apertura de datos relevantes. Aparejada a estas políticas, sólo la instrumentación de reglamentaciones y mecanismos concretos de análisis de la demanda de datos puede proveer a estas poblaciones de elementos para su defensa, que convengan efectivamente en la mejora de sus vidas.

Un paso más para asegurar la relevancia de los datos abiertos es la creación de mecanismos específicos que garanticen que poblaciones política y económicamente excluidas tengan acceso a un volumen y calidad de datos suficientes que les permita trabajar para erradicar las prácticas mismas que han promovido su exclusión.

Es decir, debe existir una concordancia entre las políticas de apertura de datos y la agenda pública propuesta por un gobierno abierto para el empoderamiento de la población, agenda que ya de por sí debe incluir a las poblaciones mencionadas.

Para la elaboración de estándares de todo tipo sobre políticas de relevancia de datos deben ser llamadas a participar no solamente especialistas en defensa de derechos, legislaciones nacionales e internacionales y otras disciplinas, sino principalmente representantes de estas poblaciones vulneradas y despojadas de la vida o de factores que permitan una vida digna.

Hoy en día, la generación y publicación de datos con esta perspectiva se está llevando a cabo por organizaciones activistas. En México, por ejemplo, periodistas e investigadores independientes hicieron pública una base de datos sobre personas desaparecidas, y en Bolivia son activistas quienes construyen una base de datos sobre feminicidios; en España periodistas organizaron datos sobre la brecha de clase en el acceso a medicamentos; en Estados Unidos, un profesor universitario creó una base de variables relevantes para la comunidad LGBTTI; y desde el Reino Unido, el medio The Guardian creó una plataforma que muestra el número de personas de raza negra que mueren por causa de disparos de policías.

El eje de evaluación

Derivado del emparejamiento de los nuevos estándares técnicos propuestos por la W3C con las prioridades humanitarias globales, las poblaciones tendrían herramientas para exigir no sólo la calidad de los datos en los términos tradicionales de formatos de apertura, sino también en cuanto a su relevancia.

Por ejemplo, la encuesta global Open Data Survey, de la que proviene el Open Data Index de la organización Open Knowledge International, contiene algunas preguntas sobre la accesibilidad legal y técnica de los conjuntos de datos como una medida de su calidad. El Open Data Barometer, por otra parte, tiene un apartado de impacto social de la apertura de datos. Este año destaca, entre otras cosas, que el impacto en transparencia y rendición de cuentas disminuyó un 22%, mientras que el impacto en emprendimientos se incrementó 15%, lo cual ilustra que ciertos grupos sociales se están beneficiando de la apertura más que otros.

El aprovechamiento de la información es clave para que los conjuntos de datos puedan ser relevantes, no hay relevancia sin aprovechamiento y no hay aprovechamiento sin acceso a la información. En el caso ilustrado por el Open Data Barometer, los conjuntos de datos son relevantes solamente para emprendedores, lo cual implica que no necesariamente son relevantes para cualquier otro grupo poblacional.

No obstante, se necesitan más detalles para la evaluación de la relevancia de los datos a nivel nacional y local. En 2015, el investigador Juan Ortiz Freuler publicó el Estado de la Oferta y la Demanda de Datos Abiertos Gubernamentales tras la implementación de normativas de la defenestrada Alianza por el Gobierno Abierto en México, (de la cual las organizaciones de ese país decidieron salir, precisamente, debido a la evidencia de espionaje en contra de defensores de la salud y otros activistas con software de uso exclusivo gubernamental).

El informe de Freuler mostró, entre otros análisis, que la mayoría de las solicitudes de información (emparentadas con la demanda de datos abiertos) fueron realizadas por personas con grado académico de licenciatura, lo cual implica una profunda brecha de acceso a ellos respecto de poblaciones no profesionalizadas.

En su Uso y Cumplimiento de la Legislación de Acceso a la Información Pública en Brasil, Chile y México , los investigadores Silvana Fumega y Marcos Mendiburu ofrecen también algunos ejemplos de las ventajas de obtener datos sobre la demanda de información pública.

Por ejemplo, en la investigación de Fumega y Mendiburu se detalla que México incorpora dentro de la Ley General de Transparencia y Acceso a la Información Pública (LGTAIP) la obligación del organismo garante de recopilar datos sobre las solicitudes de información pública.

Con esta obligación, tanto el Estado como actores independientes pueden llegar a la conclusión de que en 2013 los institutos de seguridad social nacionales en México y Brasil  y el ministerio de salud en Chile fueron las instancias públicas que más  solicitudes de información recibieron. A partir de esa información es posible tomar medidas para jerarquizar la información de dicha instancia de salud pública.

Simultáneamente, los datos estadísticos sobre las personas que hacen las solicitudes, como su edad, género o escolaridad, abonan a la necesidad de delinear con datos también las políticas públicas de datos abiertos.

Así, la estandarización técnica de ciertas prácticas permitiría obtener y cruzar datos sobre el uso y propósito de los mismos; la priorización contextual permitirá garantizar que poblaciones excluidas y en riesgo puedan beneficiarse tanto como el resto de los grupos sociales; y la evaluación permitirá monitorear el resultado de las prácticas mencionadas. 

En la publicación de las recomendaciones a las que antes aludí, sobre publicación de datos en internet, la W3C proponía generar a través de ellas una revolución exclusivamente tecnológica. No obstante, su articulación con estas otras formulaciones podría provocar una muy necesaria revolución que sí pertenece al orden de lo político: el empoderamiento de las comunidades a través del uso de conjuntos de datos.

Cómo empezar a armar tu base de datos sobre feminicidio

- el diciembre 8, 2016 en Experiencias, Tutoriales

El Observatorio de Igualdad de Género de América Latina y El Caribe dispone de datos de feminicidio de fuentes oficiales de 18 países latinoamericanos. Bolivia no es uno de ellos, pues aunque la ley 348 para Garantizar a las Mujeres una Vida Libre de Violencia fue promulgada en 2013, los datos que se publican se remiten a información general por parte de la Policía, y en el mejor de los casos, valiosas investigaciones de ONGs cuya base de datos no es abierta y se publican datos condensados a travé de informes.

Ante la urgencia de la creciente oleada de crímenes, algunas organizaciones de sociedad civil como “Cuántas Más” en Bolivia, ven como urgente la necesidad de armar una base de datos recopilando los hechos que además se encuentre abierta al público para que puedan ser consultados por investigadores, periodistas, o cualquier persona que tenga interés de hacer algo más con datos registrados y sistematizados; si en tu país no dispones de fuentes oficiales, aquí te damos algunos criterios que debes considerar para armar la base de datos.

image00

 

 

 

 

  1. Diferencia entre datos primarios y datos secundarios. Datos primarios son aquellos que se obtienen a través de una recopilación de datos propia, como la observación de procesos, una encuesta o una entrevista. Los datos secundarios por otra parte son datos que otros ya han recopilado y han puesto a disposición pública. Si estás planeando hacer una recopilación de casos, lo más probable es que recurras a este segundo grupo, con base en estudios, estadísticas de otras organizaciones, o publicaciones de prensa.
  2. Cuando recopiles datos propios considera que estos pueden ser cuantitativos o cualitativos. Los datos cuantitativos se caracterizan por su enfoque estandarizado y tienen como objetivo verificar, confirmando o refutando, diversas relaciones e hipótesis basadas en números. Los datos cualitativos ofrecen un enfoque abierto y sirven para recoger información que no se pueda representar mediante cifras pero puede dar una mejor comprensión de una cuestión.
  3. Algunas veces, los datos pueden estar publicados en sitios web pero no existe un link de descarga. En ese caso, te sugiero utilizar una herramienta para la extracción de datos fácil de usar que tiene como objetivo obtener datos de forma estructurada de cualquier sitio web; se trata de import.io y puedes consultar este tutorial para aprender a usarlo.
  4. Es importante conocer las otras organizaciones que trabajan en la recepción de denuncias de violencia de género o que proveen servicios legales; estas organizaciones también pueden proveer datos fuente de órganos descentralizados, por ejemplo, de carácter municipal, servicios de atención a la salud, el sistema de justicia penal y prestadores de servicios sociales, por nombrar algunos.
  5. Si vas a obtener tus datos desde información publicada en prensa, trata de cotejar adicionalmente con uno o dos medios; de esta forma garantizas la verificación de los datos publicados y el aumento de aquella información que algún medio no pudo obtener.
  6. Saca provecho de Google Alerts, un servicio de Google que te permite recibir alertas a tu email cuando el buscador indexa nueva información relacionada con las palabras clave de búsqueda. Con esta herramienta puedes automatizar el proceso de búsqueda o actualizar los resultados de una búsqueda de tu interés a lo largo del tiempo, hasta que decidas eliminar la alerta; programa por ejemplo las palabras feminicidio o mujer asesinada.
  7. Identifica todos los criterios relevantes para tu primer análisis: nombres, edades, y locaciones suelen ser datos que comúnmente identificamos; sin embargo, la riqueza para análisis de tu base de datos puede estar en los datos que no siempre consideramos como el número de hijos sobrevivientes al hecho, la relación de la víctima con el victimario, el estado del caso y si es que ha obtenido sentencia, el tipo de agresión que se produjo, si es que hubo una denuncia de violencia previa. La granularidad es importante.
  8. Documenta el proceso, es importante explicar los pasos que seguiste para que las personas interesadas en la base de datos tengan los argumentos completos de tu trabajo. Aquí puedes encontrar algunas opciones para realizar este paso.
  9. Finalmente escoge la mejor manera de mostrarlos, dependiendo del volumen y el contenido de tu base de datos puedes optar de mostrarlos, por ejemplo, en una línea de tiempo o un mapa. Solo recuerda publicarlos con el enlace de descarga.

Adicionalmente, si te interesa indagar más profundo, CEPAL lanza un curso cada año de introducción sobre estadística e indicadores de género que a la fecha va en su sexta versión. Debes estar atento al lanzamiento de la próxima convocatoria.

¡Data Wrangler: limpia tus bases en un tris!

- el septiembre 13, 2016 en Expediciones de Datos, Experiencias, Fuentes de datos, Uncategorized

Amo el trabajo de datos. Pero hay una cosa que no me gusta: la limpieza. ¿No te ha pasado alguna vez? ¡A mí sí y sigo contando! Por eso, quiero enseñarte cómo utilizar una herramienta para hacer al mal tiempo buena y cara: Wrangler. Esta es una herramienta interactiva GRATUITA, desarrollada por el proyecto de investigación Stanford/Berkeley, que sirve para la limpieza y transformación de datos.

Con ella, te lo prometo, pasarás menos tiempo limpiando y más tiempo analizando tus datos a la hora de elaborar bases de datos. ¿Te animas a probarla? Bueno, pues, lee y te cuento cómo la probé con una tabla de datos, sobre las primeras tres jornadas de CONCACAF 2016-2017, que extraje de Mismarcadores.com.

1

 

 

 

 

¡Menor tiempo, mejor limpieza!
Un profesor en la «U» solía decirme que, lo bueno si breve, dos veces bueno. Y eso es lo que evoca Wrangler al momento de utilizarlo. Para comenzar, ingresa a http://vis.stanford.edu/wrangler/, donde encontrarás un botón al que hasta el más curioso y entusiasta datero dará clic con su provocativo Try It Now (¡Pruébala ahora!).

34

 

 

 

 

Como verás a continuación, la interfaz de Wrangler es sencilla. Un poco primaria para algunos, pero los resultados son prometedores para quienes deseamos limpiar datos rápido y bien. ¿Ves cómo está la tabla? Fea, ¿verdad?5

 

 

 

 

Para mejorarla, lo primero que hice fue seleccionar la primera fila de la tabla y acudí al auxilio de la opción Promote para que la primera fila sea el encabezado de cada una de nuestras columnas. Así, ya tenemos un encabezado con el cual la carpintería datera puede comenzar. ¡Eso sí! Para cambiar cada uno de sus nombres puedes dar doble clic y ¡listo! ¡Ya tienes categorías!

6 7

 

 

 

 

Ahora, rellenemos los espacios en blanco de cada jornada. Para eso, sombreé la columna JORNADA. Y me fui a la opción Fill, con la cual puedes reemplazar las columnas/filas en blanco por insumos de valor. Para este caso, le indiqué que debía rellenar todo espacio debajo de JORNADA que estuviera en blanco.

¿Cómo? Colocando lo siguiente en su barra de opciones:

Column JORNADA

Direction: above

Row: JORNADA is null

Finalizado esto, aparecerá una opción con nuestros comandos en el menú SUGGESTIONS. Dale clic al signo de «más» y verás cómo empieza a tomar forma la cosa.

8

 

 

 

 

Sí, yo también vi esas filas en blanco que no aportan nada en cada JORNADA. Para eliminarlas, selecciona cada una de las columnas e ingresa a la opción DELETE, donde podrás prescindir de cada una de ellas en el menú de la izquierda, dando clic al signo más en el menú SUGGESTIONS.

9

 

 

 

 

Mejor, ¿no? Ahora, tenemos otra piedrita en el camino: ¡Fecha y hora están unidas! Pero, que no panda el cúnico. Para separarlas, me di a la tarea de hacer lo siguiente:

1) Seleccioné la columna FECHA

2) Fui a la opción SPLIT y coloca WHITESPACE en la variable after.

3) Y voilá…

10

 

 

 

 

¡Eso sí! No pases por alto cambiar las columnas SPLIT a FECHA y HORA respectivamente. Ahora, veo que el MARCADOR está igual de sucio. Por tanto, tendremos que separar cada uno de esas ÊÊ que les mantienen unidos. ¡Empecemos entonces! Yo comencé por el marcador del equipo 2 e hice esto:

1) Sombreé la columna MARCADOR

2) Fui a la opción SPLIT y coloca ÊÊ en la variable after.

3) ¡Listo! ¡Ya me lo separó!

11

 

 

 

 

Ahora, viene lo mejor: ¿cómo quitamos esas ÊÊ del marcador del equipo 1? Antes de separar, sombreemos las ÊÊ y sígueme con lo siguiente:

1) Vamos a la opción SPLIT

2) Coloquemos ÊÊ en la opción on

3) ¡Mira qué padre! ¡Nos separó las ÊÊ del marcador!

4) ¡No olvides renombrar la columna separada como MARCADOR EQUIPO 1!

12

 

 

 

 

¡Solo nos queda prescindir de la columna en blanco del anterior SPLIT! Y, para eso, ve a la opción DROP y dale clic a la primera opción que te presenta el menú SUGGESTIONS.

13

 

 

 

 

¿Qué hacemos ahora? Ve a la opción EXPORT que se encuentra debajo de SUGGESTIONS y haz clic. Te saldrá una pantalla con la tabla de datos limpia. Copíala y llévala a tu Text Edit (Mac) o Bloc de Notas (Windows). Pega el archivo y guárdalo como un texto sin formato con extensión .csv.

15

 

 

 

 

Ahora, si la curiosidad te mata como a mí me pasó, abrí el .csv en Excel… ¡Y este fue el resultado!

16

 

 

 

 

¡Justo algo con lo cual podemos trabajar! ¡Gracias por oír mis plegarias dateras, Wrangler!

¿Por qué confiar en Wrangler?

«¿Para qué tanto problema?», dijo sabiamente Juan Gabriel. Y yo le creo… yo te invito a darle un voto de confianza a Wrangler. ¿Por qué? Porque me ha pasado que se me va el tiempo (¡y la vida!) manipulando datos exclusivamente para que las herramientas de visualización y análisis las leen. Pero, ¡oh, sorpresa! Muchas veces, el resultado no es el esperado porque la limpieza no fue lo que yo deseaba.

Y, en esos deseos de cosas imposibles, Wrangler está diseñadas para acelerar esos procesos; más, si tienes a un editor o a tu jefe exigiendo bases de datos y visualizaciones rápidas y bien ejecutadas. Con este insumo, pasarás menos tiempo lidiando con tus datos y mucho más aprendiendo de ellos al tener las preguntas correctas que te ayuden a sustentar/refutar hipótesis de periodismo de datos.

También, te permite la transformación interactiva de información sucia que puedes encontrar a diario en insumos de análisis para cualquier proyecto en el cual te encuentres trabajando. Y, lo que más me encanta, te ayuda a exportar datos para su utilización en mis dos inseparables amigos: Excel o Tableau. ¡Yeeeeeeeeeeeeeey!
Por los registros, ¡no te preocupes! Una vez exportes la data trabajada, la herramienta volverá a su fase original con las bases precargadas (¡otra razón para amarte, Wrangler!). Ya si esto no te convence, anímate a probarla y compartirnos qué te parece y que no. ¡No te quedes con las ganas y comparte con nosotros tus impresiones acá o en nuestro Twitter (@EscueladeDatos)! ¡Cambio y fuera!

 

 

 

 

Onodo: hacer mapas de relaciones no es complicado

- el agosto 23, 2016 en DAL, Experiencias, Fuentes de datos, Guest posts, Tutoriales

Hace un mes la Fundación Civio lanzó su aplicación gratuita para crear mapas de relaciones y se puede convertir en la solución para muchos, como yo, que nunca pudieron hacer uno porque las herramientas parecían muy complicadas.

Para poder hacer esa afirmación hice una prueba con las relaciones de los personajes de Narcos, la serie de Netflix, que narra la investigación que llevó a la captura del narcotraficante Pablo Escobar.

Este mapa fue realizado en un poco menos de una hora, recolectando toda la información e insertándola en Onodo. Ahora les explicaré porqué es tan fácil de usar:

  • No necesitas ser un experto en Excel, ni siquiera abrirlo. Onodo permite insertar uno a uno los nodos (cada una de las personas, instituciones, etc… que necesitamos poner en el mapa) y también permite personalizar una a una las relaciones de cada nodo dentro de la misma aplicación.

Screen Shot 2016-08-11 at 12.03.17 PM Onodo 1

 

 

 

 

 

 

 

  • Es intuitivo, no es necesario leer el manual para usar sus funciones básicas. Ni siquiera existe un manual, si quieres algo parecido puedes ver su demostración en este enlace.

Ahora te explicaré cómo hice este mapa de relaciones en menos de una hora:

  • Recolecté los datos de los personajes en IMBd y Wikipedia.
  • Inserté los datos de cada personaje como un nodo. Por ejemplo: Pablo Escobar era el líder del Cartel de Medellín. Entonces usé el botón “Añadir nodo” y puse el nombre y la imagen que busqué en Google. Añadí otro nodo para el Cartel de Medellín. Ambos se reflejaron al instante en la visualización.

Onodo 2

 

 

 

  • Los nodos no están completos sin una relación. Entonces cambié a la pestaña de “relaciones” y hice click en el botón “añadir relación” para indicar que el nodo “Pablo Escobar” es el líder  del “Cartel de Medellín”. Esto también se reflejó al instante.

Onodo 3

 

 

 

  • Así se muestra la visualización al hacer click sobre el nodo de “Pablo Escobar”.

Onodo 4

 

 

 

  • Luego agregue la información del resto de personajes principales y secundarios de la serie, de la misma manera que hice con Pablo Escobar.  Todas se fueron mostrando dentro de la visualización.
  • Compartir la visualización dentro de cualquier otro sitio es igual de sencillo. Pulsas en el botón “Comparte” donde harás pública la visualización y después te creará un iframe y un enlace fijo.

Onodo 5

 

 

 

 

 

Si aún no te convence esta sencilla explicación puedes entrar a este enlace para ver otros mapas de relaciones que han realizado otros usuarios.  Y si la explicación te convenció, como usarlo me convenció a mí, puedes entrar a este enlace para crear tu cuenta y empezar a experimentar.

 

Cómo DataBasic puede ayudarte a empezar tu storytelling

- el julio 19, 2016 en Experiencias, Fuentes de datos

Aprender a trabajar con datos y utilizar las herramientas correctas tienen una curva de aprendizaje, como todo proceso, que a veces puede intimidar un poco al inicio. Lo se por experiencia propia.

En el afán de aprender y despejar las dudas que surgen en el análisis de datos, muchas veces aceleramos la carrera tratando de comprender de inmediato herramientas complejas, no siempre es el mejor camino. Por ello es necesario revisar herramientas pensadas para quienes está empezando con datos abiertos en el entendido de que progresivamente se adquiera mayor destreza en el análisis de datos.

DataBasic IO es una suite de herramientas intuitivas y fáciles de usar pensada para personas curiosas por analizar datos y contar historias, que todavía no están interiorizadas en los conceptos, tareas específicas o sencillamente no saben por dónde comenzar. En pocas palabras, simplifican el primer acercamiento a partir de tres herramientas que dan como resultado análisis prácticos de tus datos.

Aquí te cuento, una a una, qué pueden hacer estas herramientas a través de ejemplos con los que te puedes encontrar en el día a día.

DataBasic1

Word Counter, la primera de la lista, hace un análisis cuantitativos de un texto plano y te muestra las palabras y frases más comunes, este último más interesante todavía porque te pone en contexto de las palabras más usadas a través de bigramas y trigramas.

Si lo deseas puedes usar los ejemplos de la herramienta (son letras de canciones), pegar un enlace o un texto, o subir un documento: yo me decidí por esta última y trabajé con el discurso del Presidente de Bolivia del pasado 1° de mayo de 2016; la herramienta sólo se acepta archivos txt, docx, rtf. El resultado se muestra en dos grupos, el primero es una nube de palabras:

DataBasic2

Seguido de bigramas, trigramas y palabras encontradas con mayor frecuencia; estas listas se pueden descargar como un archivo CSV.

DataBasic3

De esta última imagen puedes ver, por ejemplo, que la palabra “compañeros” se repite 25 veces, y la palabra “compañeras” solamente 14; también que la frase “millones de bolivianos” aparece 13 veces, y aunque no sale en la imagen, se repite 4 veces el nombre “Hernan Siles Suazo”, ex presidente de Bolivia (1982) en cuyo mandato logró preservar la democracia luego de 18 años de sucesivos gobiernos militares y golpes de estado.

Si no te interesan los discursos presidenciales, también podrías utilizar textos planos sobre propuestas de candidatos, planes de gobierno, etc. WordCounter te ayuda a entender que se pueden encontrar muchas historias en un solo conjunto de datos.

WTF csv, un nombre cuya pregunta nos hemos hecho todos alguna vez. Esta herramienta te da una visión general de lo que está en tu archivo .csv y te ayuda a pasar rápidamente a preguntarle cosas a tus hojas de cálculo en un conjunto de datos o a partir de la combinación de varios conjuntos de datos.

Nuevamente cuentas con ejemplos propios de la herramienta, como la lista de pasajeros del Titanic; yo decidí utilizar el .csv de “Que no te la charlen”, un proyecto de transparencia universitaria con datos de las universidades y carreras públicas de Bolivia.

La herramienta te muestra la información en bloques giratorios, de un lado la información puesta de forma visual, y del otro como resumen en texto. Cada bloque representa una columna y contiene un resumen de la información en las filas de esa columna.

DataBasic 3

Viendo los contenidos empiezas a hacerte preguntas desde cada bloque, como: “¿por qué la Universidad Autónoma Gabriel Rene Moreno se repite 91 veces?”; o combinando bloques, como abajo, “¿Por qué si “Universidad Mayor de San Simón” -Cochabamba- se repite 89 veces, aparecen “Cochabamba” 74 veces mencionada en la columna Ciudad/Región?

Puedes complementar tu análisis con datos de apoyo que te ayuden a entender mejor el contexto de la información, como los del Censo de Población y Vivienda; o repetir el ejercicio usando otros .csv por ejemplo si quieres revisar presupuestos públicos para identificar el ítem que genera más gasto y a su vez comparar estos datos con presupuestos de la misma institución pero de otras ciudades.
Same Diff, la última de esta suite, compara dos documentos de texto y encuentra similaridades y diferencias en las palabras basadas en un algoritmo de similitud coseno que indica cuán parecidos son dos documentos.

No considera las sílabas con acentos ni apóstrofes, por lo que algunas de las palabras analizadas se ven cortadas; decidí probar la herramienta comparando las leyes de Identidad de Género de Bolivia y de Argentina, este fue el resultado:

DataBasic5

La columna de la izquierda muestra palabras únicas de la Ley de Identidad de Género de Argentina (pila, articulo, registral, documento, integral), en tanto que la columna de la derecha muestra el resultado para la ley boliviana (dato, propio, sereci, estado, transexuales); los resultados de la columna central, por otra parte indican las palabras encontradas en ambos documentos: identidad, nombre, sexo, género, ley, cambio.

La herramienta es interesante para encontrar temas comunes en el caso de documentos diferentes, o los elementos diferenciadores en documentos muy similares, como en el ejemplo de arriba en que la legislación de Bolivia se enfoca en instituciones (SERECI) y el estado.

 Un plus general de DataBasic IO es que las herramientas se probaron en aulas y talleres para asegurar de que funcionen correctamente y que sean fácilmente comprensibles; también desarrollaron guías de actividades para cada herramienta, pensadas para replicar con estudiantes, periodistas, etc., y que combinan datos ligeros, como letras de canciones o avistamientos de OVNIS, para facilitar el abordaje de la búsqueda de historias de datos de manera más entretenida y simple.