Estás navegando por el archivo de Marcos Ge.

¡Gracias a nuestras colaboradoras este año!

- el diciembre 22, 2017 en Noticias

¡Este año publicamos 38 posts de colaboradoras/es de toda latinoamérica, incluyendo Bogotá, Costa Rica, Guatemala, Argentina y México, con experiencias y tutoriales sobre datos y su cultura en la región!

Muchas gracias a quienes siguen enviando contenidos y formando parte de la comunidad de Escuela de Datos.

Lee el resto de la entrada →

Cómo una base de datos en México se adelantó al gobierno para buscar desaparecidos

- el diciembre 5, 2017 en Noticias, Uncategorized

Peronasdesaparecidas.org.mx es el nombre de la interfaz creada por la organización sin fines de lucro Data Cívica, que logró acercar datos cruciales a familias y organizaciones que buscan a personas desparecidas en México. Estos datos, como el nombre propio de las personas en los casos del fuero común (estatal o de provincias), no están actualmente publicados en la base oficial gubernamental, el Registro Nacional de Personas Extraviadas o Desaparecidas (RNPED).

 

Lee el resto de la entrada →

Tutorial: Geodatos con Python

- el noviembre 2, 2017 en Tutoriales

 Desde Escuela de Datos, Sebastián Oliva, fellow 2017, enseña cómo usar Python para generar mapas a partir de datos georreferenciados.

Pues seguir el webinar del 31 de octubre paso a paso en el video que compartimos contigo y el cuaderno que publicamos abajo. También puedes consultar el cuaderno de trabajo de Sebastián aquí.

Lee el resto de la entrada →

Continúa el mapeo de vías y necesidades en México tras el terremoto

- el septiembre 27, 2017 en Experiencias, Fuentes de datos, Noticias, Uncategorized

CC atribución, compartir igual. Pot Patricia Curiel

El flujo de ayuda proveniente de la desbordante salida de la población a las calles de la Ciudad de México tras el terremoto del 19 de septiembre, población que dejó centros de trabajo y hogares propios para auxiliar a otros, se convierte también en un flujo de información que es necesario organizar para garantizar que la ayude llegue donde se requiere.

Miles de voluntarixs, con pico, pala y casco, pero también con alimentos, vendas, jeringas y otros materiales médicos llegaron a hacer fila para remover escombros o aliviar necesidades básicas de la población a cada uno de los más de 40 derrumbes en la ciudad.  Siguen llegando, aunque ahora con menos frecuencia, olas voluntarias que en en un principio hacían fila para llevar alimentos a centros de acopio rebasados, o que ya no podían almacenar el suficiente tiempo alimentos percederos. Esta fuerza política enfocada en la ayuda al otro irá languideciendo conforme pasen los días, a menos que hagamos un esfuerzo por lo contrario.

Aquí encuentras las fuentes y salidas de datos para el alivio de los terremotos del 7 y 19 de septiembre en México, y que afectaron principalmente a los estados de Chiapas, Oaxaca, Puebla, Morelos, Estado de México y Ciudad de México.

Lee el resto de la entrada →

Únete al mapeo y validación de datos por terremoto en México

- el septiembre 14, 2017 en Experiencias

CopyfarleftP2P Subversiones.org

El desastre en México no ha concluido. Los terremotos del 8 y 19 de septiembre dejaron centenares de muertos y millones de damnificados, muchos de los cuales lo perdieron todo.

La comunidad del equipo humanitario de OpenStreetMap (HOT), por sus siglas en inglés, se volcó inmediatamente a la tarea de mapear los daños en caminos y edificaciones, labor que es fundamental para evaluar el daño y continuar haciendo llegar ayuda humanitaria, particularmente a los estados de Chiapas y Oaxaca en ese país.

Aquí puedes consultar la tarea del último terremoto en México, y las tareas de validación y mapeo pendientes. A la cabeza de este esfuerzo está Miriam González, parte de OpenStreetMap México.

Lee el resto de la entrada →

Escuela de Datos: 5 «abrelatames» juntos.

- el agosto 19, 2017 en Experiencias, Noticias

Junio de 2013, Uruguay, Montevideo: frente a una naciente comunidad de personas interesadas en el uso de la tecnología para el impacto social, se presentó Escuela de Datos en el primer ABRELATAM de la historia.

Este 2017, del 23 al 25 de agosto se lleva a cabo la quinta edición de esta desconferencia, que busca atar los esfuerzos de las comunidades y desatar los nudos que puedan encontrarse en el camino hacia un uso libre de los datos para el impacto social. En estos años, Escuela de Datos ha generado decenas de encuentros para crear comunidad, talleres, publicado cientos de contenidos y cursos gratuitos.

Muchas de estas acciones han sido ejecutadas por una comunidad en cuyo corazón están las y los fellows, aquí recapitulamos algunos de sus logros, cuya amplificación se debe, en gran medida, a cada ABRELATAM. ¡Conócelxs!

Antonio Cucho

Antonio Cucho Gamboa, fellow por Perú A finales de 2013 y  principios de 2014, fundó la organización Open Data Perú y se postuló en 2014 para el fellowship. Al tener capacidades técnicas como programador y unirse a periodistas co fundó la publicación online de periodismo de investigación Ojo Público.

Su experiencia organizando comunidades de datos abiertos comenzó en el encuentro regional más relevante para los datos abiertos en Latinoamérica: Abrelatam (2014).

Tras terminar su fellowship, Antonio se mudó para integrarse al equipo de periodismo de datos de Univision Noticias, medio estadounidense dirigido a la población hispana en Estados Unidos. Con Univision Data ha desarrollado diferentes trabajos relacionados con la defensa de los derechos de la población de contexto hispanoparlante, como un mapa interactivo para mostrar la población hispana que aún no domina el idioma inglés, describir los resultados de medio siglo de guerra en Colombia. Además, promovió la primera plataforma de factchecking en español (dentro del territorio estadunidense): «El Detector de Mentiras».

A pesar de radicar fuera de Perú, su trabajo con ese país no ha concluido, lidera el desarrollo y coordina la investigación de la primera plataforma de contrataciones abiertas en  su país de origen. Este es un esfuerzo en conjunto de la comunidad Open Data Perú y la OSC Proética para promover la transparencia en las contrataciones estales, identificando diferentes patrones que permitirán a especialistas realizar una exploración más sencilla dentro de miles de contrataciones que contienen irregularidades en el proceso.

Si quieres saber más de lo que hizo Antonio durante su fellowship, da clic aquí.

Julio López

Durante su Fellowship, en 2015, Julio se concentró en datos de la industria de extracción, a través de su trabajo con Natural Resource Governance Institute.

Julio se encuentra trabajando como consultor de la División de Energía del Banco Interamericano de Desarrollo (BID), donde apoya la implementación de la Iniciativa Energía Sostenible para Todos (SEforAll) en América Latina y el Caribe. Antes de incorporarse al BID, trabajó en la Organización Latinoamericana de Energía (OLADE) como especialista de información energética y previamente coordinó proyectos de investigación en políticas públicas para think tanks y OSCs en América Latina.

En 2015 desarrolló su Fellowship en Escuela de Datos, donde trabajo en fortalecer la comunidad local de datos abiertos en Ecuador y colaboró con un proyecto global sobre datos de proyectos de industrias extractivas. Recientemente es co-fundador de @Datalat, una iniciativa civil sobre el uso de datos y tecnología en Ecuador.

Omar Luna

Tras su fellowship en 2015, Omar Luna dedicó sus esfuerzos en El Salvador a la colaboración con el medio independiente El Faro,  con quienes capacita a estudiantes de periodismo en diversos rubros políticos y de datos con el objetivo de la construcción de dos grandes productos: una base de datos que le sirva a El Faro para crear una visualización de datos de cara a las elecciones de diputados 2018-2021, así como la consolidación del Observatorio de Comunicación Política de la Universidad Centroamericana (UCA).

También colabora con Proyecto Cero, donde Omar lideró la construcción de una base de datos que visibiliza la toma de decisiones clave en la Asamblea Legislativa.. Omar conoció a la coordinadora, Claudia Ortiz,  el año pasado durante el desarrollo del fellow.

Una de las colaboraciones más cercanas y estrechas que tuvo durante y después de mi fellowship ha sido con el equipo de la unidad de datos de El Diario de Hoy (EDH). Su editora periodística, Lilian Martínez, y su editora de visualización, Norma Ramírez, contactaron a Omar para que desarrollara capacitaciones constantes en uso de hojas de cálculo y software de visualización. Con EDH también ha creado visualizaciones sobre temas como embarazo adolescente y personas desaparecidas.

Phi Requiem

En 2014, Phi Requiem dedicó su fellowship a la formación de capacidades entre periodistas y activistas centroamericanos. Hoy su vocación de capacitación continúa. Con la iniciativa Hagamos Data (#HagamosData), se encuentra entrenando un más amplio grupo de personas para el uso de datos: por una parte entrena entrenadores, y por otra entrena a público no especializado. Se encuentra en un proceso de acompañamiento con la organización con el National Democratic Institute (NDI) para el uso de datos.

Phi también colaboró con el equipo que desarrolló Ruido CDMX, la plataforma construida con hardware libre y código abierto para la recolección y visualización de ruido en la Ciudad de México. Actualmente se encuentra desarrollando una segunda fase de este proceso, Ruido en las Ciudades, con software y hardware libres de generaciones más eficientes y accesibles que las de la anterior. El objetivo es acercar la creación de estos recolectores de datos a un grupo muy diverso de la población para generar datos abiertos sobre este fenómeno, de amplio impacto ambiental y de salud.

Si quieres saber más del trabajo de Phi Requiem durante su fellowship, da clic aquí

Camila Salazar

Camila desarrolló su fellowship en 2015.  Ella tiene un grado universitario en periodismo y obtuvo un segundo grado en Economía.

Tras el fellowship, Camila se ha desenvuelto como periodista de datos en la Unidad de Datos del Diario La Nación.  Estos son los proyectos en los que participó en el último año:

  • Aplicación para calcular el salario en el sector público, para la que ejecutó una investigación sobre el sistema de remuneraciones en el sector público.
  • Factchecking en vivo del discurso presidencial.
  • También desarrolla multitud de investigaciones, como esta sobre el sector cooperativo en Costa Rica.
Además de ser periodista en campo, Camila comparte su conocimiento a través de la docencia universitaria, talleres y actividades sobre periodismo de datos. El semestre anterior impartió el curso de Periodismo de Datos en la Universidad de Costa Rica.  Es un curso que forma parte del plan de estudios del Bachillerato en Periodismo.

Si quieres saber más sobre la labor de Camila durante su fellowship, da clic aquí.

Raisa Valda

Dedicó su fellowship a generar comunidades de datos abiertos en toda Bolivia, así como a conectar con organizaciones aliadas para su proyecto de datos contra violencia de género Cuántas Más.

  • Fue seleccionada para ser parte de la Escuela de Incidencia de Ciudadano Inteligente (Chile) para trabajar sobre género y tecnologías.
  • También la invitaron, desde la Embajada de Suecia en Bolivia, a participar en Stockholm Internet Forum 2017(SIF17) on Internet Freedom for Global Development en mayo de este año.
  • Fue invitada a dictar un módulo de docencia junto a la Fundación para el Periodismo de La Paz en su Diplomado en periodismo digital, sobre redes sociales y otras tecnologías en el periodismo, en julio de 2017.
  • Participará en el IX Congreso de la AEB – Estudios de Internet y sociedad en Bolivia, con una ponencia sobre datos abiertos y ciudadanía, en julio de este año.

Raisa está dedicada íntegramente a Cuántas Más. A partir de los datos que obtuvieron en 2016 sobre los casos de feminicidio, hallaron dos que llamaron su atención:

1. en el 78% de los casos se trataban de feminicidios íntimos (esposos,concubinos, novios, ex novios, ex esposos, ex concubinos),
2. en el 34% de los casos, las víctimas tenían menos de 20 años de edad.
Por ello, en el primer trimestre de este año, centraron su trabajo de prevención en el abordaje de violencias dentro las relaciones de noviazgo en la adolescencia con una ruta de talleres («No es que me pidas así») piloto por 6 ciudades de Bolivia.
Se trata de talleres piloto para los que Raisa desarrolló una metodología que permite a los adolescentes, entre 15 y 17 años, hablar sobre sus percepciones de violencia y cómo la entiende; y a partir de ello generar mensajes en audiovisual en sus propios códigos lingüísticos (nada solemne, nada políticamente correcto). Este material no se difundirá como una campaña masiva, no es el propósito; sino a través de sus propias redes de manera natural.
Cuántas Más tiene el propósito de centrar su trabajo, para esta gestión, en temas violencia que involucra a jóvenes, sea en las relaciones de noviazgo (basadas en encuestas y estudios realizados por la Coordinadora de la Mujeres) o en su desenvolvimiento en la universidad (basado en un estudio realizado por UNFPA sobre la UMSA).

Ximena Villagrán

Durante y tras su fellowship, Ximena ha sido catedrática titular de Periodismo de Datos en la Universidad del Istmo. Es también consultora para proyectos periodísticos y talleres de periodismo de datos en Honduras, El Salvador y Guatemala para la agencia internacional Internews, con quienes comenzó su colaboración, al igual que Omar, durante el fellowship.

Hoy Ximena está fundando su propia iniciativa de periodismo de datos, El Intercambio, que propone un vínculo íntimo entre crónica y periodismo de datos y busca dotar a los periodistas de un rol más activo en la búsqueda de fondos para el periodismo independiente.

Junto con Omar Luna, desarrolló una extensa currrícula para periodistas de datos en toda Centroamérica. Hoy también es consultora para la nueva unidad de datos del medio guatemalteco Prensa Libre y trabaja en un proyecto de explicación, a través de los datos, con la publicación también guatemalteca Nómada.

Daniel Villatoro

Daniel Villatoro se desempeña hoy como reportero senior en el medio guatemalteco Plaza Pública. Además de escribir crónica y desarrollar investigaciones de datos, tras la fellowship, Daniel incursionó en prácticas artísticas a través de los datos.

Daniel desarrolló una investigación sobre ingresos económicos por hora trabajada y de acuerdo con etnia y género, para concluir rasgos visibles de explotación en las poblaciones femeninas de Guatemala.

Con esta investigación generó mapas y visualizaciones que dieron soporte a una propuesta en acrílico y billetes, para visualizar con elementos cotidianos las opresiones también cotidianas. Su solución formal se expuso durante Nuevas Proporciones.

 «Las gráficas son representaciones, recursos que se manifiestan visualmente para mostra relaciones […] Huyendo de la representación, busco trabajar las gráficas con los objetos mismos en vez de representarlos: algo tan obvio como personificar al dinero con un billete o al tiempo con un reloj», puede leerse en la justificación de su proyecto.

Daniel Villatoro se ocupa, también desde el periodismo, constantemente con temas de opresión de clase y de etnia, sobre el ingreso de grandes capas de la población. Así ha desarrollado investigaciones con mapas y visualizaciones de datos  como esta, que aborda la insuficiencia del salario mínimo, como en muchos otros, en su país.

Sebastián Oliva

Sebastián se interesó por la computación desde una temprana edad. Cursó estudios universitarios en Ingeniería y Física. Sin embargo, mantuvo siempre un profundo interés por las ciencias sociales y la interacción y aplicaciones interdisciplinarias de las ciencias exactas. Sebastián ha trabajado tanto para empresas de tecnología, como para varios proyectos relacionados con tecnología y sociedad, como la creación de software y hardware libre en su natal Guatemala.

Hizo una pasantía en Google, en la división de nube, trabajando con almacenamiento no relacional y adquiriendo conocimientos en Python. Fue parte de los equipos ganadores de DAL 2014 y finalista del Space Apps Challenge 2014. Su interés por Escuela de Datos se dá naturalmente al alinear el impacto social con capacidades técnicas de análisis, extracción, procesamiento y presentación de datos. Entre sus otros intereses se encuentra la fotografía, principalmente​ documental, y los juegos de estrategia y rol.

Cómo entender el presupuesto, caso de éxito de un MOOC en México

- el julio 29, 2017 en Uncategorized

 

Cómo Entender el Presupuesto, el Gasto Público a través de los Datos es un curso masivo en línea ocurrido en México entre marzo y abril de 2017.  Es un ejemplo de la colaboración entre organizaciones civiles como Socialtic e instancias gubernamentales mexicanas como la Secretaría de Hacienda y Crédito Público (SHCP).

En esta entrevista Lorena Rivero, directora del área de monitoreo del desempeño y análisis de la información en la SHCP, relata junto con Sergio Araiza, responsable del área de datos en Socialtic, los logros del curso masivo.

Con apenas tres semanas de registro, reunió a 17 mil 500 estudiantes, de los cuales cerca de la mitad comenzó alguna de las actividades. De estas personas 70 por ciento aprobó el curso, un número inusitado para capacitaciones de esta naturaleza.

La mitad de ellos, además, aprobó con un puntaje mayor a 95. Los estudiantes fueron principalmente servidores públicos (alrededor del 80 por ciento) académicos (12%), integrantes de la iniciativa privada y organizaciones civiles formaron el resto.

A través de este curso y el anterior, uno que SHCP organizó en colaboración con la Universidad Nacional Autónoma de México (UNAM), Rivero ha llegado a la conclusión de que los datos locales son los más relevantes para la comunidad general y, por lo tanto, los más valiosos y los que más apremian cursos como Entender el Presupuesto.

Dada la demanda, se prevé que se abra una nueva edición próximamente.

La locura por la quinta estrella

- el julio 12, 2017 en Uncategorized

Esta colaboración fue enviada a Escuela de Datos por Juan Pane, emprendedor con temas de datos abiertos, investigador  para la Iniciativa Latinoamericana por los Datos Abiertos (ILDA) y la Universidad Nacional de Asunción en Paraguay, consultor en temas de Datos Abiertos y Contrataciones Abiertas para USAID, OEA y el Banco Mundial en Argentina, Honduras, Mexico y Paraguay y apoyo técnico para el Helpdesk de Latinoamérica para el Open Contracting Partnership.

Si tienes comentarios a esta u otras publicaciones, o quieres contribuir con algún texto, no dudes en escribirnos a [email protected]

hjl-links-visualization

http://es.schoolofdata.org/files/2017/07/Screen-Shot-2017-07-11-at-7.05.49-PM.png

Disclaimer: Esta es mi visión personal y muy pragmática, que posiblemente no concuerde con la visión de muchos académicos y puristas de la web semántica, pero bueno, como ya lo mencioné, es una visión pragmática, con la cual quizás haya alguna esperanza de que se pueda implementar lo de las 5 estrellas con recursos limitados.

Muchas personas relacionadas con la movida de los datos abiertos quieren sobresalir y llegar a la quinta estrella del esquema de publicación de datos a 5 estrellas definidas por Sir Tim Berners-Lee. Sin embargo, ¿qué significa exactamente, y más importante aún, qué implica la bendita quinta Estrella?

 

Una versión súper simplista de las 5 estrellas es la siguiente:

1 Estrella: Datos publicados en la web con una licencia abierta.

2 Estrellas: lo anterior y, además, que los datos estén estructurados, o sea, procesables por máquinas.

3 Estrellas: lo anterior y, además, que el formato de los datos estructurado no sea propietario.

4 Estrellas:. lo anterior y, además, una URI que permita que cualquiera pueda pueda hacer referencia a cada una de las entidades (o filas) contenidas en el conjunto de datos que estamos publicando.

5 Estrellas: todo lo anterior, además de reusar información (o datos) publicada en otros conjuntos de datos.

¿Cómo cumplir con las estrellas?, en pasos

Paso 1, la primera estrellita

Un simple .pdf conteniendo los datos del Presupuesto general de la Nación cumple con la primera estrella. Y no me malentiendan, el simple .pdf que yo como usuario puedo mirar es mejor que nada, esta es la belleza de la primera estrella, que se publique algo.

Paso 2, la segunda y tercera estrella

Para la segunda estrella, se deben publicar los datos del contenidos en el simple .pdf, pero en un un archivo en Excel. Es significa que como usuario de los datos no tengo que transcribir 13 páginas de números del presupuesto para comenzar a hacer un análisis de los datos.

 

La  tercera estrella implica que no me tenga que gastar dinero en comprar Microsoft Excel (que es un muy buen programa si quiero gastar en él) para poder trabajar con los datos. En este caso, los datos de la tabla pueden ser publicados en archivos con formato .ODT que se puede abrir con un programa de Hoja de Cálculo como Libre Office u Open Office, o en formato .CSV, que es un formato de tabla en un archivo de texto, que puede ser abierto por cualquier procesador de texto y hoja de cálculo, e inclusive ser importado directamente a bases de datos.

 

En estas dos estrellas nos concentramos en la formalización de la sintaxis, es decir, en cómo dar al computador la capacidad de comprender la estructura de la información. Esto permite que un programador pueda escribir código para “parsear” los datos, o que un analista de datos pueda analizar los datos y extraer información relevante.

 

Como punto adicional que muchas veces olvidamos, es muy importante proveer información contextual que explique qué datos estamos publicando, como por ejemplo, un diccionario de datos para cada conjunto de datos Presupuesto General de la Nación en una página HTML. Esto permite que quien analiza la información pueda comprender el significado de cada una de las variables del conjunto de datos. Si me preguntan a mí, esto debería ser obligatorio para la tercera estrella, pero lastimosamente no lo es estrictamente hablando.

 

Paso 3, la cuarta y quinta estrella

Aquí se complican las cosas y entramos en el mundo de la formalización de la semántica, es decir, en cómo dar al computador la capacidad de comprender el significado de la información (que si me preguntan, no necesariamente equivale a la Web Semántica, pero son primos). Se puede definir la semántica de los datos a dos niveles:

  1. A nivel de estructura de la información, esto es, en lugar de nombrar una columna como “monto_presupuestado” para especificar que la información contenida en la misma se trata del monto aprobado del presupuesto para una institución dada, se utiliza algún formalismo que define qué es un “monto presupuestado”. Los formalismos pueden ir desde diccionarios con formato JSON Schema, Json Table Schema (ejemplo),  hasta ontologías basadas en lógica proposicional y triplas como  .RDF y OWL.
  2. A nivel de valores de la información, esto es, en lugar de decidir el usar una cadena de caracteres con el valor “Ministerio de Hacienda” para especificar que la institución a la que se le está asignando el presupuesto es el Ministerio de Hacienda del Paraguay, se debería utilizar una referencia a la entidad Ministerio de Hacienda creada y mantenida por otro conjunto de datos que mantiene las Instituciones del estado. El problema de definir el valor “Ministerio de Hacienda” como cadena de caracteres radica en que otro publicador de información, por ejemplo, que publica datos de los funcionarios de las instituciones públicas, puede definir el valor de la misma institución no por su nombre, sino por su acrónimo, es decir, “MH”. Claramente quien quiera realizar una integración de los datos de ambos conjuntos de datos va a tener un trabajo muy complejo para saber que “MH” = “Ministerio de Hacienda”.

La cuarta estrella:

En el ejemplo del presupuesto general de la nación, no basta publicar la información, sino que se debe además agregar URIs, o identificadores únicos en internet,  a cada entidad (o fila) del conjunto de datos. Esto permite que cada entidad contenida en el conjunto de datos pueda ser referenciada por otros conjuntos de datos. Como analogía simplista, cada URI funciona como un primary key de una tabla de una base de datos (el conjunto de datos) al cual se puede hacer referencia desde internet (y no solo dentro de mi gestor de base de datos).

 

En mi opinión personal, la URI en el conjunto de datos es una de las cosas más importantes para la cuarta estrella, y yo consideraría que para los fines prácticos alguien que publique un conjunto de datos con un URI, y el mecanismo de resolución de la URI que retorne los datos como HTML/JSON ya cumple con la cuarta estrella (notar que en el esquema de datos a 5 estrellas en la cuarta estrella dice “usa URIs para denotar cosas, así la gente puede apuntar a estas”).

 

Este conjunto de dato de presupuesto general de la nación posee URIs para cada entidad, en este caso, cada línea presupuestaria. Cada URI puede ser vista en una página HTML y también en formato JSON (notar que lo que cambia para cada formato es solamente la extensión de la misma URL).

 

En teoría, estrictamente hablando se podría agregar también semántica a la estructura de la información, esto se podría hacer de distintas maneras:

  • Usando un lenguaje como RDF u OWL para publicar los datos,  utilizando una ontología para definir la estructura de la información,
  • Alternativamente, personalmente prefiero otras tecnologías como jsonLD o microdata o RDF-a para datos en HTML. Usando estas últimas tecnologías se podría convertir los datos automáticamente en RDF y/o OWL, sin tener que aprender a trabajar con estas tecnologías.

 

Esta semántica en la estructura da un valor agregado muy importante a quien sabe utilizar los datos en RDF y OWL. Sin embargo, la curva de aprendizaje y la variedad de herramientas maduras para trabajar con estas tecnologías no se compara con las herramientas para trabajar los datos en bases de datos relacionales o con json.

 

La quinta estrella

Con la quinta estrella se quiere enlazar los datos publicados en un conjunto de datos a otro(s) conjunto(s) de datos para proveer contexto. Usando la analogía de base de datos usada anteriormente, en donde las URIs era los “primary key”, en la quinta estrella se pide que se usen “foreign keys” en internet, esto es, que cada conjunto de datos haga referencia a los datos de entidades publicadas en otros conjuntos de datos.

 

En el ejemplo del presupuesto general de la nación, si existiese un conjunto de datos de Instituciones del Estado que posee URIs para cada institución, entonces desde el conjunto de datos de presupuesto general de la nación se debería referenciar a cada institución de cada línea presupuestaria por su URI de Institución. Esto permite que un usuario de los datos de presupuesto pueda extraer automáticamente más información de la institución referenciada como pueden ser su acrónimo, su dirección, URL de su página web, etc.

 

Otro ejemplo de un conjunto de datos a 5 estrellas podría ser uno de contratos del estado, en donde se puede hacer referencia a las URIs de las líneas presupuestarias del conjunto de datos del presupuesto general de la nación, para definir de dónde se usa el dinero para poder costear cada contrato.

 

Siendo muy pragmáticos, los datos a cinco estrellas podría estar en formato CSV, siempre y cuando se incluyan URIs a otros conjuntos de datos. Con esta simple solución ya es posible automatizar la desreferenciación de las URIs y obtener más información de las entidades siendo referenciadas.

 

Algunas personas (en realidad muchas) opinan que para obtener la quinta estrella se tiene que usar el enfoque de Linked Data, y para ello se debería utilizar algún formato como RDF, OWL u otros formatos como jsonLD, RDFa o Microdata que permita la transformación automática a RDF y/o OWL. Personalmente creo que si bien esto provee muchas funcionalidades extras en el uso y análisis de la información, el esfuerzo y recursos extra necesarios para usar estos formatos más formales es muy grande y en general los proyectos de implementación de datos abiertos no suelen contar con estos recursos extra. Si este es el caso, con pocos recursos, usando el primer enfoque ya enlazamos conjuntos de datos entre sí habilitando la automatización del recorrido entre distintos conjuntos de datos.

Además, si en la cuarta estrella no se había incluido la semántica en la estructura, en la quinta estrella se podría hacerlo.

 

 

 

 

¡Bienvenida a nuestras y nuestros fellows 2017!

- el junio 23, 2017 en Uncategorized

Idriss Kone, Costa de Marfil

Idriss es estadístico y economista en el Ministerio de Presupuesto en Costa de Marfil, donde es responsable de monitorear y evaluar las actividades aduaneras, incluyendo el análisis de estadísticas de comercio exterior y medir el impacto de las reformas arancelarias y los acuerdos comerciales. Además, Idriss tiene experiencia en Educación e Inclusión Financiera, pues  ha trabajado como especialista en el Ministerio de Educación y ha sido investigador principal del proyecto «Mujeres, Prácticas Monetarias e Innovación Tecnológica» en Côte d’Ivoire. Posee un diploma de ingeniería en estadística y econometría de la Escuela Nacional Avanzada de Estadística y Economía Aplicada de Abidján (Costa de Marfil). Se unirá a la clase 2017 para trabajar con la coalición Publiquen lo que Pagan en Costa de Marfil, sobre datos extractivos.

Pascal Elie, Haití

Pascale Elie es licenciada en Matemáticas y Economía por la Universidad de Montreal y se especializa en análisis estadístico y actuarial. Trabajó como estadística y asesora actuarial para varias compañías canadienses y haitianas, particularmente para el Fondo de Seguro de Auto para los Empleados del Estado en Haití. También participó en el lanzamiento de una compañía de seguros, una start-up en Haití, UniAssurance S.A.

Actualmente, es consultora de HaitiPay S.A., donde lidera la empresa al proponer e implementar productos financieros utilizando soluciones estratégicas de pago móvil. Con HaitiPay, también es responsable de la comercialización de un servicio de cartera móvil operado por el Banco Nacional de Crédito, mediante el desarrollo y la implementación de estrategias de distribución y la elaboración líder de nuevos productos y servicios relacionados con la banca móvil. Trabajará para desarrollar la comunidad de alfabetización de datos en Haití como parte del programa Going Global: Empleo Digital y Género.

Lyse Marie-Carlie Ladouceur, Haití

 

Lyse es estudiante de ingeniería en la Ecole Supérieure d’Infotronique d’Haïti (Puerto Príncipe). Ella sirvió como Entrenadora de Entrada de datos y entrenadora de sistemas de información geográfica  para la UNOPS, donde utilizó datos para crear mapas que detallaban las condiciones de la carretera en el sur de Haití después del huracán Matthew. Trabajará para desarrollar la comunidad de alfabetización de datos en Haití como parte del programa Going Global: Empleo Digital y Género.

Yan Naung Oak, Myanmar

Yan es un apasionado de la tecnología cívica, datos abiertos y el poder de las nuevas tecnologías para empoderar a las comunidades y la sociedad civil. Actualmente trabaja en Phandeeyar, un centro de innovación TIC en Yangon, Myanmar, que está liderando el uso de la tecnología para acelerar el cambio y el desarrollo en Myanmar. Él es originario de Myanmar pero estudió y trabajó en Singapur y Estados Unidos de América, antes de regresar a Yangon en 2014. Se unirá a la clase 2017 para trabajar con el Instituto de Gobernanza de Recursos Naturales en el tema de  alfabetización de datos y disponibilidad de datos en el sector de minería de jade.

 

Sebastián Oliva, Guatemala

Sebastián se interesó por la computación desde una temprana edad. Cursó estudios universitarios en Ingeniería y Física. Sin embargo, mantuvo siempre un profundo interés por las ciencias sociales y la interacción y aplicaciones interdisciplinarias de las ciencias exactas. Sebastián ha trabajado tanto para empresas de tecnología, como para varios proyectos relacionados con tecnología y sociedad, como la creación de software y hardware libre en su natal Guatemala.

Hizo una pasantía en Google, en la división de nube, trabajando con almacenamiento no relacional y adquiriendo conocimientos en Python. Fue parte de los equipos ganadores de DAL 2014 y finalista del Space Apps Challenge 2014. Su interés por Escuela de Datos se dá naturalmente al alinear el impacto social con capacidades técnicas de análisis, extracción, procesamiento y presentación de datos. Entre sus otros intereses se encuentra la fotografía, principalmente​ documental, y los juegos de estrategia y rol.

Programa Expertas en Datos

Nuru Magwaza, Tanzania

Nuru es entrenadora de datos e investigadora en Dar es Salaam, Tanzania. Después de graduarse con una licenciatura en informática y gestión de la información, ha trabajado como asistente de investigación y consultora de datos en Tanzania, incluyendo trabajo con el  Open Data Institute. Como entusiasta de los datos, ahora trabaja como compañera de datos en el proyecto Data Zetu de Code for Tanzania, que ayuda a los ciudadanos a resolver sus problemas mediante el uso de datos.

Ella se unirá al programa de expertas en datos de 2017, que trabajará con Tanzania Media Foundation y NRGI para limpiar los datos del sector extractivo de TEITI, desarrollar una currícula de periodismo de datos en datos extractivos y administrar el entrenamiento interno de datos para el personal de TMF.

Ketty Adoch, Uganda

Ketty es un especialista en Sistemas de Información Geográfica (SIG) con sede en Kampala, Uganda. En 2013, inspirada por un post de Twitter sobre una expedición de datos en línea (School of Data MOOC) sobre emisiones globales de carbono, Ketty se unió a Open Knowledge y se inscribió en el curso.  Apasionada por el medio ambiente y sintiendo la necesidad de ampliar su conjunto de habilidades, encontró la metodología de expedición de datos muy útil y la ha utilizado en su entrenamiento en Uganda. Ella se unirá al programa de expertas en datos de 2017 para trabajar con el Centro Africano para la Excelencia de los Medios en el desarrollo de habilidades y herramientas de GIS para periodistas y organizaciones de medios enfocados en el sector extractivo.

Relevancia de datos abiertos: del discurso al impacto

- el mayo 29, 2017 en DAL, Experiencias, Fuentes de datos, Guest posts

Chasm

CC by SA Monyo Kararan

Hay todavía un abismo entre el discurso de datos abiertos y el impacto que esta apertura, publicación, vinculación y otras prácticas tienen en la vida de las poblaciones globales. El puente entre los extremos de ese abismo es la relevancia de los datos, es decir, la capacidad que estos tienen para ser aprovechados efectivamente por las diversas poblaciones globales. Este abismo parece especialmente insondable para poblaciones que son política y socialmente excluidas.

La vinculación de los dos extremos de ese hueco es cada vez de una necesidad mayor, toda vez que organismos, oficiales y autónomos globales, han adoptado en mayor o menor medida dicho discurso de apertura de datos.

Es necesario en este punto, a la vez que admitir los avances, prestar atención a las muchas deficiencias en políticas de apertura en regiones específicas, reconocer que la apertura no es un fin en sí mismo, y que resulta trivial si no viene aparejada de garantías de acceso y uso de los conjuntos de datos. Más aún, resulta indispensable establecer mecanismos concretos y específicos para corregir esta deficiencia.

Para ello deben desarrollarse estándares contextuales, técnicos y de evaluación,  con miras a la inclusión de amplias poblaciones que se beneficien del impacto de las políticas de apertura de datos.

El eje técnico

Dear W3C

CC by NC SA Paul Downey

En un sentido técnico, la relevancia de datos es una métrica de calidad de datos que vincula los sets de datos disponibles con el interés de actores sociales. En este mismo sentido, parte del abismo entre apertura e impacto es irónicamente un vacío de (meta)datos: aquellos que se refieren a las potencialidades de “consumo” de dichos conjuntos de datos.

En una publicación sobre prácticas recomendables para la publicación de datos en la web,  el World Wide Web Consortium (W3C) detalla una serie de criterios para que los conjuntos de datos sean vinculables y aprovechables en máximo grado. Entre estas prácticas, se encuentra el uso de un Vocabulario para el Uso de Conjuntos de datos (DUV, por sus siglas en inglés), para proveer un modo de retroalimentación entre “consumidores” y “publicadores” de datos sobre el uso de los mismos. Por ejemplo, agregando metadatos descriptivos a los conjuntos de datos, tanto sobre la base en sí misma, como de sus posibles usos. De esta manera, se generan metadatos que permiten contrastar el uso sugerido y el reuso dado.

Estas nuevas prácticas se adscriben a los principios FAIR y concuerdan con el espíritu de distribución y acceso universal que originalmente concibió internet.

Phil Archer, una de las diecinueve personas que redactó las recomendaciones, describe el propósito del documento de la siguiente manera:

“Quiero una revolución. No una revolución política, ni ciertamente una revolución violenta, pero una revolución a fin de cuentas. Una revolución de la manera en la que las personas piensan sobre compartir datos en la red”.

El eje contextual

Ayot2inapa

CC by SA Marcos Ge

Para implementar relevancia hace falta una revolución que sí es de índole política: el reconocimiento de necesidades prioritarias en la publicación de conjuntos de datos, con respecto a necesidades de todos los grupos poblacionales, pero con especial atención a datos sobre garantías individuales que son sistemáticamente violentadas por gobiernos y otros actores sociales en distintas latitudes globales.

Por ejemplo, en el contexto mexicano, la Corte Interamericana de Derechos Humanos (CIDH) detalla en uno de sus informes más recientes no sólo algunas de las violaciones sistemáticas de Derechos Humanos: desaparición, desaparición forzada, tortura, ejecuciones extrajudiciales, injusticia; sino también las poblaciones más vulneradas por estas violaciones: mujeres, pueblos indígenas, niñas, niños, adolescentes, defensoras de derechos humanos, personas migrantes, personas lesbianas, gay, bisexuales, trans y otras formas de disentimiento sexual.

En países en que se viven estas condiciones, es indispensable que este contexto de Derechos Humanos sea considerado como un factor determinante para la elaboración de políticas de apertura de datos relevantes. Aparejada a estas políticas, sólo la instrumentación de reglamentaciones y mecanismos concretos de análisis de la demanda de datos puede proveer a estas poblaciones de elementos para su defensa, que convengan efectivamente en la mejora de sus vidas.

Un paso más para asegurar la relevancia de los datos abiertos es la creación de mecanismos específicos que garanticen que poblaciones política y económicamente excluidas tengan acceso a un volumen y calidad de datos suficientes que les permita trabajar para erradicar las prácticas mismas que han promovido su exclusión.

Es decir, debe existir una concordancia entre las políticas de apertura de datos y la agenda pública propuesta por un gobierno abierto para el empoderamiento de la población, agenda que ya de por sí debe incluir a las poblaciones mencionadas.

Para la elaboración de estándares de todo tipo sobre políticas de relevancia de datos deben ser llamadas a participar no solamente especialistas en defensa de derechos, legislaciones nacionales e internacionales y otras disciplinas, sino principalmente representantes de estas poblaciones vulneradas y despojadas de la vida o de factores que permitan una vida digna.

Hoy en día, la generación y publicación de datos con esta perspectiva se está llevando a cabo por organizaciones activistas. En México, por ejemplo, periodistas e investigadores independientes hicieron pública una base de datos sobre personas desaparecidas, y en Bolivia son activistas quienes construyen una base de datos sobre feminicidios; en España periodistas organizaron datos sobre la brecha de clase en el acceso a medicamentos; en Estados Unidos, un profesor universitario creó una base de variables relevantes para la comunidad LGBTTI; y desde el Reino Unido, el medio The Guardian creó una plataforma que muestra el número de personas de raza negra que mueren por causa de disparos de policías.

El eje de evaluación

Derivado del emparejamiento de los nuevos estándares técnicos propuestos por la W3C con las prioridades humanitarias globales, las poblaciones tendrían herramientas para exigir no sólo la calidad de los datos en los términos tradicionales de formatos de apertura, sino también en cuanto a su relevancia.

Por ejemplo, la encuesta global Open Data Survey, de la que proviene el Open Data Index de la organización Open Knowledge International, contiene algunas preguntas sobre la accesibilidad legal y técnica de los conjuntos de datos como una medida de su calidad. El Open Data Barometer, por otra parte, tiene un apartado de impacto social de la apertura de datos. Este año destaca, entre otras cosas, que el impacto en transparencia y rendición de cuentas disminuyó un 22%, mientras que el impacto en emprendimientos se incrementó 15%, lo cual ilustra que ciertos grupos sociales se están beneficiando de la apertura más que otros.

El aprovechamiento de la información es clave para que los conjuntos de datos puedan ser relevantes, no hay relevancia sin aprovechamiento y no hay aprovechamiento sin acceso a la información. En el caso ilustrado por el Open Data Barometer, los conjuntos de datos son relevantes solamente para emprendedores, lo cual implica que no necesariamente son relevantes para cualquier otro grupo poblacional.

No obstante, se necesitan más detalles para la evaluación de la relevancia de los datos a nivel nacional y local. En 2015, el investigador Juan Ortiz Freuler publicó el Estado de la Oferta y la Demanda de Datos Abiertos Gubernamentales tras la implementación de normativas de la defenestrada Alianza por el Gobierno Abierto en México, (de la cual las organizaciones de ese país decidieron salir, precisamente, debido a la evidencia de espionaje en contra de defensores de la salud y otros activistas con software de uso exclusivo gubernamental).

El informe de Freuler mostró, entre otros análisis, que la mayoría de las solicitudes de información (emparentadas con la demanda de datos abiertos) fueron realizadas por personas con grado académico de licenciatura, lo cual implica una profunda brecha de acceso a ellos respecto de poblaciones no profesionalizadas.

En su Uso y Cumplimiento de la Legislación de Acceso a la Información Pública en Brasil, Chile y México , los investigadores Silvana Fumega y Marcos Mendiburu ofrecen también algunos ejemplos de las ventajas de obtener datos sobre la demanda de información pública.

Por ejemplo, en la investigación de Fumega y Mendiburu se detalla que México incorpora dentro de la Ley General de Transparencia y Acceso a la Información Pública (LGTAIP) la obligación del organismo garante de recopilar datos sobre las solicitudes de información pública.

Con esta obligación, tanto el Estado como actores independientes pueden llegar a la conclusión de que en 2013 los institutos de seguridad social nacionales en México y Brasil  y el ministerio de salud en Chile fueron las instancias públicas que más  solicitudes de información recibieron. A partir de esa información es posible tomar medidas para jerarquizar la información de dicha instancia de salud pública.

Simultáneamente, los datos estadísticos sobre las personas que hacen las solicitudes, como su edad, género o escolaridad, abonan a la necesidad de delinear con datos también las políticas públicas de datos abiertos.

Así, la estandarización técnica de ciertas prácticas permitiría obtener y cruzar datos sobre el uso y propósito de los mismos; la priorización contextual permitirá garantizar que poblaciones excluidas y en riesgo puedan beneficiarse tanto como el resto de los grupos sociales; y la evaluación permitirá monitorear el resultado de las prácticas mencionadas. 

En la publicación de las recomendaciones a las que antes aludí, sobre publicación de datos en internet, la W3C proponía generar a través de ellas una revolución exclusivamente tecnológica. No obstante, su articulación con estas otras formulaciones podría provocar una muy necesaria revolución que sí pertenece al orden de lo político: el empoderamiento de las comunidades a través del uso de conjuntos de datos.