big data – Escuela De Datos http://es.schoolofdata.org evidencia es poder Fri, 11 May 2018 16:06:00 +0000 es hourly 1 https://wordpress.org/?v=5.3.2 114974193 ¿Cómo sería una visualización de datos feminista? http://es.schoolofdata.org/2018/05/11/como-seria-una-visualizacion-de-datos-feminista/ http://es.schoolofdata.org/2018/05/11/como-seria-una-visualizacion-de-datos-feminista/#respond Fri, 11 May 2018 16:04:41 +0000 http://es.schoolofdata.org/?p=2513 Ante el peligro de que  la visualización de datos se use como una herramienta para la desinformación y la exclusión, Catherine D’Ignazio reflexiona sobre qué podemos aprender del feminismo para hacer mejores representaciones visuales con datos.

Mientras las visualizaciones de datos se vuelven más populares y se van creando nuevas herramientas para crearlas, menos personas están pensando de manera crítica acerca de la política y la ética de las dinámicas de representación. Esto, combinado a un público general asustado por los datos y las gráficas, conlleva que las visualizaciones de datos ejerzan una gran cantidad de poder retórico. A pesar de que de manera racional sabemos que las visualizaciones de datos no representan “el universo completo”, nos olvidamos de ello y aceptamos cualquier gráfico como un hecho porque es generalizado, científico y parece presentar un punto de vista experto y neutral.

¿Cuál es el problema de esto? La teoría feminista nos diría que el problema es que todo conocimiento es situado socialmente, y que las perspectivas de los grupos oprimidos, incluyendo a las mujeres, a las minorías y a otros grupos son excluidas sistemáticamente del conocimiento “general”.

La corriente de la cartografía crítica nos diría que los mapas son espacios de poder y que producen mundos que están íntimamente ligados a ese poder. Como Denis Wood y John Krygier explican, la elección sobre qué poner en un mapa “…trae a la superficie el problema del conocimiento, de una manera ineludible así como pasa con el simbolismo, la generalización y la clasificación”. Hasta que reconozcamos ese poder de inclusión y exclusión, y desarrollemos un lenguaje visual para ello, debemos reconocer que la visualización de datos puede ser otra herramienta poderosa y defectuosa para la opresión.

¿Puedo decir esto más claro? Donna Haraway —en su influyente ensayo sobre Conocimientos situados— ofrece una brillante crítica no sólo a la representación visual, sino al privilegio extremo y perverso de los ojos sobre los cuerpos que han dominado el pensamiento occidental. Es evidente al leer esta cita en voz alta, que funciona también como una pieza de performance:

Los ojos han sido utilizados para significar una perversa capacidad, refinada hasta la perfección en la historia de la ciencia —relacionada con el militarismo, el capitalismo, el colonialismo y la supremacía masculina— para distanciar al sujeto conocedor de todos y de todo, en interés del poder sin trabas. Los instrumentos de visualización… han compuesto estos significados de descorporalización.  Las tecnologías de visualización parecen no tener límites… La vista en esta fiesta tecnológica se ha convertido en glotonería incontenible. .. Y como truco divino, este ojo viola al mundo para egendrar monstruos tecnológicos.

— Donna Haraway en “Conocimientos situados: La cuestión científica en el feminismo y el privilegio de la perspectiva parcial” (1995)

Ver el mundo por completo es una fantasía que Michel DeCerteau llama “el ojo totalizante” y a la que Donna Haraway llamó “el truco divino”. ¿Acaso no es ésta la premisa retórica y promesa seductora de la visualización de datos? ¿Ver desde la perspectiva de ninguna persona o cuerpo? Nuestro apetito por dichas perspectivas es feroz y glotón, como dice Haraway.

Existen maneras de representar el mundo de una manera más responsable. Existen maneras de “situar” la visualización de datos y localizarla en cuerpos y geografías concretas. Los cartógrafos críticos, los indígenas mapeadores y otras comunidades han experimentado por años con estos métodos y podemos aprender de ellos.

 

Tip 1  Inventa formas de representar los datos faltantes, la incertidumbre y los métodos que fallan.

Mientras que las visualizaciones —sobre todo las populares y públicas— son una gran manera de presentar mundos completamente contenidos, no son tan buenas para presentar sus limitaciones.¿Cuáles son los lugares que la visualización no incluye o a los que no pudo llegar? ¿Podemos incluirlos en la visualización?  ¿Cómo presentamos los datos que nos hacen falta? Andy Kirk tiene una muy buena charla sobre el diseño de la nada, en la cual explica cómo los diseñadores toman decisiones a la hora de representar la incertidumbre, incluir valores ceros, nulos y en blanco. ¿Podemos empujar a qué más diseñadores tomen estos métodos en consideración? ¿Podemos pedir que nuestros conjuntos de datos señalen también aquello que dejaron fuera?

Mapa para no indicar, 1967 por el colectivo de artistas Art&Language. El mapa enseña solo a Iowa y Kentucky y luego procede a listar todo aquello que no está representado en él. Forma parte de la Tate Collection.

Más allá de escribir “datos no disponibles”, ¿Cómo profundizamos en la procedencia de los datos como un nuevo campo de la visualización, similar al trabajo de verificación de datos? ¿Podemos recolectar y representar los datos que no se han recopilado antes?  ¿Podemos encontrar a la población que fue excluida de la recolección de datos? ¿Podemos localizar las fallas en el instrumento de recolección de datos que todos asumían que funcionaba a la perfección? ¿Podemos examinar críticamente los métodos de un estudio en lugar de aceptar que el CSV, JSON ola API están como están y ya? Todas estas parecen tareas que van más allá del trabajo del visualizador de datos. Alguien más antes de ellos en el proceso de datos, el DataPipeline, debería hacer ese trabajo de investigación nada sexy de la antropología de datos. Pero si los visualizadores no asumen esta responsabilidad ¿Quién la asume?

Tip 2 Haz referencia a la ‘economía de los materiales’ detrás de los datos

Aparte de la procedencia de los datos, también necesitamos preguntar sobre la economía de los materiales detrás de este proceso de recolección de datos ¿Cuáles eran las condiciones que hicieron una visualización de datos posible? ¿Quién pagó por esta visualización? ¿Quién recolectó los datos? ¿Cuál es el trabajo detrás de escenas y bajo qué condiciones se produjo esta visualización?

Por ejemplo, en el Laboratorio Público de Tecnología y Ciencia Abierta tenemos esta técnica de mapeo en la que cuelgas una cámara a un barrilete o globo para obtener imágenes espaciales. Uno de los efectos secundarios de este método que algunas comunidades han adoptado es que la cámara también captura la imagen de las personas que participan en el mapeo. Estos son los cuerpos de los recolectores de datos, frecuentemente ausentes de las representaciones finales.

Foto tomada de un artículo de Eymund Diegal del Laboratorio Público sobre mapeo de aguas residuales en el Canal Gowanus. Noten a las personas en botes haciendo el mapeo y el cordón del globo que une la cámara y la imagen de regreso a quienes recolectan los datos.

Comúnmente, las visualizaciones de datos citan a las fuentes en una pequeña leyenda, pero se podría hacer más. ¿Qué tal si problematizamos visualmente la procedencia de los datos? ¿Los intereses detrás de la producción de un conjunto de datos particular? ¿Los tomadores de decisiones de estos datos? Un archivo CSV usualmente no tiene referencia a ninguno de estos elementos materiales más humanos que también son esenciales para que entendamos el dónde, por qué y cómo de los datos.

Tal vez una manera de resolver este problema sería tener metadatos mucho más robustos y de manera intencional priorizar el despliegue visual de esos metadatos. La meta de dicha visualización sería mostrar no sólo lo que los datos “dicen” sino cómo los datos se conectan con personas, sistemas y estructuras de poder y producción en el mundo más amplio.

Tip 3 Haz que la disidencia sea posible

A pesar de que hay suficientes visualizaciones de datos “interactivas”, lo que en realidad significa interactividad es la capacidad de seleccionar algunos filtros y mover algunas barras o sliders para ver cómo la imagen se adapta y cambia. Estos pueden ser métodos poderosos para moverse dentro de un mundo contenido y restringido de imágenes y hechos estables. Pero como sabemos por ejemplos como las guerras de edición en Wikipedia, o las controversias de GoogleMaps, el mundo no está encuadrado de una manera tan conveniente en la que los “hechos” no se disputan o son siempre lo que parecen ser.

Una manera de resituar la visualización de datos es desestabilizarla al hacer posible el disenso.  ¿Como podemos idear formas en las que una audiencia pueda “responderle”a los datos?… ¿Para cuestionar los hechos que presenta? ¿Para presentar visiones y realidades alternativas? ¿Para combatir y socavar principios básicos de la existencia y recolección de esos datos?

¿Cómo hacer esto? A pesar de que la mayoría de personas que trabajan con datos son hombres blancos, podría ser tan simple como incluir a personas de diferentes contextos, con diferentes perspectivas, en la producción de la visualización.  Por ejemplo, el Insituto de Expediciones Geográficas de Detroit era un proyecto realizado en conjunto entre geógrafos académicos (liderados por hombres blancos privilegiados) y la juventud de diferentes sectores de la ciudad (liderados por Gwendolyn Warren, un activista negro de 19 años) a finales de 1960.

Tomado de  Notas de Campo III: Geografía de los niños de Detroit. por el Instrituto de Expediciones Geográficas, 1971. Warren y sus colegas usaban este mapa y los reportes generales para argumentar a favor de un programa de “planificación de negros”, que empoderaba a los ciudadanos de color para tomar decisiones sobre sus comunidades.

Para su tiempo, este mapa era avanzado tecnológicamente y un poco convencional (a nuestros ojos) en su uso de estrategias visuales. Lo que le da a este mapa disidencia es el titulo, formulado por la juventud negra haciendo el mapeo: “Donde los automovilistas atropellan a niños negros”; este no es un título neutral. El mapa pudo haberse llamado “Donde pasan los accidentes en el centro de Detroit” (y de esta manera, habría sido si la ciudad hubiera contratado a un consultor en cartografía para mapear esos mismos datos), pero desde el punto de vista de las familias negras cuyos hijos habían sido atropellados, era significativo que los niños eran negros, los automovilistas en su mayoría blancos y que los eventos se describían como “muertes” en vez de “accidentes”.

Uno puede construir disenso en el proceso de visualizar si incluye voces diversas en la creación, pero ¿Y en el producto final?

El proyecto ToxicSites.us crea un reporte sobre cada lugar contaminado en Estados Unidos e invita a que diferentes colaboradores añadan historias locales, imágenes y videos que documentan el sitio (y posiblemente contradigan los datos oficiales). El sitio también permite que campañas de activismo y programas ecológicos se organicen para limpiar estos lugares. Esta es una manera de “responder” a los datos, así como de pasar la conversación pública sobre lo que los datos dicen a la acción.

El sitio ToxicSites.us  presenta mapas, visualizaciones de datos e historias sobre los proyectos del programa Superfund, responsable por limpiar los lugares más contaminados de Estados Unidos. El proyecto busca responder a emergencias ambientales, fugas de petróleo y desastres naturales.   

Una visualización a menudo se produce con un enfoque desde arriba: un diseñador experto o un equipo con conocimientos especializados encuentra algunos datos, hace algo de su magia y presenta al mundo un artefacto con algunas maneras altamente recomendadas para verlo.

¿Podemos imaginar una forma alternativa de incluir más voces en la conversación? ¿Podríamos realizar la visualización de forma colectiva, inclusiva, con disidencia y contestación, a escala?

¿Qué más?

Estas son solo tres sugerencias de diseño que apuntan hacia la ética feminista y la conciencia sobre las políticas detrás de la visualización de datos. Me gustaría escuchar sobre otros aspectos de la visualización de datos que podamos repensar para hacerla más situada, más feminista, y sobretodo, más responsable. Haz tus comentarios o escríbeme en Twitter a @kanarinka para continuar la conversación.

Flattr this!

]]>
http://es.schoolofdata.org/2018/05/11/como-seria-una-visualizacion-de-datos-feminista/feed/ 0 2513
Conversaciones con Watson (cómo funciona IBM’s Watson) http://es.schoolofdata.org/2014/12/17/conversaciones-con-watson-como-funciona-ibms-watson/ http://es.schoolofdata.org/2014/12/17/conversaciones-con-watson-como-funciona-ibms-watson/#comments Wed, 17 Dec 2014 01:44:58 +0000 http://es.schoolofdata.scoda.okfn.org/?p=1046

La semana pasada tuve la oportunidad de pasar todo un día (bastante intenso por lo demás) en el Centro de Investigación de IBM en Dublin. ¿El invitado principal? Watson. El objetivo del evento era presentar a Watson a un selecto grupo de instituciones universitarias, llamadas «Watson Universities». La primera camada de instituciones fuera de Estados Unidos en comenzar a trabajar con IBM en el desarrollo de aplicaciones que usan a Watson como motor principal.

En este breve post, intentaré resumir lo mejor que pueda mi experiencia conociendo a Watson y principalmente, cómo funciona.

Como han de saber, la computación ha pasado por tres grandes etapas:

  • 1900: tabulación
  • 1950: programación
  • 2011: cognitivo

Watson se mueve en la tercera area y representa los esfuerzos que IBM ha tenido históricamente para ayudar a lograr hitos para la humanidad, tales como el aterrizaje del hombre a la luna (fuertemente apoyado por la ingeniería de IBM), la creación de Deep Blue y más recientemente el desafío de montar una versión previa de Watson la cual gano Jeopardy (he dicho previa por que el Watson que conocimos en Dublin sólo heredo unas pocas lineas de código de su antepasado. Todo el resto es nuevo y ha sido pulido y desarrollado en los últimos años).

 

¿Cómo funciona Watson?

Primero, debemos entrenarlo para que comprenda lenguaje natural. Esto lo lograremos dando el primer paso que consiste en dar mucha información a Watson sobre un tema en particular. Al comienzo, cargarás cientos de documentos específicos (más adelante hablaré sobre esto). Esto es lo que entendemos «por leer». Cuando hemos cargado los documentos, comenzaremos a escribir preguntas usando lenguaje natural.

Ej: Sudamérica -> Colombia -> Medellín -> Transporte publico -> Metroplús
Preguntas para entrenar a Watson: ¿Cuando fue inaugurado el sistema Metroplus? ¿Cual es el presupuesto anual de Metroplus? ¿Cuales son las quejas más comunes de los usuarios? ¿Cual es la tasa de evasión? etc.

En la medida que comienzes a hacer preguntas, Watson responderá:

  1. Te preguntará si la pregunta puede ser mezclada con otra.
  2. Te responderá.
  3. Dirá que no entiende.

Si responde, tu debes aprobar o rechazar la respuesta. De esta manera la máquina comienza a aprender.
Watson responderá con distintos grados de confianza. Algo similar al famoso PageRank de Google, el cual busca validar con citas y fuentes una respuesta.

Por ende, a Watson se le debe alimentar bien.
Piensen en Watson como un niño. Para que crezca bien, debes alimentarlo correctamente. Eso se traduce en un corpus bien armada. La data no debiese pasar los 150 GB (y si, seguimos hablando de Big Data) y debe estar limpia antes de ser cargada.

Hablamos sobre cómo entrenar a Watson.

  • Sé especifico: Sudamérica -> Colombia -> Medellín -> Transporte publico -> Metroplús 
  • Carga data limpia: word, text y html. PDF confunde a Watson. Si cargas html, remueve el header y footer de cada página.
  • No repitas información: Si has cargado un documento sobre el metro de Metroplus, no sumes otro que básicamente habla de lo mismo.
  • Comienza a entrenarlo: Uno de los puntos más fuertes de Watson es sus habilidades para procesar lenguaje natural y entregar respuestas precisas. Ya vimos como hacer eso. Debes invertir el tiempo y los recursos necesarios para alcanzar todo su potencial.
  • Carga documentos que no pesen más de 10 GB.
  • No corras el corpus muchas veces (solo 1 o 2 veces por semana).

Cada vez que cargues nueva información al corpus de Watson, deberás re-entrenarlo. El corpus es una de las partes principales del software.

¿Cómo sé que tengo un buen documento?
No todo es bueno. Presta atención a lo que cargas en Watson. Aliméntale sabiamente.

  • Los títulos son clave.
  • Las «nested tables» no andan bien en Watson.
  • Usa documentos con información organizada («titulo», «texto», «indice», etc).

Una vez que hayas cargado los primeros documentos.
Comienzas a hacer las preguntas, luego empiezas a refinar los queries y ya cuando llegas a un 50% de respuestas acertadas, puedes pasar a SPSS para seguir el entrenamiento.

¿Cómo hace dinero Watson?
A diferencia de Google, IBM no tiene «una máquina para imprimir dinero». Quizás por eso IBM ofrece un sistema especial de revenue para Watson:
La estrategia consiste en tener empresas que desarrollen aplicaciones para cargar en el Market Place de IBM. Estas aplicaciones serán vendidas a otras empresas y las ganancias serán distribuidas entre IBM y el creador de la app. De esa forma, IBM esperá conseguir universidades, empresas y emprendedores que usen a Watson para desarrollar apps altamente especializadas que basen su poderío en cognitive computing.

 ¿Quién ya ha comenzado?
El ecosistema aún es pequeño, pero aquí compilo una lista de startups alrededor del mundo usando Watson.
Cabe destacar que la mayoría de las apps se concentran actualmente en wealth management y healthcare.

  • Chef Watson
  • Red Ant
  • Well Talk
  • Pathway Genomics
  • Genesys
  • Point of care
  • Findability
  • Sell Point
  • Crayon
  • Wayblazer
  • Sofie (life learn)

Durante el día que pasé en Dublín, vimos dos aplicaciones de Watson. Una era para wealth management y la otra era el famoso Chef Watson, una colaboración con Bon Appetite. Debo decir que ambas era poco impresionantes, pero cuando recuerdo que Watson aún no cumple un año, entiendo.

¿Qué pienso?
No puedo evitar comparar a IBM con Google o Apple. Siri, Google voice, Cortana o Echo de Amazon tiene capacidades de comprender lenguaje natural. Por ende ¿dónde está el valor agregado de Watson?

  1. Aprende:
    Watson aprende con el paso del tiempo. Aprenderá de sus errores y hará conexiones que agreguen valor a sus análisis.
  2. Es preciso:
    Google arroja millones de páginas con resultados. Piensa en Watson como un «I’m feeling lucky». Y no sólo eso; Watson no te dará un sitio web, sino que la respuesta precisa (validada con fuentes y hechos).
  3. Funciona con tu información:
    Aquí está e game changer. Si eres una empresa, podrás cargar tus mailings, logs de llamadas, info de Analytics, ventas, transacciones, etc. Todo lo que sea texto, irá aquí (Watson aún no analiza imágenes o video, pero lo hará).
    Actualmente ninguna empresa hace lo que Watson ofrece. Cuando la máquina este propiamente entrenada, elevará los datos a un nivel impensado.

Conclusiones
Watson cumplirá 1 año el 9 de Enero de 2015. Hay tanto por hacer. Sin embargo, cuando te pones a pensar en lo que IBM ha hecho en un año, puedes dimensionar la ambición de este proyecto.
El motor de Watson que vimos es nuevo. Como decía antes, no es el mismo que ganó Jeopardy. Démosle 10 años a este muchacho y veremos su poder.

Para profundizar:
Si te interesa la computación cognitiva, quizás te podría gustar Smart Machines de John E. Kelly III, director de IBM Research, y Steve Hamm, periodista de IBM. El libro muestra que está haciendo IBM en el campo de la computación cognitiva y Big Data y déjame decirte que se ve interesante (¿un ejemplo? Rio de Janeiro tiene su propio OS para administrar mejor la ciudad).

Pienso que las implicancias que estos cambios traerán a la empresa son realmente impredecibles, sin embargo se ven atractivos.
Como siempre, dependerá de nosotros construir la mejor versión del mañana.

 

Flattr this!

]]>
http://es.schoolofdata.org/2014/12/17/conversaciones-con-watson-como-funciona-ibms-watson/feed/ 2 1046
Aprendiendo a ser alquimistas de datos http://es.schoolofdata.org/2014/04/03/alquimistasdedatos/ http://es.schoolofdata.org/2014/04/03/alquimistasdedatos/#comments Thu, 03 Apr 2014 23:02:00 +0000 http://es.schoolofdata.okfn.org/?p=812 La cultura del ciudadano está cambiando  en una sociedad en red  marcada por las TIC y el flujo de información, donde la credibilidad de la misma es un valor básico. El ciudadano “empoderado” del siglo XXI solicita que cualquier información relevante que aportemos a la red deba estar deber estar sustentada en datos, y si no lo hacemos nuestra credibilidad decaerá a la misma velocidad que lo hace la atención que nos presta el usuario final de esta información.

Y aquí es donde los datos masivos o también llamados Big Data juegan un rol importante como bien indican Kenneth Cukier y Viktor Mayer-Schönberger en el libro ‘Big data. La revolución de los datos masivos’. Estos están presentes cada vez más en nuestras vidas, vivimos en un mundo rodeado de datos y estadísticas, que conviven en nuestra ingesta diaria de información  y sin embargo apenas nos damos cuenta de sus aplicaciones. Al navegar por cualquiera de la redes sociales mas comunes , Facebook , Twitter, Linkedin… cualquier artículo te lleva a un gráfico con una estadística o gráfica, ( ya sea esta dinámica o estática)   o a un video gráfico con grandes cantidades de datos explicados de forma narrativa como el ejemplo que podemos ver en este post. El resultado os parece reamente atractivo, pero no somos realmente conscientes de que  la captura , gestión y visualización de los datos se esta convirtiendo en una poderosa herramienta necesaria en todos los frentes del mundo de la comunicación.

Carpe datumY no sólo se trata de aprender a manejar diversas herramientas digitales para producir por ejemplo las tan manidas y abundantes infografías  (en que las que la mayoría adolecen de repetición y la mala presentación de los conceptos y poco valor de contenido) sino  mas bien  de aprender las competencias básicas de gestionar  flujo de datos diario y mediante ellos  actualizar nuestro conocimiento de forma eficiente. Esto es lo facilitan los cursos de la escuela de datos 

Además ahora los datos y su análisis ya no son exclusivos de las grandes compañías tecnológicas como Google o Facebook ya que prácticamente todo tipo de empresa grande o pequeña necesita el análisis de datos para convencer al ciudadano y mejorar el rendimiento de sus negocios. Si a esto le añadimos que en paralelo la administración pública  los esta empezando a liberar sets de datos públicos también llamados Open Data, vemos claramente que el espectro de trabajo con los datos esperanzador.

Se trata pues de capacitarnos para ir mas allá de las cifras , es decir convertir  los números en producto consumible que nos ofrezca valor, que sea novedoso y  relevante. En una sociedad sin tiempo, es imprescindible el resumen de conceptos y ofrecer una alternativa visual.Crear una buena  visualización de datos es un trabajo de investigación que debe comenzar por formularse preguntas, identificar y adquirir estos datos necesarios para responderla, identificar y obtener los relevantes  y finalmente transformarlos en un producto visual, donde el diseño de la información manifieste un conocimiento relevante.

Vemos pues que el valor de la información no reside en los datos concretos, sino en la forma de correlacionarlos para descubrir patrones y tendencias  que ni siquiera se hubiéramos imaginado  ni buscado de forma intencionada, y con ello generar una nueva visión y un nuevo conocimiento Cuando empezamos  a conocer cómo funciona, qué posibilidades se abren, es fascinante. Si somos capaces de hacernos las preguntas concretas y jugamos al ser “alquimistas de los datos”  podremos generar no solo valor y conocimiento para la toma decisiones , sino también nuevo conocimiento  lo que podría suponer un cambio de enfoque en la forma de ver el mundo.

Flattr this!

]]>
http://es.schoolofdata.org/2014/04/03/alquimistasdedatos/feed/ 1 812