Estás navegando por el archivo de big data.

¿Cómo sería una visualización de datos feminista?

- el mayo 11, 2018 en Experiencias, Guest posts

Ante el peligro de que  la visualización de datos se use como una herramienta para la desinformación y la exclusión, Catherine D’Ignazio reflexiona sobre qué podemos aprender del feminismo para hacer mejores representaciones visuales con datos.

Lee el resto de la entrada →

Conversaciones con Watson (cómo funciona IBM’s Watson)

- el diciembre 17, 2014 en Guest posts

La semana pasada tuve la oportunidad de pasar todo un día (bastante intenso por lo demás) en el Centro de Investigación de IBM en Dublin. ¿El invitado principal? Watson. El objetivo del evento era presentar a Watson a un selecto grupo de instituciones universitarias, llamadas «Watson Universities». La primera camada de instituciones fuera de Estados Unidos en comenzar a trabajar con IBM en el desarrollo de aplicaciones que usan a Watson como motor principal.

En este breve post, intentaré resumir lo mejor que pueda mi experiencia conociendo a Watson y principalmente, cómo funciona.

Como han de saber, la computación ha pasado por tres grandes etapas:

  • 1900: tabulación
  • 1950: programación
  • 2011: cognitivo

Watson se mueve en la tercera area y representa los esfuerzos que IBM ha tenido históricamente para ayudar a lograr hitos para la humanidad, tales como el aterrizaje del hombre a la luna (fuertemente apoyado por la ingeniería de IBM), la creación de Deep Blue y más recientemente el desafío de montar una versión previa de Watson la cual gano Jeopardy (he dicho previa por que el Watson que conocimos en Dublin sólo heredo unas pocas lineas de código de su antepasado. Todo el resto es nuevo y ha sido pulido y desarrollado en los últimos años).

 

¿Cómo funciona Watson?

Primero, debemos entrenarlo para que comprenda lenguaje natural. Esto lo lograremos dando el primer paso que consiste en dar mucha información a Watson sobre un tema en particular. Al comienzo, cargarás cientos de documentos específicos (más adelante hablaré sobre esto). Esto es lo que entendemos «por leer». Cuando hemos cargado los documentos, comenzaremos a escribir preguntas usando lenguaje natural.

Ej: Sudamérica -> Colombia -> Medellín -> Transporte publico -> Metroplús
Preguntas para entrenar a Watson: ¿Cuando fue inaugurado el sistema Metroplus? ¿Cual es el presupuesto anual de Metroplus? ¿Cuales son las quejas más comunes de los usuarios? ¿Cual es la tasa de evasión? etc.

En la medida que comienzes a hacer preguntas, Watson responderá:

  1. Te preguntará si la pregunta puede ser mezclada con otra.
  2. Te responderá.
  3. Dirá que no entiende.

Si responde, tu debes aprobar o rechazar la respuesta. De esta manera la máquina comienza a aprender.
Watson responderá con distintos grados de confianza. Algo similar al famoso PageRank de Google, el cual busca validar con citas y fuentes una respuesta.

Por ende, a Watson se le debe alimentar bien.
Piensen en Watson como un niño. Para que crezca bien, debes alimentarlo correctamente. Eso se traduce en un corpus bien armada. La data no debiese pasar los 150 GB (y si, seguimos hablando de Big Data) y debe estar limpia antes de ser cargada.

Hablamos sobre cómo entrenar a Watson.

  • Sé especifico: Sudamérica -> Colombia -> Medellín -> Transporte publico -> Metroplús 
  • Carga data limpia: word, text y html. PDF confunde a Watson. Si cargas html, remueve el header y footer de cada página.
  • No repitas información: Si has cargado un documento sobre el metro de Metroplus, no sumes otro que básicamente habla de lo mismo.
  • Comienza a entrenarlo: Uno de los puntos más fuertes de Watson es sus habilidades para procesar lenguaje natural y entregar respuestas precisas. Ya vimos como hacer eso. Debes invertir el tiempo y los recursos necesarios para alcanzar todo su potencial.
  • Carga documentos que no pesen más de 10 GB.
  • No corras el corpus muchas veces (solo 1 o 2 veces por semana).

Cada vez que cargues nueva información al corpus de Watson, deberás re-entrenarlo. El corpus es una de las partes principales del software.

¿Cómo sé que tengo un buen documento?
No todo es bueno. Presta atención a lo que cargas en Watson. Aliméntale sabiamente.

  • Los títulos son clave.
  • Las «nested tables» no andan bien en Watson.
  • Usa documentos con información organizada («titulo», «texto», «indice», etc).

Una vez que hayas cargado los primeros documentos.
Comienzas a hacer las preguntas, luego empiezas a refinar los queries y ya cuando llegas a un 50% de respuestas acertadas, puedes pasar a SPSS para seguir el entrenamiento.

¿Cómo hace dinero Watson?
A diferencia de Google, IBM no tiene «una máquina para imprimir dinero». Quizás por eso IBM ofrece un sistema especial de revenue para Watson:
La estrategia consiste en tener empresas que desarrollen aplicaciones para cargar en el Market Place de IBM. Estas aplicaciones serán vendidas a otras empresas y las ganancias serán distribuidas entre IBM y el creador de la app. De esa forma, IBM esperá conseguir universidades, empresas y emprendedores que usen a Watson para desarrollar apps altamente especializadas que basen su poderío en cognitive computing.

 ¿Quién ya ha comenzado?
El ecosistema aún es pequeño, pero aquí compilo una lista de startups alrededor del mundo usando Watson.
Cabe destacar que la mayoría de las apps se concentran actualmente en wealth management y healthcare.

  • Chef Watson
  • Red Ant
  • Well Talk
  • Pathway Genomics
  • Genesys
  • Point of care
  • Findability
  • Sell Point
  • Crayon
  • Wayblazer
  • Sofie (life learn)

Durante el día que pasé en Dublín, vimos dos aplicaciones de Watson. Una era para wealth management y la otra era el famoso Chef Watson, una colaboración con Bon Appetite. Debo decir que ambas era poco impresionantes, pero cuando recuerdo que Watson aún no cumple un año, entiendo.

¿Qué pienso?
No puedo evitar comparar a IBM con Google o Apple. Siri, Google voice, Cortana o Echo de Amazon tiene capacidades de comprender lenguaje natural. Por ende ¿dónde está el valor agregado de Watson?

  1. Aprende:
    Watson aprende con el paso del tiempo. Aprenderá de sus errores y hará conexiones que agreguen valor a sus análisis.
  2. Es preciso:
    Google arroja millones de páginas con resultados. Piensa en Watson como un «I’m feeling lucky». Y no sólo eso; Watson no te dará un sitio web, sino que la respuesta precisa (validada con fuentes y hechos).
  3. Funciona con tu información:
    Aquí está e game changer. Si eres una empresa, podrás cargar tus mailings, logs de llamadas, info de Analytics, ventas, transacciones, etc. Todo lo que sea texto, irá aquí (Watson aún no analiza imágenes o video, pero lo hará).
    Actualmente ninguna empresa hace lo que Watson ofrece. Cuando la máquina este propiamente entrenada, elevará los datos a un nivel impensado.

Conclusiones
Watson cumplirá 1 año el 9 de Enero de 2015. Hay tanto por hacer. Sin embargo, cuando te pones a pensar en lo que IBM ha hecho en un año, puedes dimensionar la ambición de este proyecto.
El motor de Watson que vimos es nuevo. Como decía antes, no es el mismo que ganó Jeopardy. Démosle 10 años a este muchacho y veremos su poder.

Para profundizar:
Si te interesa la computación cognitiva, quizás te podría gustar Smart Machines de John E. Kelly III, director de IBM Research, y Steve Hamm, periodista de IBM. El libro muestra que está haciendo IBM en el campo de la computación cognitiva y Big Data y déjame decirte que se ve interesante (¿un ejemplo? Rio de Janeiro tiene su propio OS para administrar mejor la ciudad).

Pienso que las implicancias que estos cambios traerán a la empresa son realmente impredecibles, sin embargo se ven atractivos.
Como siempre, dependerá de nosotros construir la mejor versión del mañana.

 

Aprendiendo a ser alquimistas de datos

- el abril 3, 2014 en Guest posts

La cultura del ciudadano está cambiando  en una sociedad en red  marcada por las TIC y el flujo de información, donde la credibilidad de la misma es un valor básico. El ciudadano “empoderado” del siglo XXI solicita que cualquier información relevante que aportemos a la red deba estar deber estar sustentada en datos, y si no lo hacemos nuestra credibilidad decaerá a la misma velocidad que lo hace la atención que nos presta el usuario final de esta información.

Y aquí es donde los datos masivos o también llamados Big Data juegan un rol importante como bien indican Kenneth Cukier y Viktor Mayer-Schönberger en el libro ‘Big data. La revolución de los datos masivos’. Estos están presentes cada vez más en nuestras vidas, vivimos en un mundo rodeado de datos y estadísticas, que conviven en nuestra ingesta diaria de información  y sin embargo apenas nos damos cuenta de sus aplicaciones. Al navegar por cualquiera de la redes sociales mas comunes , Facebook , Twitter, Linkedin… cualquier artículo te lleva a un gráfico con una estadística o gráfica, ( ya sea esta dinámica o estática)   o a un video gráfico con grandes cantidades de datos explicados de forma narrativa como el ejemplo que podemos ver en este post. El resultado os parece reamente atractivo, pero no somos realmente conscientes de que  la captura , gestión y visualización de los datos se esta convirtiendo en una poderosa herramienta necesaria en todos los frentes del mundo de la comunicación.

Carpe datumY no sólo se trata de aprender a manejar diversas herramientas digitales para producir por ejemplo las tan manidas y abundantes infografías  (en que las que la mayoría adolecen de repetición y la mala presentación de los conceptos y poco valor de contenido) sino  mas bien  de aprender las competencias básicas de gestionar  flujo de datos diario y mediante ellos  actualizar nuestro conocimiento de forma eficiente. Esto es lo facilitan los cursos de la escuela de datos 

Además ahora los datos y su análisis ya no son exclusivos de las grandes compañías tecnológicas como Google o Facebook ya que prácticamente todo tipo de empresa grande o pequeña necesita el análisis de datos para convencer al ciudadano y mejorar el rendimiento de sus negocios. Si a esto le añadimos que en paralelo la administración pública  los esta empezando a liberar sets de datos públicos también llamados Open Data, vemos claramente que el espectro de trabajo con los datos esperanzador.

Se trata pues de capacitarnos para ir mas allá de las cifras , es decir convertir  los números en producto consumible que nos ofrezca valor, que sea novedoso y  relevante. En una sociedad sin tiempo, es imprescindible el resumen de conceptos y ofrecer una alternativa visual.Crear una buena  visualización de datos es un trabajo de investigación que debe comenzar por formularse preguntas, identificar y adquirir estos datos necesarios para responderla, identificar y obtener los relevantes  y finalmente transformarlos en un producto visual, donde el diseño de la información manifieste un conocimiento relevante.

Vemos pues que el valor de la información no reside en los datos concretos, sino en la forma de correlacionarlos para descubrir patrones y tendencias  que ni siquiera se hubiéramos imaginado  ni buscado de forma intencionada, y con ello generar una nueva visión y un nuevo conocimiento Cuando empezamos  a conocer cómo funciona, qué posibilidades se abren, es fascinante. Si somos capaces de hacernos las preguntas concretas y jugamos al ser “alquimistas de los datos”  podremos generar no solo valor y conocimiento para la toma decisiones , sino también nuevo conocimiento  lo que podría suponer un cambio de enfoque en la forma de ver el mundo.