Muchas gracias a quienes siguen enviando contenidos y formando parte de la comunidad de Escuela de Datos.
Recuerda que tú también puedes publicar contenidos tutoriales o sobre experiencias de datos. Sólo escribe a [email protected], o al autor de este texto describiendo tu propuesta
]]>En la redacción con la que está colaborando casi le piden que la envíe a impresión, “está lista” para publicarse, cuenta Irving en entrevista. Pero se niega, la gráfica es para él, para que detecte patrones anómalos y posibles puntos de atención en el comportamiento de los datos. La prisa, que domina la mayoría de las redacciones, es el mayor enemigo de un verdadero análisis de datos.
Un investigador, científico, periodista o incluso diseñador que grafique pensando ya en publicar comete uno de los mayores y más comunes errores en el análisis de datos. En eso insistió esta semana Marco Hernández, de La Nación Data Costa Rica durante su webinar de #DatosExtremos. La frecuencia con que la que este y otros errores ocurren puede deberse, como insiste su colega, la periodista Camila Salazar, a la falta de capacitación en análisis de datos en las universidades que forman periodistas.
Pero en un espejo de esta deficiencia en la ciencia, o al menos en la academia mexicana hiperespecializada en física, los científicos que analizan datos no tienen ni incentivos ni herramientas ni un camino hecho para poner sus análisis al servicio de organizaciones para la resolución de problemas sociales.
El doctor en física y consultor en análisis de datos Irving Morales confiesa, por ejempo, que comenzó su carrera de sesudos y clavados análisis de datos para finalmente publicarlos… en PDF.
Por eso Irving, en vista de que la academia científica no necesariamente está interesada en salir de su propio túnel de saber, decidió aliarse con Emmanuel Landa y Oliver Morales y hacer su propio camino de análisis científico y social de datos. Le llamaron Morlan.
Acá, en entrevista, detalla sus andanzas en ese camino.
Una manera de entenderlo es como una caja de herramientas que se aplica a todas mis bases de datos: saco el promedio, la varianza, gráficas de barras… Desde mi punto de vista eso no es lo mejor, se aplica el formulazo, sin entender por qué.
Creo que el análisis de datos debe ser un proceso artesanal donde lo que hago es buscar patrones en los datos. Algunos periodistas muchas veces están muy entrenados para buscar historias y eso es lo que hacen: agarran los datos, los grafican de mil maneras posibles y empiezan a buscar sus historias.
A veces se trata de sacar un patrón relevante para la nota. Otras el punto es notar cosas raras que hacen los datos (datos fuera del patrón usual), lo relevante es preguntarse por qué mis datos se comportan así.
Yo trabajé mucho tiempo con la física y analizando datos para la física. Buscar patrones tiene que ser un proceso que tiene una gran carga visual. En la academia no lo entienden, pero la parte visual te ayuda un montón.
Esencialmente lo puedes hacer en cualquier paquete que tenga un poco de matemática. Yo uso un paquete que se llama así, Matemática, aunque también se puede usar Stata, R, sps.
Empezamos a trabajar con otros datos, más académicos, de biología, por ejemplo, y poco a poco nos dimos cuenta de que estos no eran los datos que nos interesaban.
Nos preguntábamos porqué los científicos no atacan problemas que le interesen más a la gente, como la pobreza, el agua, el hambre.
Empezamos a bajar datos y ver cuáles eran las problemáticas en esas áreas. Con el tiempo notamos que sí podíamos hacer algunas cosas pero el camino académico no era lo mejor.
Físicos hablando de ciencias sociales no es algo que se vea bien en la academia.
Al pincipio Morlan funcionó sólo como una empresa de consultoría. Nos empezamos a dar cuenta de que no sólo es importnate la parte de las matemáticas sino también la del diseño.
Presentar en PDF era algo que hacíamos y se nos volvió completamente aburrido. Como físicos también estábamos acostumbrados a ver los datos sólo como números, teníamos 3 años haciendo pura física.
Nos dimos cuenta de que necesitábamos también la parte del contenido social. Nos reunimos con gente que estaba más metida en esto: periodistas, sociólogos, gente que nos aterrizara y nos bajara a la parte social. Así fue surgiendo Morlan. La idea de estos tres ejes fue cómo construir un producto que no tenía nadie. Había gente que estaba haciendo consultoría pero la parte del diseño y del contexto la dejaban fuera.
Había gente que hacía productos muy buenos de periodismo de datos o visualización de datos pero que no tenía nada de buen análisis o contexto social. Gente que escribía ensayos pero no tenía nada de visualización o análisis matemático.
Decidimos reunir las tres cosas. y nos ha funcionando muy bien.
Nos preguntan mucho quiénes son nuestros clientes. Recientemente hemos trabajado con medios, con Milenio Data Lab y con El Universal. Pero nuestra principal fuentes de ingresos tiene que ver con gente del gobierno y consultorías.
Por ejemplo, estuvimos muy metidos analizando las bases de datos de desaparecidos. Al principio salió simplemente como un tuit que pusimos y empezamos a hacer otros productos que tenían que ver con bases de datos de desaparecidos. Poco a poco lo empezamos a vender a gente de los medios y a partir de ahí surgió el proyecto de desaparecidos de El Universal. Empezó con jalar una base y ver qué se puede hacer.
Pero todavía nos movemos mucho más en el análisis de datos más fuerte y más pesado.
Trabajamos, por ejemplo, con el gobierno de Aguascalientes, el análisis de la redistritación electoral, que ahorita está vigente en Ags., es un problema de minimización de datos, que involucra matemáticas más especializadas. Hemos trabajado con algunos partidos políticos haciendo análisis sociodemográfico y electoral.
La mayoría de las cosas que vendemos, por lo mismo de que las vendimos, no las podemos poner en la página. Es trabajo con ONGs y decimos que analizar estos datos estaría bien y lo montamos.
En este tipo de trabajo nos acercamos a las ONGs por el contenido social que nos interesa promover. En algunos casos, como nuestro trabajo con el Instituto para las Mujeres en la Migración (IMUMI) el trato ha sido casi un intercambio de nuestro trabajo por publicidad, pues sabemos que algunas organizaciones no disponen de grandes fondos. No queremos que sean nuestros análisis solamente para sacar dinero sino la parte de analizar los datos de forma social y que esto sirva para algo más.
Depende mucho de a quién esté enfocado. En los medios hemos visto muchos errores en análisis de datos. También hemos visto cómo la dinámica de manejar los datos es muy diferente en un medio, donde quieren los datos más importantes para la siguiente semana.
Una consultoría funciona casi por completo al revés: nos dan un base y es necesario hacer casi toda la visualización posible, un trabajo de un mes.
Hemos encontrado que el principal error en la gente que hace análisis de datos es que se quedan muy en la superficie. La base de datos es muy rica y sacan nada más el dato más importante o nada más un análisis muy superficial.
Usualmente, con la mayoría de las bases, las analizamos durante meses. Empezamos a jugar, graficamos de mil maneras diferentes y buscamos patrones de forma visual y matemática. Cada proceso implica un mes o mes y medio con cada base.
Como mencionaba en el curso de DatosExtremos. Conforme las acumulas, las conoces y ya después es posible generar cruces.
Yo creo que el analizar los datos de desaparecidos ha sido muy fuerte para nosotros. En algún momento empezamos a bajar bases de datos de desaparecidos y me puse a scrapear una base de datos donde tenían fichas y entonces abrí la carpeta y de repente se empezó a llenar con fotos. Ese momento fue muy impactante, un baño de realidad. Yo estaba pensando esto como números y ves cada una de las fotografías y empiezas a pensar que son personas.
Justo ayer lo platicaba con otros periodistas. Una vez que te metes al tema de los desaparecidos ya no puedes salirte, sientes cierta responsabilidad: si yo puedo hacer algo, tengo que hacer algo.
Pero también trabajamos mucho con nuestra base de datos de pobreza. Volvemos a ella una y otra vez y es la base de muchos de nuestros cruces para otros trabajos.
]]>