Estás navegando por el archivo de Estadística.

Análisis de datos con Morlan: puentes entre ciencia y sociedad.

- el marzo 15, 2016 en Estadística, Experiencias, Fuentes de datos, Noticias, Uncategorized

Irving 2 copiaCon la paciencia de un físico nuclear y el interés apasionado de un activista, Irving Morales, co fundador de Morlan, grafica una de potenciales decenas de tendencias en una base de datos.

En la redacción con la que está colaborando casi le piden que la envíe a impresión, “está lista” para publicarse, cuenta Irving en entrevista. Pero se niega, la gráfica es para él, para que detecte patrones anómalos y posibles puntos de atención en el comportamiento de los datos. La prisa, que domina la mayoría de las redacciones, es el mayor enemigo de un verdadero análisis de datos.

Un investigador, científico, periodista o incluso diseñador que grafique pensando ya en publicar comete uno de los mayores y más comunes errores en el análisis de datos. En eso insistió esta semana Marco Hernández, de La Nación Data Costa Rica durante su webinar de #DatosExtremos. La frecuencia con que la que este y otros errores ocurren puede deberse, como insiste su colega, la periodista Camila Salazar, a la falta de capacitación en análisis de datos en las universidades que forman periodistas.

Pero en un espejo de esta deficiencia en la ciencia, o al menos en la academia mexicana hiperespecializada en física, los científicos que analizan datos no tienen ni incentivos ni herramientas ni un camino hecho para poner sus análisis al servicio de organizaciones para la resolución de problemas sociales.

El doctor en física y consultor en análisis de datos Irving Morales confiesa, por ejempo, que comenzó su carrera de sesudos y clavados análisis de datos para finalmente publicarlos… en PDF.

Por eso Irving, en vista de que la academia científica no necesariamente está interesada en salir de su propio túnel de saber, decidió aliarse con Emmanuel Landa y Oliver Morales y hacer su propio camino de análisis científico y social de datos. Le llamaron Morlan.

Acá, en entrevista, detalla sus andanzas en ese camino.

¿Qué es y cómo se hace el análisis de datos?

Una manera de entenderlo es como una caja de herramientas que se aplica a todas mis bases de datos: saco el promedio, la varianza, gráficas de barras… Desde mi punto de vista eso no es lo mejor, se aplica el formulazo, sin entender por qué.

Creo que el análisis de datos debe ser un proceso artesanal donde lo que hago es buscar patrones en los datos. Algunos periodistas muchas veces están muy entrenados para buscar historias y eso es lo que hacen: agarran los datos, los grafican de mil maneras posibles y empiezan a buscar sus historias.

A veces se trata de sacar un patrón relevante para la nota. Otras el punto es notar cosas raras que hacen los datos (datos fuera del patrón usual), lo relevante es preguntarse por qué mis datos se comportan así.

Yo trabajé mucho tiempo con la física y analizando datos para la física. Buscar patrones tiene que ser un proceso que tiene una gran carga visual. En la academia no lo entienden, pero la parte visual te ayuda un montón.

Esencialmente lo puedes hacer en cualquier paquete que tenga un poco de matemática. Yo uso un paquete que se llama así, Matemática, aunque también se puede usar Stata, R, sps.

logo

¿Cómo decidiste empezar Morlan?

Empezamos a trabajar con otros datos, más académicos, de biología, por ejemplo, y poco a poco nos dimos cuenta de que estos no eran los datos que nos interesaban.

Nos preguntábamos porqué los científicos no atacan problemas que le interesen más a la gente, como la pobreza, el agua, el hambre.

Empezamos a bajar datos y ver cuáles eran las problemáticas en esas áreas. Con el tiempo notamos que sí podíamos hacer algunas cosas pero el camino académico no era lo mejor.

Físicos hablando de ciencias sociales no es algo que se vea bien en la academia.

¿Qué aprendizaje hubo en ese viaje de la ciencia pura y dura a lo publicable y lo social?

Al pincipio Morlan funcionó sólo como una empresa de consultoría. Nos empezamos a dar cuenta de que no sólo es importnate la parte de las matemáticas sino también la del diseño.

Presentar en PDF era algo que hacíamos y se nos volvió completamente aburrido. Como físicos también estábamos acostumbrados a ver los datos sólo como números, teníamos 3 años haciendo pura física.

Nos dimos cuenta de que necesitábamos también la parte del contenido social. Nos reunimos con gente que estaba más metida en esto: periodistas, sociólogos, gente que nos aterrizara y nos bajara a la parte social. Así fue surgiendo Morlan. La idea de estos tres ejes fue cómo construir un producto que no tenía nadie. Había gente que estaba haciendo consultoría pero la parte del diseño y del contexto la dejaban fuera.

Había gente que hacía productos muy buenos de periodismo de datos o visualización de datos pero que no tenía nada de buen análisis o contexto social. Gente que escribía ensayos pero no tenía nada de visualización o análisis matemático.

Decidimos reunir las tres cosas. y nos ha funcionando muy bien.

¿Qué tipo de trabajo desarrollan usualmente y cómo se sostiene Morlan?

Nos preguntan mucho quiénes son nuestros clientes. Recientemente hemos trabajado con medios, con Milenio Data Lab y con El Universal. Pero nuestra principal fuentes de ingresos tiene que ver con gente del gobierno y consultorías.

Por ejemplo, estuvimos muy metidos analizando las bases de datos de desaparecidos. Al principio salió simplemente como un tuit que pusimos y empezamos a hacer otros productos que tenían que ver con bases de datos de desaparecidos. Poco a poco lo empezamos a vender a gente de los medios y a partir de ahí surgió el proyecto de desaparecidos de El Universal. Empezó con jalar una base y ver qué se puede hacer.

Pero todavía nos movemos mucho más en el análisis de datos más fuerte y más pesado.

Screen Shot 2016-03-15 at 12.28.03 PMTrabajamos, por ejemplo, con el gobierno de Aguascalientes, el análisis de la redistritación electoral, que ahorita está vigente en Ags., es un problema de minimización de datos, que involucra matemáticas más especializadas. Hemos trabajado con algunos partidos políticos haciendo análisis sociodemográfico y electoral.

La mayoría de las cosas que vendemos, por lo mismo de que las vendimos, no las podemos poner en la página. Es trabajo con ONGs y decimos que analizar estos datos estaría bien y lo montamos.

En este tipo de trabajo nos acercamos a las ONGs por el contenido social que nos interesa promover. En algunos casos, como nuestro trabajo con el Instituto para las Mujeres en la Migración (IMUMI) el trato ha sido casi un intercambio de nuestro trabajo por publicidad, pues sabemos que algunas organizaciones no disponen de grandes fondos. No queremos que sean nuestros análisis solamente para sacar dinero sino la parte de analizar los datos de forma social y que esto sirva para algo más.

¿Cuáles son los errores más comunes en análisis de datos?

Depende mucho de a quién esté enfocado. En los medios hemos visto muchos errores en análisis de datos. También hemos visto cómo la dinámica de manejar los datos es muy diferente en un medio, donde quieren los datos más importantes para la siguiente semana.

Una consultoría funciona casi por completo al revés: nos dan un base y es necesario hacer casi toda la visualización posible, un trabajo de un mes.

Hemos encontrado que el principal error en la gente que hace análisis de datos es que se quedan muy en la superficie. La base de datos es muy rica y sacan nada más el dato más importante o nada más un análisis muy superficial.

¿Cuánto tiempo toma un análisis de datos más integral?

Usualmente, con la mayoría de las bases, las analizamos durante meses. Empezamos a jugar, graficamos de mil maneras diferentes y buscamos patrones de forma visual y matemática. Cada proceso implica un mes o mes y medio con cada base.

Como mencionaba en el curso de DatosExtremos. Conforme las acumulas, las conoces y ya después es posible generar cruces.

¿Cuál de sus proyectos ha tenido más impacto personal y social?

Yo creo que el analizar los datos de desaparecidos ha sido muy fuerte para nosotros. En algún momento empezamos a bajar bases de datos de desaparecidos y me puse a scrapear una base de datos donde tenían fichas y entonces abrí la carpeta y de repente se empezó a llenar con fotos. Ese momento fue muy impactante, un baño de realidad. Yo estaba pensando esto como números y ves cada una de las fotografías y empiezas a pensar que son personas.

Justo ayer lo platicaba con otros periodistas. Una vez que te metes al tema de los desaparecidos ya no puedes salirte, sientes cierta responsabilidad: si yo puedo hacer algo, tengo que hacer algo.

Pero también trabajamos mucho con nuestra base de datos de pobreza. Volvemos a ella una y otra vez y es la base de muchos de nuestros cruces para otros trabajos.

Fellowships Latam: la construcción de una comunidad

- el febrero 17, 2016 en DAL, Estadística, Expediciones de Datos, Experiencias, Fuentes de datos, Guest posts, Noticias, Uncategorized

Cami 2

Periodistas, economistas y desarrolladores, ex fellows del programa Fellowship de School of Data, detallan qué es y cómo se han servido del fellowship para crecer la comunidad de datos en Latinoamérica

Han influido en la rendición de cuentas nacionales de Perú y Costa Rica con publicaciones como Decide por tu Cantón o Cuentas Juradas; han capacitado periodistas para que detallen la confiabilidad de gasolineras, como en Gasolineras honestas, y han contribuido a la vinculación de datos sobre mineras en Perú, a través del Instituto de Gobernanza de Recursos Naturales.

Pero, por encima del alcance de proyectos específicos en los que trabajaron durante el Fellowship de School of Data, los fellows latinoamericanos que hasta ahora han participado evalúan el impacto de su trabajo en términos de su contribución para la creación de una escena local y regional en el uso efectivo de datos, que se une a una red global que tiene el mismo propósito.

Camila Salazar y Julio López, seleccionados de la Fellowship 2015, así como PhiRequiem y Antonio Cucho, en 2014, detallan cómo compartieron sus conocimientos sobre apertura de Datos a una red global de actores sociales, los retos que enfrenta la escena local y las enseñanzas que obtuvieron de sus fellowships, vis a vis la convocatoria para este Fellowship 2016.

Para los participantes, el fellowship fue la oportunidad única o bien para generar escenas locales y regionales de apertura, limpieza y visualización de datos, o de elevar la solvencia técnica de comunidades periodísticas, o contribuir a movimientos de transparencia de recursos naturales, con el soporte de una comunidad global y regional que, además, les otorgó visibilidad a una enriquecedora red de actores sociales.

Periodismo de datos y Datos sobre la industria extractiva son dos de los temas en que ellos se especializaron, y forman parte de los enfoques temáticos de la convocatoria para el Fellowship 2016.

La primera entrega es esta entervista con Camila Salazar, fellow de Costa Rica en 2015

Lee la entrevista con Camila Salazar aquí

La segunda entrega es una relación del proceso de capacitación, principalmente en Centroamérica, de PhiRequiem, fellow de México en 2014.

Lee la entrevista con PhiRequiem aquí

La tercera y penúltima entrega es una entrevista con Antonio Cucho Gamboa, fellow por Perú en 2014, fundador de Ojo Público, Open Data Perú, y un fellowship nacional.

Lee la entrevista con Antonio Cucho aquí

Nuestra última entrega es nuestra entrevista con Julio López, fellow por Ecuador en 2015, quien inauguró lo que hoy una línea temática del fellowship: la extracción, gestión y visualizació de datos sobre recursos minerales.

Lee la entrevista con Julio López aquí

¡Open Data Day 2016!

- el febrero 9, 2016 en Estadística, Expediciones de Datos, Experiencias, Fuentes de datos, Noticias

Open Data Day 2016

6802864183_cbd5b3b63f_o

Con una exigencia global para la apertura y uso de datos se celebrará el Open Data Day este 5 de marzo con cientos de eventos alrededor del globo.

Open Data Day es una iniciativa lanzada en 2010 por la fundación Open Knowledge. Consiste en un conjunto de actividades locales, o «grassroots» que germinan por todo el mundo para la promoción de una cultura de datos científicos, meteorológicos, culturales, financieros, ambientales, estadísticos y de transporte, entre otros.

Este año se planean reuniones, hackatones o talleres en los que se pueden desarrollar apps, liberar más datos, armar visualizaciones y publicar análisis. Es abierto. Cualquiera que esté interesado puede crear un evento a través del sitio oficial y cualquier persona, sea desarrolladora, diseñador, investigador o simplemente un habitante local, puede asistir.

Conoce las iniciativas que se esperan este año en el mundo hispanoparlante.

Villarica, Chile

Con la idea de que el tema de Datos Abiertos no es un tema nacional aún, la organización Ciudadano inteligente organiza una serie de charlas para propagar entre ciudadanos la idea de Datos Abiertos.

Montevideo, Uruguay

Data Uruguay reutiliza datos sobre la eficiencia energética de ¡electrodomésticos!

Buenos Aires, Argentina

Open Knowledge Argentina organiza un encuentro en civiles que desarrollan tecnología, gobierno y legisladores.

El equipo de Datos Concepción participará del encuentro que reúne a los principales referentes de gobierno abierto, así como activistas por el acceso a la información pública, innovadores cívicos, y periodistas de datos.

Santiago, Chile

Ciudadano Inteligente convoca a un editatón para saber más sobre la historia del vecindario local del Parque Quinta Normal

Asunción, Paraguay

Open Data Paraguay convoca a charlas, talleres sobre periodismo y Datos Abiertos  en su evento Datos que Hablan 2016

La Paz, Bolivia

La organización sin fines de lucro ACM-SIM organiza una serie de presentaciones keynotes y una jornada de visualización de datos

Loja, Ecuador

La Universidad Técnica Particular de Loja organiza muestra de publicaciones de Data Vinculada sobre documentos científicos y apertura de datos de repositorios Serendipity de Ecuador. También, el portal de Data Vinculada (Linked Data) Ámbar organiza el primer hackatón Ambar 2016, enfocado en datos abiertos sobre territorios de alta biodiversidad.

Quito, Ecuador

School of Data y MediaLab UIO contemplan una reunión de alrededor de 50 participantes sobre Datos Abiertos. Te puedes registrar aquí.

Bogotá, Colombia y Santa Ana, El Salvador

Geocensos organiza su Open Geo Data Camp.

En Bogotá y San Salvador necesitamos apasionados por la geo open data. Esto incluye visualización, notificación, integración, etcétera… todo con la misión de difundir el buen uso de geo datos de nuestras ciudades. Necesitamos también gente que haga suyo el desafío de mapear juntos un mundo mejor.

San José, Costa Rica

Una recolección pública de datos sobre acoso a la mujer es organizada por la organización social Abriendo Datos Costa Rica.

Cartagena, Colombia

La Fundación Universitaria Tecnlógico Comfenalco organiza una serie de charlas y talleres sobre Open Data.

Lima, Perú

Open Data Perú tiene programadas charlas, talleres y un hackatón.

San Salvador, El Salvador

Open Knowledge El Salvador, Consorcio por la Transparencia y Asociacion Civil Red Ciudadana están convocando a talleres y actividades de promoción de datos abiertos.

Más detalles los hallarás en este sitio.

Guatemala, Guatemala

La capital de Guatemala prevee una conferencia y talleres organizados por la asociación Red Ciudadana.

Xalapa, México

El Gobierno del Estado de Veracruz, el Ayuntamiento de la ciudad de Xalapa, y las organizaciones de la sociedad civil Social TIC y Codeando México convocan a una serie de charlas y talleres, así como un Data Fest.

Colima, México

Introducción a datos abiertos, plataformas para publicación de datos abiertos, exploración de datos, herramientas, hacktivismo e iniciativas impulsadas por la cultura hacker son los temas de las conferencias que ocurrirán en Colima.

Son organizadas por las asociaciones Tecnologías Libres para Innovación y Desarrollo AC y AppData.

CIudad de México, México

En Ciudad de México, Social TIC, en colaboración con Google Devs y Centraal invitan a una sesión de expediciones de datos, capacitaciones y presentación de proyectos.

Cancún, México

Ciudadanos por la transparencia y otras organizaciones darán charlas informativas sobre qué son los datos abiertos, cómo funcionan, para qué  sirven, etc… y darán carne asada. Te puedes registrar aquí .

Torreón, México

El ayuntamiento de Torreón convoca a conferencias y actividades de promoción de la cultura de Datos Abiertos.

Ciudad Obregón, México

Una serie de conferencias y un hackatón son organizados por Universidad La Salle, el ayuntamiento de Cajeme y Mawe Tecnologías.

Guadalajara, México

Este evento es organizado en conjunto por las comundiades tecnológicas, de conocimiento y hackers: Zapopan Lab, Colectivo Ijalti, Jalisco Cómo Vamos, Observatorio Ciudadano de Calidad de Vida.

¿Quieres aprender a hacer visualizaciones periodisticas, editoriales o para mejorar las decisiones de la ciudadanía? Haz equipo con tecnólogos, diseñadores, periodistas, estadistas en el #OpenDataDay. Las mejores visualizaciones del dia ganarán premios. Registrate aquí.

Monterrey, México

Codeando México y Codeando Monterrey organizan este 5 de marzo un hackatón cívico y la apertura de datos del municipio de San Pedro Garza García.

 

Girona, España

El archivo municipal de Girona abrirá un dataset con los datos que ha abierto.

Barcelona, España

El proyecto internacional Apps 4 Citizens propone un día de inspiración sobre Open Data

Bilbao, España

La misión de esta jornada es en primer lugar difundir qué es Linked Open Data y para qué sirve y en segundo lugar, juntar a un grupo de entusiastas en grupos de trabajo para diseñar e implementar aplicaciones rápidas y sencillas que enlacen y usen datos abiertos.Este año la organización correrá a cargo del grupo de investigación MORElab y del Ayuntamiento de Bilbao.

Pamplona, España

Finodex Accelerator invita a capacitaciones, talleres y conferencias

Granada, España

Enfocados en generar historias a partir de historias locales, Open XXI y la Universidad de Granada organizan un hackaton en Granada.

http://hackaton.okfn.es

Madrid, España

Journocoders Madrid, Open Knowledge Spain y ODI Madrid, además de Medialab-Prado, convocan a un hackatón.

 

Gráficos y análisis estadístico: ver para creer

- el agosto 24, 2015 en Estadística

Dice el dicho popular “ver para creer”. Esto fue justamente resaltado por Anscombe en un artículo publicado en 1973, donde demostró con un ejemplo ficticio la importancia del uso de gráficos en el análisis estadístico, particularmente en el análisis de regresión, que consiste en la estimación de relaciones entre variables.

Este ejemplo se conoce como el cuarteto de Anscombe, refiriéndose a cuatro conjuntos de datos que presentan similares propiedades estadísticas pero difieren considerablemente cuando se los analiza gráficamente.

Normalmente cuando se trabajan regresiones, se hace un resumen de los estadísticos significativos (como la media, el promedio y la desviación estándar), para asegurarnos que nuestra base de datos está normalmente distribuida y que podemos posteriormente trabajar con la misma para poder establecer hipótesis o cualquier tipo de análisis. Sin embargo, no debería ser el único procedimiento para verificar la validez de los resultados y comprobar posibles relaciones entre las distintas variables; debe ser complementado con un análisis gráfico.

table jp

En el ejemplo, el análisis descriptivo de estos cuatro conjuntos luce demasiado similar; es decir que los siguientes parámetros estadísticos aplican igualmente para cada uno de los cuatro conjuntos de datos:

  • Número de observaciones (n): 11
  • Media de la variable x: 9.0
  • Desviación típica de la variable x: 3.32
  • Media de la variable y: 7.5
  • Desviación típica de la variable y: 2.03
  • Coeficiente de correlación lineal: 0.816
  • Ecuación de regresión lineal: y = 3 + 0,5 · x
  • Suma de cuadrados de los residuos: 13,75 (con 9 grados de libertad)
  • Error estándar del parámetro b1: 0,118
  • R-cuadrado: 0,667

¿No tienes idea de qué significan estas cosas? No te preocupes: puedes encontrar bases sobre estadística en posts pasados sobre estadística en Escuela, y acá estaré publicando más al respecto.

Cuando los cuatro conjuntos de datos son graficados (usando scatterplots), las tendencias entre sí cambian totalmente. El análisis gráfico demuestra que en los cuatro conjuntos las rectas de regresión son iguales, sin embargo las nubes de puntos son claramente diferentes.

Graficos jpg

El gráfico de los datos del primer conjunto muestran la línea de regresión normal y puntos dispersos de forma aleatoria por encima y por debajo de la misma, pero que se pueden ajustar. En contraste, el segundo conjunto de datos muestra más bien una parábola en lugar de una tendencia lineal. Mientras que el tercer conjunto de datos presenta una tendencia lineal pero una observación atípica o dato disparo (outlier) que modificaría sustancialmente los parámetros estimados. Finalmente, el cuarto conjunto de datos muestra que una observación atípica cambia la línea de tendencia; de lo contrario sería una línea vertical.

En la vida real, cuando usamos bases de datos, realizar un gráfico como el anterior (scatterplots) resulta útil para identificar no sólo observaciones atípicas (outliers ) sino también la tendencia de nuestra relación (crece, se reduce, positiva, negativa, etc.), pues cada punto del gráfico es la combinación entre las observaciones de las dos variables analizadas (x, y).

Tal como lo hizo Anscombe, todos deberíamos complementar el análisis estadístico descriptivo con un análisis exploratorio usando gráficos; de esta manera nos aseguramos de que nuestro análisis posterior, posibles correlaciones, relaciones y conclusiones son correctos. El cuarteto nos muestra la necesidad de analizar gráficamente los datos antes de tomar alguna decisión o proseguir con nuestro análisis.

El método: parte 2

- el abril 7, 2015 en Estadística

Screen Shot 2015-03-10 at 20.32.18

Mapa de las elecciones de Estados Unidos en 2012. Imagen de Wikimedia Commons.

En el posteo anterior, con un ejemplo de la vida real, expliqué como distintos métodos de análisis de datos pueden dar resultados muy distintos. Se analizó el caso de un programa dirigido a incentivar el voto en las elecciones de Estados Unidos de 2002. El programa consistía de llamadas a casas un día antes de las elecciones para incentivar el voto.

La pregunta fundamental era: ¿tuvieron algún efecto en la participación electoral las llamadas efectuadas un día antes de las elecciones? Los resultados indican cosas muy distintas dependiendo de cada uno de los métodos mencionados.

En esta ocasión haré una breve descripción de los métodos utilizados:

  1. Diferencia simple: Como su nombre lo indica este método es el más sencillo de todos. Consiste en observar cuántos de los individuos a los que se les marcó un día antes de la elección de 2002 votaron al día siguiente, y comparar cuántos de ellos habían votado en el 2000. Afortunadamente para los investigadores, se contaba con el registro de votantes.
  2. Regresión múltiple: Este método consiste en ajustar la mejor línea regresora posible a la distribución de datos. En otras palabras, se trata de encontrar la relación entre variables independientes con las dependientes. Por ejemplo, el producto interno bruto -variable dependiente- es explicada por el consumo nacional, el gasto del gobierno, las exportaciones netas y la inversión -variables independientes. En nuestro caso la variable dependiente es la asistencia a votar o no y la independiente la llamada entre otras cosas.
  3. Regresión múltiple con datos panel: es un método similar al anterior pero con un distinto acomodo de datos. Para comprender esto se necesita saber que existen dos tipos: los tipo panel y las series de tiempo. Las series de tiempo, como su nombre lo indica, es una recolección de datos a lo largo de un periodo. Los datos tipo panel es una observación por individuo en un momento del tiempo. Por ejemplo, una serie sería el tipo de cambio de 2000 a 2008, un corte transversal sería la población de 150 países en 2008.
  4. Matching: es un método muy complicado pues consiste en buscar una especie de clon para cada una de las personas que recibieron la llamada. Por ejemplo, se tiene una base de datos que tiene información sobre la edad, estudios, ingresos, sexo, estado civil y un sin fin de características de las personas incluyendo si votaron o no en la elección anterior. Se escogen a personas idénticas (al menos en las características registradas). Una vez teniendo esos clones se aplica el programa solo a uno, y se observa si se comportaron de manera similar o distinta.
  5. Experimento aleatorio: este método es el más certero. Sin embargo, a pesar de parecer sencillo, tiene el gran reto de evitar el sesgo de selección. A lo mejor hasta ahora no habías pensado que si el programa consistía en llamar a casas, muchos de los posibles votantes estaban fuera trabajando, estudiando o realizando una actividad que los mantenía fuera del alcance del programa. Esto implica que los resultado con un sesgo de selección como este no son aplicables a la población en general.

 

Este método, a través de herramientas estadísticas complejas, impide que esto suceda dando mayo validez general a los resultados.

Más adelante podría profundizar si así lo desean en alguno de estos métodos. No son fáciles pues el nivel técnico que requieren es un poco avanzado.

¡Hasta pronto!

 

El método: parte 1

- el abril 5, 2015 en Estadística

Los profesionales del análisis de datos utilizan métodos muy complejos para llegar a conclusiones. Sin embargo, estos métodos pueden tener particularidades que afectan los resultados que se obtienen.

En esta ocasión haré una pequeña reseña del caso Get out the vote estudiado en el MIT OpenCourseWare, que habla del impacto que tuvieron llamadas a casas particulares un día antes de las votaciones del año 2002 de Estados Unidos, con el fin de incentivar la participación en ese proceso electoral.

La pregunta fundamental de esta investigación fue: ¿Tuvieron algún efecto en la participación electoral las llamadas efectuadas un día antes de las elecciones?

Lo sorprendente es que, dependiendo del método utilizado para medir el efecto de las llamadas, se obtienen resultados muy distintos. En concreto, se utilizó cinco metodologías distintas y todas determinaron un efecto distinto.

Estos cinco métodos son los siguientes: diferencia simple, regresión múltiple, regresión múltiple con datos panel, matching y experimento aleatorio. Muestro los resultados que se obtuvo con cada metodología en la siguiente tabla:

 

Screen Shot 2015-03-10 at 20.27.08

 

Al final, el experimento aleatorio, que es considerado el más completo de todos, determinó que las llamadas no tuvieron efecto alguno en la participación electoral. Antes de pensar que los demás métodos no sirven, es importante destacar que conociéndolos más a fondo se puede determinar cuándo es prudente usar un método y cuándo no.

Precisamente eso es lo que exploraremos en el siguiente posteo de una manera muy general. Hasta el miércoles… 😉

Estadística y la relatividad del tiempo

- el marzo 25, 2015 en Estadística

Fue en el año 1905 cuando el científico alemán Albert Einstein propuso la teoría de la relatividad, y descubrió que el tiempo es una dimensión relativa… ¿Pero qué tiene que ver eso con el uso y manejo de datos?

Pues resulta que el tiempo también puede cambiar la percepción de la estadística. Claro que esta relatividad es completamente diferente a la de Einstein (vale la pena aclararlo: sólo lo uso como símil).

Cuando se utiliza cifras para apoyar puntos de vista, es de suma importancia considerar el lapso del tiempo en el que se contemplan. Así como escribí en un posteo anterior sobre la importancia de entender cifras relativas y absolutas, considero igual de importante hablar del tiempo.

Para dejarlo de manera clara utilizaré un ejemplo que está de moda: la depreciación del peso mexicano (no se preocupen: no hablaré de economía).

Si quisiera argumentar que la reciente inestabilidad política en México, derivada del caso Ayotzinapa y el escándalo de la casa del Presidente, ha sido la causante de la pérdida de valor del peso, tomaría un lapso de tiempo desde el 26 de septiembre (fecha del caso Ayotzinapa) a la actualidad. Los resultados serían los siguientes:

Screen Shot 2015-03-10 at 20.10.45

De esta manera quedaría en evidencia que el peso ha perdido 8.9% de su valor desde el inicio de estos dos escándalos, ubicándose así en el lugar 10 de algunas de las 12 divisas más importantes.

En cambio, si lo que quiero es defender el peso diciendo que esos factores no han influido, tomaría el rendimiento del peso en el mes y medio posterior al inicio del caso Ayotzinapa (excluyendo noviembre). Los resultados serían los siguientes:

Screen Shot 2015-03-10 at 20.10.59

Fuente: Bloomberg

De esta manera, el peso sale muy pero muy bien. De hecho, mejor que el euro, el franco suizo y la libra esterlina entre otras. Lo interesante es que ambos datos son verdad.

¿Cómo es posible esto? ¿A qué se debe? En ambos ejemplos, el caso Ayotzinapa es el punto de inicio; lo que cambia es que, en el primer caso tomamos hasta el 16 de diciembre de 2014, y en el segundo, tan sólo un mes y medio después del 26 de septiembre (fecha de inicio de Ayotzinapa).

El hecho de cambiar las fechas finales genera que la mayor pérdida de valor de nuestra moneda, que se generó en noviembre, no quede contemplada en el segundo caso pues abarca hasta principios de ese mes. Es decir: la caída más fuerte del peso queda fuera del rango utilizado para el segundo caso.

Éste es un ejemplo más de la manera en que los datos, dependiendo de su uso, pueden presentar cosas muy distintas. ¿Cuál de las dos caras es más realista? Las dos; depende del juicio de cada quién. Es por esto que digo que, en la estadística, el tiempo hace que todo sea relativo.

En defensa de la mediana

- el marzo 16, 2015 en Estadística

Este post es una contribución de Francesc Pons, sociólogo de profesión. Después de trabajar muchos años en la investigación de mercados en Barcelona (España), ha dado el salto y se ha convertido en Data Scientist, trabajando como consultor freelance en investigación social y de mercados, y también como profesor universitario. Se declara un ludópata del juego de los datos en sus ratos libres y le gusta aprender un montón… ¡por eso forma parte de la comunidad de Escuela de Datos!


 

Publico este vídeo para rescatar uno de los datos más robustos y a la vez más olvidados de la estadística descriptiva: la mediana. En él explico por qué debería usarse la mediana como complemento de la media (o promedio) a la hora de hacer estadística descriptiva y doy un ejemplo de la robustez de este estadístico utilizando OpenOffice Calc. Espero que les guste y cualquier cosa no duden en dejar un comentario!

Un mito genial: la correlación

- el enero 28, 2015 en Estadística, Guest posts

La interpretación errónea de la correlación es bastante común. En varias ocasiones he visto cómo algunas personas toman series, las copian a Excel, usan la función de correlación y asumen que, si es alta, existe una especie de efecto causal – o sea: que una variable afecta el comportamiento de otra.

Cuando tomé mi primer curso de econometría, recuerdo que el profesor nos enseñó el término de correlación espuria. En aquella clase nos contó que, hace aproximadamente un siglo, un economista europeo trató de explicar el aumento generalizado de los precios (inflación) utilizando muchas series de datos de distintas variables. Los resultados fueron sorprendentes al mostrar que la inflación en Inglaterra era explicada con mayor correlación por el número de infectados de cierta enfermedad en un pequeño poblado de Gales.

Esa afirmación es completamente falsa. ¡No tuvieron la culpa los enfermos de Gales del aumento de precios en Inglaterra! Lo que sí sucedió es que las dos series de datos se comportaron, por coincidencia, de la misma manera y por ello la correlación es alta.

Para explicarlo mejor, me permití tomar unas gráficas con correlaciones espurias muy chistosas (la fuente es el sitio de Tyler Virgen). Un ejemplo es la relación entre el número de películas en las que actúa Nicolas Cage y el número de personas que se ahogaron en una alberca en un año en Estados Unidos. Creo que está de más aclarar que Nicolas Cage no tuvo nada que ver en esas muertes.

Otros ejemplos:

El número de películas en las que actúa Nicolas Cage se correlaciona con el número de personas que se ahogaron por caer en una alberca al 66%.

Screen Shot 2015-01-25 at 14.36.58

La tasa de divorcio en Maine se correlaciona con el consumo per cápita de margarina en Estados Unidos al 99%.

Screen Shot 2015-01-25 at 14.37.12

A pesar de que algunos pueden caer en el vicio de pensar que correlaciones como las anteriores implican efectos causales, no es justo tachar de inservible esta herramienta estadística ya que tiene otros usos… pero ése es otro tema.

Más adelante veremos cómo determinar si existe un efecto causal entre dos variables. Por ahora, es suficiente desmitificar la correlación.

Estadística conveniente: absolutos vs proporciones

- el noviembre 19, 2014 en Estadística, Guest posts


periodico

Con este post quiero dar un ejemplo de cómo los datos pueden ser engañosos, y que pueden ser presentados de dos formas distintas para decir lo opuesto.

Ejemplo de la pobreza en México

Uno de los temas más importantes para la clase política mexicana es el discurso sobre la pobreza en el país. Un político que puede presumir de reducción de la pobreza en su mandato es considerado exitoso. Precisamente en este discurso político he encontrado algunas mañas utilizadas tanto por el gobierno como opositores para hablar del tema.

El asunto clave es que, dependiendo de cómo se presenta los datos, puede mostrarse con el mismo dataset aumento o disminución en la pobreza sin necesidad de mentir en ninguno de los casos… ¿Pero cómo puede ser esto posible?

¡Reducción de la pobreza!

El argumento a favor habla del porcentaje de pobreza en México: actualmente se encuentra en 45.5% y en 2010 era 46.1%. Es decir, ahora 45 de cada 100 mexicanos viven en pobreza;  antes eran 46. Parece una pequeña mejora, pero mejora al final de cuentas.

Aumenta la pobreza en México

Por otra parte, la estadística en contra habla de números absolutos. Es decir, la pobreza aumentó de 52.8 a 53.2 millones de mexicanos. Eso equivale a 500 mil mexicanos más en la pobreza, una situación lamentable.

Ambas premisas son verdad, pues se refieren al mismo hecho visto de maneras distinta. La razón para que ambas posturas sean verdaderas al mismo tiempo es que la población aumentó más que la pobreza entre 2010 y 2014.

¿Cómo se ve este tema en los medios? Les dejo el link donde pueden revisarlo:

www.elfinanciero.com.mx/archivo/aumento-en-500-000-personas-numero-de-pobres-en-mexico.html

¿Cómo pueden ser las dos cosas verdad?

Para aclarar las cosas pondré un ejemplo muy sencillo. Supongamos que estamos en un salón de clases de 20 personas, de las cuales la mitad reprobó matemáticas el primer año. Es decir, 10 personas, o 50% de los alumnos. El segundo año, el número de estudiantes aumenta a 30 personas. En esta ocasión, el número de reprobados es 13, o 43% de los alumnos.

En otras palabras, la proporción de alumnos reprobados disminuyó, pero el número total o absoluto de reprobados aumentó. Son dos caras de la misma moneda.

Si quisiéramos defender al profesor, nos enfocaríamos en que el número de reprobados cayó de 50% a 43%… Pero, si queremos atacar, hablaríamos de que el número de reprobados subió de 10 a 13. Una vez más, ambas afirmaciones son ciertas pero presentan una imagen completamente distinta.

Creo que este segundo post nos deja dos preguntas: cuando uses datos ¿qué enfoque escogerás? o mejor aún ¿cómo le harás para comunicar las dos caras de esta moneda?

La próxima semana nos vemos aquí para hablar de un mito genial: la correlación.