Estás navegando por el archivo de christianmk.

El método: parte 2

- el abril 7, 2015 en Estadística

Screen Shot 2015-03-10 at 20.32.18

Mapa de las elecciones de Estados Unidos en 2012. Imagen de Wikimedia Commons.

En el posteo anterior, con un ejemplo de la vida real, expliqué como distintos métodos de análisis de datos pueden dar resultados muy distintos. Se analizó el caso de un programa dirigido a incentivar el voto en las elecciones de Estados Unidos de 2002. El programa consistía de llamadas a casas un día antes de las elecciones para incentivar el voto.

La pregunta fundamental era: ¿tuvieron algún efecto en la participación electoral las llamadas efectuadas un día antes de las elecciones? Los resultados indican cosas muy distintas dependiendo de cada uno de los métodos mencionados.

En esta ocasión haré una breve descripción de los métodos utilizados:

  1. Diferencia simple: Como su nombre lo indica este método es el más sencillo de todos. Consiste en observar cuántos de los individuos a los que se les marcó un día antes de la elección de 2002 votaron al día siguiente, y comparar cuántos de ellos habían votado en el 2000. Afortunadamente para los investigadores, se contaba con el registro de votantes.
  2. Regresión múltiple: Este método consiste en ajustar la mejor línea regresora posible a la distribución de datos. En otras palabras, se trata de encontrar la relación entre variables independientes con las dependientes. Por ejemplo, el producto interno bruto -variable dependiente- es explicada por el consumo nacional, el gasto del gobierno, las exportaciones netas y la inversión -variables independientes. En nuestro caso la variable dependiente es la asistencia a votar o no y la independiente la llamada entre otras cosas.
  3. Regresión múltiple con datos panel: es un método similar al anterior pero con un distinto acomodo de datos. Para comprender esto se necesita saber que existen dos tipos: los tipo panel y las series de tiempo. Las series de tiempo, como su nombre lo indica, es una recolección de datos a lo largo de un periodo. Los datos tipo panel es una observación por individuo en un momento del tiempo. Por ejemplo, una serie sería el tipo de cambio de 2000 a 2008, un corte transversal sería la población de 150 países en 2008.
  4. Matching: es un método muy complicado pues consiste en buscar una especie de clon para cada una de las personas que recibieron la llamada. Por ejemplo, se tiene una base de datos que tiene información sobre la edad, estudios, ingresos, sexo, estado civil y un sin fin de características de las personas incluyendo si votaron o no en la elección anterior. Se escogen a personas idénticas (al menos en las características registradas). Una vez teniendo esos clones se aplica el programa solo a uno, y se observa si se comportaron de manera similar o distinta.
  5. Experimento aleatorio: este método es el más certero. Sin embargo, a pesar de parecer sencillo, tiene el gran reto de evitar el sesgo de selección. A lo mejor hasta ahora no habías pensado que si el programa consistía en llamar a casas, muchos de los posibles votantes estaban fuera trabajando, estudiando o realizando una actividad que los mantenía fuera del alcance del programa. Esto implica que los resultado con un sesgo de selección como este no son aplicables a la población en general.

 

Este método, a través de herramientas estadísticas complejas, impide que esto suceda dando mayo validez general a los resultados.

Más adelante podría profundizar si así lo desean en alguno de estos métodos. No son fáciles pues el nivel técnico que requieren es un poco avanzado.

¡Hasta pronto!

 

El método: parte 1

- el abril 5, 2015 en Estadística

Los profesionales del análisis de datos utilizan métodos muy complejos para llegar a conclusiones. Sin embargo, estos métodos pueden tener particularidades que afectan los resultados que se obtienen.

En esta ocasión haré una pequeña reseña del caso Get out the vote estudiado en el MIT OpenCourseWare, que habla del impacto que tuvieron llamadas a casas particulares un día antes de las votaciones del año 2002 de Estados Unidos, con el fin de incentivar la participación en ese proceso electoral.

La pregunta fundamental de esta investigación fue: ¿Tuvieron algún efecto en la participación electoral las llamadas efectuadas un día antes de las elecciones?

Lo sorprendente es que, dependiendo del método utilizado para medir el efecto de las llamadas, se obtienen resultados muy distintos. En concreto, se utilizó cinco metodologías distintas y todas determinaron un efecto distinto.

Estos cinco métodos son los siguientes: diferencia simple, regresión múltiple, regresión múltiple con datos panel, matching y experimento aleatorio. Muestro los resultados que se obtuvo con cada metodología en la siguiente tabla:

 

Screen Shot 2015-03-10 at 20.27.08

 

Al final, el experimento aleatorio, que es considerado el más completo de todos, determinó que las llamadas no tuvieron efecto alguno en la participación electoral. Antes de pensar que los demás métodos no sirven, es importante destacar que conociéndolos más a fondo se puede determinar cuándo es prudente usar un método y cuándo no.

Precisamente eso es lo que exploraremos en el siguiente posteo de una manera muy general. Hasta el miércoles… 😉

Bases de datos sobre economía

- el abril 1, 2015 en Fuentes de datos

En los últimos años he tenido que utilizar muchos datos. Derivado de esta experiencia creo que puedo aportar mencionando cuáles son algunas de las mejores bases que podemos encontrar en Internet. Principalmente, haré referencia a datos de instituciones internacionales de gran relevancia. Esto sin duda es por mi sesgo hacia la economía, pero la mayoría de estas bases tienen información sobre variables económicas que a cualquiera nos pueden servir. Podrás encontrar desde el PIB de un país hasta su gasto en defensa y programas sociales.

Es importante destacar que hay datasets mucho más completas y mucho más exactas, pero en esta ocasión me quiero enfocar en las que puedes manipular de manera sencilla, específicamente las que puedes utilizar en Excel.

Más adelante escribiré sobre bases de datos mucho más completas pero que deben utilizarse en programas más complicados, como Stata o Eviews. Por ahora empecemos con lo sencillo.

 

Screen Shot 2015-03-10 at 20.17.13

OCDE: La Organización para la Cooperación y el Desarrollo Económico pone a nuestra disposición el OCDE Statistics. Aquí encontrarás todo tipo de datos sobre los países miembros de esta organización internacional:

http://stats.oecd.org/

 

Screen Shot 2015-03-10 at 20.18.25

Banco Mundial: El Banco Mundial, organismo internacional con sede en Washington tiene por objetivo reducir la pobreza mundial, y en el cumplimiento de este mandato hace accesible información muy valiosa de prácticamente todos los países del mundo:

http://data.worldbank.org/

 

Screen Shot 2015-03-10 at 20.20.03

FMI: Podrán estar de acuerdo o no con el Fondo Monetario Internacional, pero sus datos son excelentes

http://www.imf.org/external/data.htm

 

Screen Shot 2015-03-10 at 20.21.56

Penn World Table: Una base de datos de la prestigiosa Universidad de Pennsylvania sobre muchos rubros de todos los países del mundo:

https://pwt.sas.upenn.edu/php_site/pwt_index.php

 

Seguro existen muchos otros sitios donde hay datos valiosos, así que, si conocen alguno, por favor no olviden compartirlo con nosotros en Twitter o Facebook.

Estadística y la relatividad del tiempo

- el marzo 25, 2015 en Estadística

Fue en el año 1905 cuando el científico alemán Albert Einstein propuso la teoría de la relatividad, y descubrió que el tiempo es una dimensión relativa… ¿Pero qué tiene que ver eso con el uso y manejo de datos?

Pues resulta que el tiempo también puede cambiar la percepción de la estadística. Claro que esta relatividad es completamente diferente a la de Einstein (vale la pena aclararlo: sólo lo uso como símil).

Cuando se utiliza cifras para apoyar puntos de vista, es de suma importancia considerar el lapso del tiempo en el que se contemplan. Así como escribí en un posteo anterior sobre la importancia de entender cifras relativas y absolutas, considero igual de importante hablar del tiempo.

Para dejarlo de manera clara utilizaré un ejemplo que está de moda: la depreciación del peso mexicano (no se preocupen: no hablaré de economía).

Si quisiera argumentar que la reciente inestabilidad política en México, derivada del caso Ayotzinapa y el escándalo de la casa del Presidente, ha sido la causante de la pérdida de valor del peso, tomaría un lapso de tiempo desde el 26 de septiembre (fecha del caso Ayotzinapa) a la actualidad. Los resultados serían los siguientes:

Screen Shot 2015-03-10 at 20.10.45

De esta manera quedaría en evidencia que el peso ha perdido 8.9% de su valor desde el inicio de estos dos escándalos, ubicándose así en el lugar 10 de algunas de las 12 divisas más importantes.

En cambio, si lo que quiero es defender el peso diciendo que esos factores no han influido, tomaría el rendimiento del peso en el mes y medio posterior al inicio del caso Ayotzinapa (excluyendo noviembre). Los resultados serían los siguientes:

Screen Shot 2015-03-10 at 20.10.59

Fuente: Bloomberg

De esta manera, el peso sale muy pero muy bien. De hecho, mejor que el euro, el franco suizo y la libra esterlina entre otras. Lo interesante es que ambos datos son verdad.

¿Cómo es posible esto? ¿A qué se debe? En ambos ejemplos, el caso Ayotzinapa es el punto de inicio; lo que cambia es que, en el primer caso tomamos hasta el 16 de diciembre de 2014, y en el segundo, tan sólo un mes y medio después del 26 de septiembre (fecha de inicio de Ayotzinapa).

El hecho de cambiar las fechas finales genera que la mayor pérdida de valor de nuestra moneda, que se generó en noviembre, no quede contemplada en el segundo caso pues abarca hasta principios de ese mes. Es decir: la caída más fuerte del peso queda fuera del rango utilizado para el segundo caso.

Éste es un ejemplo más de la manera en que los datos, dependiendo de su uso, pueden presentar cosas muy distintas. ¿Cuál de las dos caras es más realista? Las dos; depende del juicio de cada quién. Es por esto que digo que, en la estadística, el tiempo hace que todo sea relativo.

De cuando los datos salvan programas sociales

- el marzo 18, 2015 en Guest posts


Ésta es una pequeña reflexión sobre una vez que el análisis de datos fue instrumental para salvar un programa social. ¿Quieres compartir otra? Puedes contactarnos en Facebook, Twitter.


Screen Shot 2015-03-10 at 20.06.13

 

Vicente Fox, Presidente de México de 2000 a 2006. Foto de Wikimedia Commons

 

En México, setenta años del PRI en el poder llegaban a su fin. El candidato del cambio tenía una gran popularidad y las expectativas puestas en él eran muchas. Entre todas estas esperanzas destacaba el anhelo de estabilidad y prosperidad económica, pues las tres décadas anteriores habían sido un desastre económico para el país que llevó a muchos mexicanos a la pobreza.

Cuando Vicente Fox llegó al poder, como muchos otros políticos, trató de desaparecer varios programas de la administración anterior y buscar una renovación que marcara su mandato.

Destaca el caso del programa Progresa, puesto en marcha en 1997 en el sexenio de Ernesto Zedillo. Progresa representó una ruptura total con la manera de enfrentar la pobreza en México, pues introdujo el sistema de transferencias condicionadas. En otras palabras, se entregó dinero en efectivo a las familias afiliadas al programa siempre y cuando hubiera constancia de que se enviaba a los niños a la escuela, y toda la familia asistiera periódicamente a consultas médicas.

¿Pero qué tiene que ver esto con el uso exitoso de datos? El gobierno panista entrante hizo un intento por eliminar el programa, pero la comunidad académica y de desarrollo social de México y otras partes del mundo hicieron público su desacuerdo. La principal razón para oponerse es que, por primera vez en México, un programa social estaba ayudando a la población más necesitada. El sistema de transferencias condicionadas iniciado en nuestro país era (y es aún) un éxito reconocido a nivel mundial.

La evidencia académica y de investigación sobre los beneficios del programa eran tales que Vicente Fox no pudo cancelarlo y optó por cambiarle el nombre al famoso Oportunidades.

Un mito genial: la correlación

- el enero 28, 2015 en Estadística, Guest posts

La interpretación errónea de la correlación es bastante común. En varias ocasiones he visto cómo algunas personas toman series, las copian a Excel, usan la función de correlación y asumen que, si es alta, existe una especie de efecto causal – o sea: que una variable afecta el comportamiento de otra.

Cuando tomé mi primer curso de econometría, recuerdo que el profesor nos enseñó el término de correlación espuria. En aquella clase nos contó que, hace aproximadamente un siglo, un economista europeo trató de explicar el aumento generalizado de los precios (inflación) utilizando muchas series de datos de distintas variables. Los resultados fueron sorprendentes al mostrar que la inflación en Inglaterra era explicada con mayor correlación por el número de infectados de cierta enfermedad en un pequeño poblado de Gales.

Esa afirmación es completamente falsa. ¡No tuvieron la culpa los enfermos de Gales del aumento de precios en Inglaterra! Lo que sí sucedió es que las dos series de datos se comportaron, por coincidencia, de la misma manera y por ello la correlación es alta.

Para explicarlo mejor, me permití tomar unas gráficas con correlaciones espurias muy chistosas (la fuente es el sitio de Tyler Virgen). Un ejemplo es la relación entre el número de películas en las que actúa Nicolas Cage y el número de personas que se ahogaron en una alberca en un año en Estados Unidos. Creo que está de más aclarar que Nicolas Cage no tuvo nada que ver en esas muertes.

Otros ejemplos:

El número de películas en las que actúa Nicolas Cage se correlaciona con el número de personas que se ahogaron por caer en una alberca al 66%.

Screen Shot 2015-01-25 at 14.36.58

La tasa de divorcio en Maine se correlaciona con el consumo per cápita de margarina en Estados Unidos al 99%.

Screen Shot 2015-01-25 at 14.37.12

A pesar de que algunos pueden caer en el vicio de pensar que correlaciones como las anteriores implican efectos causales, no es justo tachar de inservible esta herramienta estadística ya que tiene otros usos… pero ése es otro tema.

Más adelante veremos cómo determinar si existe un efecto causal entre dos variables. Por ahora, es suficiente desmitificar la correlación.

Estadística conveniente: absolutos vs proporciones

- el noviembre 19, 2014 en Estadística, Guest posts


periodico

Con este post quiero dar un ejemplo de cómo los datos pueden ser engañosos, y que pueden ser presentados de dos formas distintas para decir lo opuesto.

Ejemplo de la pobreza en México

Uno de los temas más importantes para la clase política mexicana es el discurso sobre la pobreza en el país. Un político que puede presumir de reducción de la pobreza en su mandato es considerado exitoso. Precisamente en este discurso político he encontrado algunas mañas utilizadas tanto por el gobierno como opositores para hablar del tema.

El asunto clave es que, dependiendo de cómo se presenta los datos, puede mostrarse con el mismo dataset aumento o disminución en la pobreza sin necesidad de mentir en ninguno de los casos… ¿Pero cómo puede ser esto posible?

¡Reducción de la pobreza!

El argumento a favor habla del porcentaje de pobreza en México: actualmente se encuentra en 45.5% y en 2010 era 46.1%. Es decir, ahora 45 de cada 100 mexicanos viven en pobreza;  antes eran 46. Parece una pequeña mejora, pero mejora al final de cuentas.

Aumenta la pobreza en México

Por otra parte, la estadística en contra habla de números absolutos. Es decir, la pobreza aumentó de 52.8 a 53.2 millones de mexicanos. Eso equivale a 500 mil mexicanos más en la pobreza, una situación lamentable.

Ambas premisas son verdad, pues se refieren al mismo hecho visto de maneras distinta. La razón para que ambas posturas sean verdaderas al mismo tiempo es que la población aumentó más que la pobreza entre 2010 y 2014.

¿Cómo se ve este tema en los medios? Les dejo el link donde pueden revisarlo:

www.elfinanciero.com.mx/archivo/aumento-en-500-000-personas-numero-de-pobres-en-mexico.html

¿Cómo pueden ser las dos cosas verdad?

Para aclarar las cosas pondré un ejemplo muy sencillo. Supongamos que estamos en un salón de clases de 20 personas, de las cuales la mitad reprobó matemáticas el primer año. Es decir, 10 personas, o 50% de los alumnos. El segundo año, el número de estudiantes aumenta a 30 personas. En esta ocasión, el número de reprobados es 13, o 43% de los alumnos.

En otras palabras, la proporción de alumnos reprobados disminuyó, pero el número total o absoluto de reprobados aumentó. Son dos caras de la misma moneda.

Si quisiéramos defender al profesor, nos enfocaríamos en que el número de reprobados cayó de 50% a 43%… Pero, si queremos atacar, hablaríamos de que el número de reprobados subió de 10 a 13. Una vez más, ambas afirmaciones son ciertas pero presentan una imagen completamente distinta.

Creo que este segundo post nos deja dos preguntas: cuando uses datos ¿qué enfoque escogerás? o mejor aún ¿cómo le harás para comunicar las dos caras de esta moneda?

La próxima semana nos vemos aquí para hablar de un mito genial: la correlación.

Datos y estadísticas, las verdades y las mentiras

- el noviembre 12, 2014 en Estadística, Guest posts


¡Saludos, daterxs de Latinoamérica! Christian se une a los y las blogueras de Escuela de Datos para compartirnos sus conocimientos sobre el corazón de los ejercicios dateros: el análisis. No hay visualización reveladora (o scrapeo útil) sin buen análisis, y Christian estará escribiendo acerca de este tema las próximas semanas. ¡Bienvenido a la familia, Christian!


Mark Twain

Con esta serie de publicaciones me gustaría contribuir al uso correcto de los datos y la estadística, sobre todo para nosotros los curiosos que buscamos datos para apoyar causas y posicionamientos.

Vivimos en un mundo rodeado de estadísticas y muchas de ellas no son ciertas. Una muy conocida cita que ilustra su desprestigio es la del ex primer ministro británico Benjamin Disraeli, popularizada por Mark Twain: “hay mentiras, grandes mentiras y estadísticas”.

Las estadísticas son muy valiosas si sabes cómo interpretarlas correctamente (y si lees la letra pequeña)… Pero también me gustaría ilustrar casos en los que se ha usado datos de manera muy particular para aparentar cosas no tan ciertas. En ocasiones, gente bien intencionada llega a conclusiones que, por falta de métodos correctos, no son del todo adecuadas.

Es importante saber concluir correctamente a partir de datos para no contribuir al mundo oscuro de las estadísticas falsas. Y, si no tienes planes de contribuir a ese mundo, al menos estos conocimientos serán de gran ayuda para que no te vean la cara.

En las siguientes semanas, estaré publicando una serie de posts sobre:

  • Métodos sencillos para llegar a conclusiones con datos.
  • Ejemplos de usos correctos e incorrectos de estadísticas.
  • Los vicios más comunes en el análisis de datos.
  • Lugares donde puedes conseguir los mejores datos.

Comenzamos la siguiente semana. Mientras tanto, un par de recursos para alimentar su interés:

    • Regla de oro: la correlación no implica que una de las variables analizadas tiene un efecto sobre otra… http://www.tylervigen.com/
    • Si quieres profundizar en el tema de las estadísticas y las mentiras, te recomiendo leer el libro How to Lie with Statistics publicado en 1954 por Darrell Huff.