Un mito genial: la correlación
La interpretación errónea de la correlación es bastante común. En varias ocasiones he visto cómo algunas personas toman series, las copian a Excel, usan la función de correlación y asumen que, si es alta, existe una especie de efecto causal – o sea: que una variable afecta el comportamiento de otra.
Cuando tomé mi primer curso de econometría, recuerdo que el profesor nos enseñó el término de correlación espuria. En aquella clase nos contó que, hace aproximadamente un siglo, un economista europeo trató de explicar el aumento generalizado de los precios (inflación) utilizando muchas series de datos de distintas variables. Los resultados fueron sorprendentes al mostrar que la inflación en Inglaterra era explicada con mayor correlación por el número de infectados de cierta enfermedad en un pequeño poblado de Gales.
Esa afirmación es completamente falsa. ¡No tuvieron la culpa los enfermos de Gales del aumento de precios en Inglaterra! Lo que sí sucedió es que las dos series de datos se comportaron, por coincidencia, de la misma manera y por ello la correlación es alta.
Para explicarlo mejor, me permití tomar unas gráficas con correlaciones espurias muy chistosas (la fuente es el sitio de Tyler Virgen). Un ejemplo es la relación entre el número de películas en las que actúa Nicolas Cage y el número de personas que se ahogaron en una alberca en un año en Estados Unidos. Creo que está de más aclarar que Nicolas Cage no tuvo nada que ver en esas muertes.
Otros ejemplos:
El número de películas en las que actúa Nicolas Cage se correlaciona con el número de personas que se ahogaron por caer en una alberca al 66%.
La tasa de divorcio en Maine se correlaciona con el consumo per cápita de margarina en Estados Unidos al 99%.
A pesar de que algunos pueden caer en el vicio de pensar que correlaciones como las anteriores implican efectos causales, no es justo tachar de inservible esta herramienta estadística ya que tiene otros usos… pero ése es otro tema.
Más adelante veremos cómo determinar si existe un efecto causal entre dos variables. Por ahora, es suficiente desmitificar la correlación.
Deja un comentario