Estás navegando por el archivo de estadística.

Algoritmos y clusters: Encuentra errores y límpialos de manera fácil con OpenRefine

- el mayo 3, 2018 en Tutoriales

¿Te has encontrado con bases de datos que tienen pequeños errores de transcripción? ¿Espacios de más, uso desordenado de mayúsculas y minúsculas, o registros que representan al mismo dato pero que fueron escritos con pequeñas diferencias? Con la herramienta OpenRefine puedes automatizar mucho del doloroso proceso de limpiar una base de datos. En este tutorial te enseñaremos una de sus funciones más útiles: la clusterización —o generación de agrupaciones automáticas— y los diferentes algoritmos que determinan las coincidencias entre registros.

Lee el resto de la entrada →

Herramientas para transformar PDF’s

- el diciembre 7, 2015 en Tutoriales

¿Has pasado horas de angustia tratando de utilizar bases de datos o documentos en formato PDF?

¡Ya no más! Camila Salazar nos tiene esta sencilla de guía de cómo convertir los terribles PDF’s a formato .csv, el cual es fácilmente manipulable en otros programas como Excel o Numbers, para que el manejo de datos sea amigable y sencillo. Además, incluye una lista de herramientas gratuitas que podemos utilizar para la conversión de los documentos en formatos utilizables.

¡Úsalas!

Encuentra aquí la presentación completa.

Captura de pantalla 2015-11-18 a las 13.22.08

 

Estadística conveniente: absolutos vs proporciones

- el noviembre 19, 2014 en Estadística, Guest posts


periodico

Con este post quiero dar un ejemplo de cómo los datos pueden ser engañosos, y que pueden ser presentados de dos formas distintas para decir lo opuesto.

Ejemplo de la pobreza en México

Uno de los temas más importantes para la clase política mexicana es el discurso sobre la pobreza en el país. Un político que puede presumir de reducción de la pobreza en su mandato es considerado exitoso. Precisamente en este discurso político he encontrado algunas mañas utilizadas tanto por el gobierno como opositores para hablar del tema.

El asunto clave es que, dependiendo de cómo se presenta los datos, puede mostrarse con el mismo dataset aumento o disminución en la pobreza sin necesidad de mentir en ninguno de los casos… ¿Pero cómo puede ser esto posible?

¡Reducción de la pobreza!

El argumento a favor habla del porcentaje de pobreza en México: actualmente se encuentra en 45.5% y en 2010 era 46.1%. Es decir, ahora 45 de cada 100 mexicanos viven en pobreza;  antes eran 46. Parece una pequeña mejora, pero mejora al final de cuentas.

Aumenta la pobreza en México

Por otra parte, la estadística en contra habla de números absolutos. Es decir, la pobreza aumentó de 52.8 a 53.2 millones de mexicanos. Eso equivale a 500 mil mexicanos más en la pobreza, una situación lamentable.

Ambas premisas son verdad, pues se refieren al mismo hecho visto de maneras distinta. La razón para que ambas posturas sean verdaderas al mismo tiempo es que la población aumentó más que la pobreza entre 2010 y 2014.

¿Cómo se ve este tema en los medios? Les dejo el link donde pueden revisarlo:

www.elfinanciero.com.mx/archivo/aumento-en-500-000-personas-numero-de-pobres-en-mexico.html

¿Cómo pueden ser las dos cosas verdad?

Para aclarar las cosas pondré un ejemplo muy sencillo. Supongamos que estamos en un salón de clases de 20 personas, de las cuales la mitad reprobó matemáticas el primer año. Es decir, 10 personas, o 50% de los alumnos. El segundo año, el número de estudiantes aumenta a 30 personas. En esta ocasión, el número de reprobados es 13, o 43% de los alumnos.

En otras palabras, la proporción de alumnos reprobados disminuyó, pero el número total o absoluto de reprobados aumentó. Son dos caras de la misma moneda.

Si quisiéramos defender al profesor, nos enfocaríamos en que el número de reprobados cayó de 50% a 43%… Pero, si queremos atacar, hablaríamos de que el número de reprobados subió de 10 a 13. Una vez más, ambas afirmaciones son ciertas pero presentan una imagen completamente distinta.

Creo que este segundo post nos deja dos preguntas: cuando uses datos ¿qué enfoque escogerás? o mejor aún ¿cómo le harás para comunicar las dos caras de esta moneda?

La próxima semana nos vemos aquí para hablar de un mito genial: la correlación.

Datos y estadísticas, las verdades y las mentiras

- el noviembre 12, 2014 en Estadística, Guest posts


¡Saludos, daterxs de Latinoamérica! Christian se une a los y las blogueras de Escuela de Datos para compartirnos sus conocimientos sobre el corazón de los ejercicios dateros: el análisis. No hay visualización reveladora (o scrapeo útil) sin buen análisis, y Christian estará escribiendo acerca de este tema las próximas semanas. ¡Bienvenido a la familia, Christian!


Mark Twain

Con esta serie de publicaciones me gustaría contribuir al uso correcto de los datos y la estadística, sobre todo para nosotros los curiosos que buscamos datos para apoyar causas y posicionamientos.

Vivimos en un mundo rodeado de estadísticas y muchas de ellas no son ciertas. Una muy conocida cita que ilustra su desprestigio es la del ex primer ministro británico Benjamin Disraeli, popularizada por Mark Twain: “hay mentiras, grandes mentiras y estadísticas”.

Las estadísticas son muy valiosas si sabes cómo interpretarlas correctamente (y si lees la letra pequeña)… Pero también me gustaría ilustrar casos en los que se ha usado datos de manera muy particular para aparentar cosas no tan ciertas. En ocasiones, gente bien intencionada llega a conclusiones que, por falta de métodos correctos, no son del todo adecuadas.

Es importante saber concluir correctamente a partir de datos para no contribuir al mundo oscuro de las estadísticas falsas. Y, si no tienes planes de contribuir a ese mundo, al menos estos conocimientos serán de gran ayuda para que no te vean la cara.

En las siguientes semanas, estaré publicando una serie de posts sobre:

  • Métodos sencillos para llegar a conclusiones con datos.
  • Ejemplos de usos correctos e incorrectos de estadísticas.
  • Los vicios más comunes en el análisis de datos.
  • Lugares donde puedes conseguir los mejores datos.

Comenzamos la siguiente semana. Mientras tanto, un par de recursos para alimentar su interés:

    • Regla de oro: la correlación no implica que una de las variables analizadas tiene un efecto sobre otra… http://www.tylervigen.com/
    • Si quieres profundizar en el tema de las estadísticas y las mentiras, te recomiendo leer el libro How to Lie with Statistics publicado en 1954 por Darrell Huff.

Consejos prácticos para entender datos estadísticos

- el marzo 18, 2014 en Experiencias, Tutoriales

Esta sesión se centrará en los portales estadísticos, en los que podemos hallar un montón de datos de los que extraer historias periodísticas. Pero, exactamente, ¿qué hay? ¿Hay datos de estadísticas locales en el Instituto Nacional de Estadística o debo acudir a un portal local? ¿Puedo encontrar datos hiperlocales como las paradas de autobús o las escuelas de un barrio? ¿Los encuentro en un único portal o tengo que pasearme por varios?

pdd_6.jpg

Figura 1: Posibilidades infográficas con Infogr.am

17-17.45 h // «Errores de periodismo de datos. El proyecto Colibrí», con Diego Pasqual (Programador Proyecto Colibrí)

El PROYECTO COLIBRÍ es una iniciativa ciudadana que pretende servir de puente entre la comunidad de programadores y periodistas y la web del Congreso del Gobierno de España, para así facilitar el acceso a la información que en dicha web se puede encontrar. A partir de la experiencia de programar Proyecto Colibrí, Diego Pasqual nos contará lo aprendido: «una gran lección sobre cómo no hacer las cosas, desde el análisis hasta el diseño e implementación de la arquitectura, y me gustaría compartir con vosotros cómo no hacer un proyecto opendata».

18.15-20 h // Cómo descifrar los datos de los portales estadísticos, con Xavier Badosa (Institut d’Estadística de Catalunya, Idescat).

Xavier Badosa imparte el taller con el objetivo de presentar las posibilidades de reutilización de datos de una oficina estadística oficial como el Idescat. Se explicará la organización de la información en el Idescat y se mostrarán ejemplos de descarga de datos, de incrustación de soluciones ya realizadas y de consumo de servicios. En el campo de la visualización de datos, se explicará la funcionalidad de Google Public Data Explorer, en que el Idescat ofrece un conjunto de datos municipales y comarcales, así como de la biblioteca Idescat Visual.

Información práctica

Las sesiones de trabajo de Periodismo de Datos quieren ser unos encuentros prácticos con dos objetivos: aprender y profundizar en el trabajo con datos mediante talleres, y dar a conocer proyectos locales.

  • Fecha: 20 marzo 2014
  • Horario: 17:00 h – 20:00 h
  • Precio de la entrada: 3 €
  • Espacio: Mirador
  • Organiza Centre de Cultura Contemporània de Barcelona y Escuela de Datos de Open Knowledge Foundation Spain