base de datos – Escuela De Datos http://es.schoolofdata.org evidencia es poder Wed, 30 May 2018 05:23:23 +0000 es hourly 1 https://wordpress.org/?v=5.3.2 114974193 Explorer de MediaCloud: Obtén datos sobre la cobertura mediática de un tema http://es.schoolofdata.org/2018/05/29/explorer-de-mediacloud-obten-datos-sobre-la-cobertura-mediatica-de-un-tema/ http://es.schoolofdata.org/2018/05/29/explorer-de-mediacloud-obten-datos-sobre-la-cobertura-mediatica-de-un-tema/#respond Tue, 29 May 2018 19:58:24 +0000 http://es.schoolofdata.org/?p=2537 ¿Cómo cubren los medios de comunicación cierto tema? Esta es una pregunta muy común y para respondérsela muchos investigadores han recolectado datos de diversas maneras. En este tutorial te explicamos las funciones de Explorer, una de las herramientas de MediaCloud, un proyecto que hace scrapping en las páginas de muchos medios en línea y clasifica las historias, además de que te permite descargar y obtener bases de datos sobre la cobertura mediática de los temas que busques de manera fácil.

MediaCloud es una plataforma open source que registra el discurso mediático sistematizando el contenido noticioso de más de 25 mil fuentes digitales de más de 200 países, en múltiples idiomas. Esto, con la intención de potenciar el análisis que se hace sobre la atención que un tema particular tiene en la agenda mediática.

Por sus funciones, es una herramienta muy útil para periodistas, activistas, académicos, investigadores, creadores de contenido y organizaciones sociales.  MediaCloud tiene tres herramientas principales: Explorer, TopicMapper y SourceManager. En este tutorial te enseñamos cómo empezar a usar Explorer.

Explorer es una herramienta que te permite buscar en la base de datos de MediaCloud, visualizar los resultados de esa búsqueda y descargar un archivo .CSV con las urls de las historias que coinciden con tu búsqueda. Con este buscador, obtendrás rápidamente un panorama general sobre cómo un tema de tu interés es cubierto por los medios digitales analizando la atención, el lenguaje y la representación del tema.

Explorer es un buscador en el cual puedes agregar las consultas o querys que desees y que además puedes ajustar al elegir fuentes de noticias específicas o una colección de fuentes y un rango de fechas. Explorer te permitirá identificar las fuentes e historias que lideran la conversación mediática sobre este tema, el lenguaje utilizado para hablar de él y las personas y lugares que mencionan.

Cómo buscar.

Luego de registrarte en MediaCloud entra a https://explorer.mediacloud.org y usa la caja de búsqueda para conocer sobre el tema de tu interés.  

 

Al hacer una búsqueda, se desplegarán las siguientes opciones que te permitirán refinarla:

Enter a query

Haz una consulta. Escribe los temas, personajes o palabras clave que te interesa ver en los medios. Puedes usar operadores boléanos y otros parámetros de búsqueda avanzada que te describen aquí.

Select media

Selecciona los medios o las colecciones de fuentes de noticia que quieres buscar. MediaCloud cuenta con colecciones creadas previamente que puedes utilizar. Solo haz click en + Add media y busca entre las colecciones por zona geográfica, por alcance de la cobertura o busca medios específicos que quieres añadir a tu recolección de historias.

For dates

Escoge un período de tiempo entre dos fechas que filtre las historias que aparecerán en tu búsqueda.

 

Los resultados de tu búsqueda

En el panorama temático que Explorer presenta, ofrece diferentes visualizaciones y análisis sobre las historias que coinciden con tu búsqueda. Estos se concentran en trés áreas principales: Atención, Lenguaje, y Personas y Lugares. Cada una de estas funciones te permite descargar los resultados al hacer click en el botón Download Options y en algunas secciones te permitirá también descargar los resultados como imagen o gráfico.

 

ATENCIÓN: 

 

Attention Over Time

A través de una gráfica de líneas, Explorer te muestra la atención que los medios le prestaron a los temas de tu consulta para que entiendas cómo fueron cubiertos a lo largo del tiempo. Las alzas en el gráfico pueden evidenciar un evento clave o una historia popular. Puedes elegir entre ver un conteo de historias o un porcentaje que normaliza los resultados.

Total Attention

En esta sección, se compara el número total de historias que coinciden con tu búsqueda. Es muy útil cuando tu búsqueda incluye más de un query o consulta. O puedes añadir una nueva consulta escribiendo un asterisco * en los mismos rangos de fechas y con las mismas fuentes, para hacer obtener todos los resultados de historias independientemente de tu tema.

Top Themes

La cobertura noticiosa se clasifica en temas para identificar narrativas diferentes. A partir de una lista fija de temas noticiosos detectados, distribuye las historias que coinciden con tu búsqueda entre ellas. Te muestra un gráfico en el que cada coincidencia es un círculo de color, rodeado por un círculo gris que representa a todas las historias de tu búsqueda, para que sepas qué tantas de las historias están dentro de este tema. Esta clasificación se realiza a partir de un modelo construido tomando en cuenta una indexación anotada del New York Times que resultó en esta lista de 600 temas.

Sample Stories

Esta es una muestra aleatoria de historias sobre tu tema. Al menos una oración de esta historia coincide con tu búsqueda. Puedes ver algunas o descargar un CSV con las historias y sus URLs.

LENGUAJE:

 

Top Words

Te muestra las palabras más utilizadas con cada búsqueda. Este panorama de palabras puede ayudarte a identificar de qué manera se aborda este tema en los medios digitales. La nube de palabras se muestra de manera ordenada: aquellas que más aparecen tendrán un mayor tamaño y estarán primero en la lista. Se basa en una muestra representativa de las historias, pero no en todos los resultados de la búsqueda.  El conteo de palabras completo se puede descargar como CSV y también una versión de bigramas (frases de dos palabras) o trigramas (frases de tres palabras) que más se usan en las historias. Cuenta las palabras en base a su raíz.

Word Space

Para entender qué palabras se usan junto a otras, esta función te muestra una gráfica con las 50 palabras más usadas en el tema. Mientras más grande y oscura sea, más aparece en las historias de los medios. Las palabras se distribuyen en un radio según qué tan similar aparecen juntas en el reporteo general de noticias. Al mover el cursor por el radio verás cómo se resaltan palabras que son frecuentemente usadas juntas. La distribución se basa en el modelo de machine learning word2vec y un proyecto de Google News.

Compare Top Words

Esta sección compara las palabras más utilizadas en cada una de tus consultas y las ordena de mayor a menor, para enfatizar en la diferencia de lenguaje utilizado en las historias recopiladas por MediaCloud para cada consulta.

PERSONAS Y LUGARES:

 

Top People

Ver a quienes mencionan en las historias puede darte una idea de cómo los medios cubren el tema de tu interés. En esta lista MediaCloud te presenta los personajes que más aparecen en una muestra de historias. Al hacer click en un nombre, lo puedes añadir a tu consulta o búsqueda. Esto se logra utilizado el Reconocedor de Entidades Nombradas de Stanford. Cada historia es etiquetada con las personas, organizaciones, países y estados que menciona.

Top Organizations

Esta sección funciona igual que la anterior, pero con nombres de organizaciones, empresas e instituciones.

Geographic Coverage

La cobertura de un tema puede variar en función del lugar del que se habla. Al revisar la geografía a través de un mapa puedes comparar los países que fueron el centro de las historias. Los lugares con un color más intenso fueron repetidamente el foco de las historias.

Con este panorama amplio, Explorer facilita sacar algunas conclusiones y preparar gráficos que dan insights sobre cómo se aborda un tema en los medios digitales.

Cómo se creó está herramienta

MediaCloud es un proyecto creado por los equipos del Centro para Medios Cívicos del MIT y el Centro Berkman Klein para el Internet y la Sociedad de la Universidad de Harvard.  Para lograr la capacidad de análisis y de rastreo de datos esta herramienta colecciona los hipervínculos y otro tipo de enlaces: Bitly, Facebook y Twitter, por ejemplo. La gran mayoría del contenido proviene de los canales RSS de cada organización mediática. Los datos de cada fuente varían, dependiendo del momento en que MediaCloud comenzó a hacer el scrapping o raspado de datos.  Debido a restricciones de derechos de autor, la herramienta no puede proveer los textos de las historias, pero presenta la lista de URLs para que el usuario pueda obtenerlo por su cuenta.

Flattr this!

]]>
http://es.schoolofdata.org/2018/05/29/explorer-de-mediacloud-obten-datos-sobre-la-cobertura-mediatica-de-un-tema/feed/ 0 2537
Algoritmos y clusters: Encuentra errores y límpialos de manera fácil con OpenRefine http://es.schoolofdata.org/2018/05/03/algoritmos-y-clusters-encuentra-errores-y-limpialos-de-manera-facil-con-openrefine/ http://es.schoolofdata.org/2018/05/03/algoritmos-y-clusters-encuentra-errores-y-limpialos-de-manera-facil-con-openrefine/#respond Thu, 03 May 2018 20:32:40 +0000 http://es.schoolofdata.org/?p=2486

¿Te has encontrado con bases de datos que tienen pequeños errores de transcripción? ¿Espacios de más, uso desordenado de mayúsculas y minúsculas, o registros que representan al mismo dato pero que fueron escritos con pequeñas diferencias? Con la herramienta OpenRefine puedes automatizar mucho del doloroso proceso de limpiar una base de datos. En este tutorial te enseñaremos una de sus funciones más útiles: la clusterización —o generación de agrupaciones automáticas— y los diferentes algoritmos que determinan las coincidencias entre registros.

El concepto de clusters (o agrupaciones, en español) se utiliza mucho en ciencias sociales y exactas para referirse a un tipo de análisis que toma un conjunto de datos y las reorganiza en grupos con características similares.  

En OpenRefine, cuando uno hace clusters significa que el programa está encontrando grupos de valores diferentes que pueden ser representaciones alternativas del mismo valor. Por ejemplo, si hablamos de ciudades, “New York”, “new york” y “Nueva York” son tres valores diferentes pero que se refieren al mismo concepto, sólo con cambios de idioma y de uso de mayúsculas y minúsculas.

Vale la pena mencionar que las agrupaciones en OpenRefine sólo se generan automáticamente en la sintaxis (o sea, el orden y la composición de caracteres que tiene como valor una celda) y aunque estos métodos son útiles para encontrar errores e inconsistencias, no son lo suficientemente avanzados para determinar agrupaciones a nivel semántico (o sea, el significado de un valor).

Estos métodos se pueden aplicar determinando cuántos grados de cercanía -en otras palabras, qué tan estrechas o flojas quieres encontrar las coincidencias-. Al graduar la cercanía encuentras coincidencias más o menos exactas. Por eso es importante que si bien, los algoritmos ayudan a automatizar la tarea de limpieza, un ojo y cerebro humano va administrando qué tan agresivas deben ser estas uniones para encontrar coincidencias, para evitar que asocie datos que no deberían ir juntos.

 

Conozcamos los algoritmos: En qué consisten estas  metodologías

Existen dos grandes metodologías para hacer clusters: la colisión clave y el vecino más cercano.  Open Refine utiliza diferentes variantes de estos dos métodos. Aquí te explicamos cuál es el proceso detrás de cada uno.

Sección 1: Métodos de colisión clave

Estos se basan en la idea de crear una representación alternativa de un valor inicial, el cual se convierte en una clave. Una clave contiene las partes más distintivas y significativas de un valor. OpenRefine va buscando en los demás registros qué otros valores se parecen a esta clave para agruparlos. El procesamiento requerido para este método no es muy complejo, por lo que presenta resultados muy rápidos. Este método tiene varias funciones diferentes que se pueden administrar en OpenRefine.

  • Fingerprint

Un método fácil y simple. Quita todos los espacios en blanco, cambia todos los caracteres a minúsculas, remueve toda la puntuación y normaliza cualquier caracter especial a una versión estándar. Luego, parte el texto y aplica espacios en blanco. Así encuentra las coincidencias.

  • N-Gram Fingerprint

Es similar al anterior, pero en vez de separar los caracteres por espacios en blanco, usa una cantidad a la enésima (n)  potencia de espacios que el usuario puede determinar.

  • Fingerprint Fonético

Este método no revisa los caracteres textuales sino su pronunciación y fonética: la manera en que esa palabra se pronunciaría, en vez de revisar similitudes en la escritura. Es muy útil para limpiar datos con nombres particulares, ya sea de lugares y personas. En ocasiones, los errores de registro se deben a que se registran a partir de la pronunciación. Sirve para encontrar similitudes entre sonidos parecidos pero que se escriben muy distinto como el sonido de “sh” y “x”, que en ocasiones son similares.

 

Sección 2: Vecino más cercano (Nearest neighbor)

Estos métodos proveen un parámetro o radio de aproximación alrededor de un valor o palabra, y va encontrando los grados de similitud entre éste y otros registros. Debido a los cálculos necesarios, estos métodos son más tardados en procesar.

  • Distancia Levenshtein

Este método se basa en el trabajo y proceso que implicaría cambiar a un registro A para que sea igual a un registro B. La distancia Levenshtein mide cuántas operaciones de edición -o cuántos pasos- le tomaría a alguien hacer que un dato se parezca al otro. Encuentra coincidencias entre los datos que están separados por la menor cantidad de pasos o cambios.

Por ejemplo, “Paris” y “paris” tienen una distancia de edición de 1, ya que solo se debe cambiar la P mayúscula a una minúscula. Sin embargo, “Nueva York” y “nuevayork” tienen una distancia de 3 pasos: dos sustituciones y un borrón.

  •  PPM (Prediction by Partial Matching)

Este método se utiliza para encontrar coincidencias en secuencias de ADN. Estima la similitud entre textos y determina su contenido idéntico. Por ejemplo, con el ADN encuentra similitud entre dos muestras para indicar un grado de familiaridad. Es común en este campo que no se busque una coincidencia exacta (que implicaría trabajar con muestras de ADN de la misma persona) sino encontrar un alto grado de coincidencia y familiaridad.

Si dos cadenas A y B son idénticas, al concatenar A+B debería de producirse muy poca diferencia. Pero si A y B son diferentes, al concatenar A+B se deberían producir diferencias muy dramáticas en la longitud de la cadena.

 


Paso a paso. Aplicando los clusters en OpenRefine

OpenRefine es un programa que corre a través de tu browser o navegador de internet. Para instalarlo, es necesario que lo descargues en este link y sigas las instrucciones para tu equipo. Usualmente, solo requiere que descargues la carpeta, la descomprimas y abras la aplicación.

OpenRefine debería abrir una ventana negra con algunos códigos y abrirse automáticamente en tu navegador de internet. Si no funciona, prueba ir a la dirección http://127.0.0.1:3333/

Vamos a hacer un ejemplo con un conjunto de datos sobre financistas a las elecciones del 2017-2018 en Estados Unidos que puedes descargar aquí.

 


 

Para subir el archivo, solo sigue los siguientes pasos:

Create project > Elegir archivo  (selecciona el archivo ZIP que descargaste) > Next

OpenRefine te mostrará una previsualización de tu conjunto de datos. En este caso, deberás desmarcar la opción >Parse Next para indicar que tu base de datos no tiene títulos de columna en la primera fila.

En >Project Name,  escribe “Financiamiento político_Estados Unidos 2017-2018” y da click a >Create project para guardar este proyecto.

 


 

En la columna 8 encontrarás el listado de financistas. Haciendo click en el triángulo a la par del título de esta columna, selecciona >Facet >Text facet para generar un filtro de texto.

 

A un lado, te aparecerán todos los registros de financistas en orden alfabético, con un número a la par que indica cuántas veces aparece este nombre en la base de datos. Haz click en el botón  >Cluster  para empezar a generar agrupaciones automáticas.

 

 

 

 

 


 

En la siguiente ventana puedes aplicar todos los métodos de clusters que te enseñamos. Puedes administrarlo cambiando las opciones  >Method,  >Keying Function o  >Distance Function.

 

 

 

 

 

 

Con estos controles podrás ir determinando qué tan agresivos son tus clusters. Independientemente del método que eligas, el proceso es el mismo. Al seleccionar el método y sus opciones, OpenRefine comenzará a procesar los datos para encontrar coincidencias y armarlas en un cluster o agrupación.

 


 

En este ejemplo podemos ver que el programa encontró 531 valores muy similares, escritos de 8 maneras diferentes para decir lo mismo: que un financista se llama “JEFF FLAKE FOR U.S SENATE, INC”. Como puedes ver, a la par de cada manera de escribir, OpenRefine te muestra cuántas veces aparece de esta manera el valor.

En este caso te muestra dos opciones. La primera, >Merge incluye una casilla que puedes seleccionar en caso de que sí quieras que OpenRefine una estos valores. En la segunda opción >New Cell Value, el programa te da la oportunidad de que edites y decidas de qué manera quieres que se reescriba este cluster. Así, irás administrando la agrupación valor por valor, decidiendo si quieres o no agrupar los valores con >Merge y la opción de escritura bajo la cual estos valores se agruparán con >New Cell Value

Con este ejemplo, si aceptas todas las agrupaciones de cluster que te permite el método >Key Collision >Fingerprint verás como la columna de financistas pasó de tener 5,664 opciones diferentes, a tener 5,136 registros diferentes. 528 valores menos que eran repetidos pero contenían errores gramaticales o de sintaxis que hacían que la computadora no los tomara como iguales.

Así, en estos sencillos pasos, OpenRefine editó los valores de 54,807 celdas que manualmente tomarían demasiado tiempo para limpiar y estandarizar.

 


 

Para finalizar, haz click en  >Export para descargar tu base de datos limpia en el formato que prefieras.Ya sea valores separados por coma, o por tabulaciones; formato para Excel o HTML, OpenRefine te permite escoger entre diversos formatos para descargar la versión limpia de tu base de datos.

 

Cuéntanos en qué casos puedes utilizar los clusters y OpenRefine para limpiar tus datos. Escríbenos a [email protected] o por twitter @escueladedatos y estaremos compartiendo algunos ejemplos de usos de esta herramienta. 


 

Flattr this!

]]>
http://es.schoolofdata.org/2018/05/03/algoritmos-y-clusters-encuentra-errores-y-limpialos-de-manera-facil-con-openrefine/feed/ 0 2486
Cómo una base de datos en México se adelantó al gobierno para buscar desaparecidos http://es.schoolofdata.org/2017/12/05/como-una-base-de-datos-en-mexico-se-adelanto-al-gobierno-para-buscar-desaparecidos/ http://es.schoolofdata.org/2017/12/05/como-una-base-de-datos-en-mexico-se-adelanto-al-gobierno-para-buscar-desaparecidos/#respond Tue, 05 Dec 2017 18:56:38 +0000 http://es.schoolofdata.org/?p=2369 Peronasdesaparecidas.org.mx es el nombre de la interfaz creada por la organización sin fines de lucro Data Cívica, que logró acercar datos cruciales a familias y organizaciones que buscan a personas desparecidas en México. Estos datos, como el nombre propio de las personas en los casos del fuero común (estatal o de provincias), no están actualmente publicados en la base oficial gubernamental, el Registro Nacional de Personas Extraviadas o Desaparecidas (RNPED).

 

A dos semanas de su lanzamiento (el 14 de noviembre en Ciudad de México) la publicación de más de 31 mil nombres de personas desaparecidas propició que al menos 15 familias y dos colectivos de búsqueda acusen errores tan fundamentales como que el nombre en la base de datos no corresponde al familiar desaparecido, sino a otro famliar, que no lo está.

«El primer gran error (de RNPED), es que las personas desaparecidas no están; el segundo, que datos tan importante para la investigación como la fecha de desaparición, están mal. En uno de los casos, nos contactó la hija de la persona desaparecida diciéndonos que el nombre que está en la base es el de su tío (en lugar del de su padre desaparecido)», dijo en entrevista Héctor Chávez, analista de datos en Data Cívica.

Además de facilitar a familias y organizaciones la verificación de fechas y lugar de desaparición junto con los nombres, la base permitirá una actualización de la base que le otorgue mayor confiabilidad, pues podrá investigarse quiénes, por ejemplo, salen de la base de datos, y por qué razones.

«Podemos ya contar historias sobre las personas desaparecidas con esos nombres. ¿Por qué salió de la base? ¿Se rectificó el delito de desaparición por el de secuestro, fue encontrada la persona con vida, fue encontrada sin vida?», dice Chávez.

Una más de las ventajas de la publicación de los nombres es que finalmente puede cruzarse esta base con las que tienen las organizaciones y colectivas de búsqueda de personas desaparecidas que se han construido en varias entidades del país, y así combatir una de las mayores barreras para el análisis confiable de estos datos: la cifra negra.

«En contacto directo, nos han enviado también doscientas veinte fotos de familiares. Al menos quince familias y dos colectivos de búsqueda nos han contactado. La solución que estamos planteando es en el futuro es publicar un formulario donde sea posible añadir la información del familiar o persona en cuestión».

Días después de la publicación de personasdesaparecidas.org.mx, el representante del poder ejecutivo mexicano firmó la Ley General de Desaparición Forzada de Personas y de Desaparición cometida por particulares, luego de dos años de que se publicara el proyecto de ley en la Gaceta Oficial de la Federación.

Esta ley contempla la publicación obligatoria de todos los nombres de las personas desparecidas en la base oficial, del fuero común o federal. No obstante, la ley no cuenta con mecanismos concretos de implementación aún, como un presupuesto que lo respalde. Por ello, Chávez considera que la publicación de su base se adelanta a la implementación de la ley.

«Estamos ganando meses o hasta años hasta que se publiquen (los nombres en RNPED). La nueva ley sí se habla muy bien con nuestro registro, sin embargo estamos ganando tiempo para las familias en este proceso de memoria y justicia para los desaparecidos”.

Cómo se hizo

La base consiste en la publicación de los datos oficiales de RNPED más 31 mil 968 nombres faltantes. Para lograrlo, el equipo de Data Cívica pasó dos años ideando e intentando distintos métodos.

“El principal camino fue darnos cuenta de que en internet está la base de de datos disponible, donde al insertar el nombre, Sergio, salen todos los registros junto con sus atributos: la fecha donde desapareció, el municipio donde desapareció, entre otras, pero no el nombre completo».

La solución que ideó el equipo de Data Cívica fue ingresar nombre por nombre a la base de datos y descargar cada uno de los registros de cada nombre y apellido para después cruzar los distintos registros y encontrar concordancias.

Aunque al principio trataron de construir la lista de nombres manualmente, finalmente llegaron a la idea de de automatizar el ingreso de nombres usando los que se encuentran en las bases de datos del beneficiarios de los burós de salud y asistencia social mexicanos, el Instituto Mexicano del Seguro Social (IMSS) y de Secretaría de Desarrollo Social (respectivamente).

La automatización, ingreso y descargas de los datos de estas bases tardó alrededor de 5 días, y dependió para lograrlo no sólo de la velocidad de procesamiento bajo el código utilizado, sino de la velocidad de conexión a internet que permitiera la descarga de 18 mil bases de datos.

Pero el proceso más intensivo del análisis ocurrió después de la descarga.

«El reto fue el proceso de limpieza y de verificación. Consistió en verificar contra RNPED que cada «Munoz» que está mal escrito,  cada Zúñiga y otros,  realmente está mal en el RNPED, y no es un error de la automatización de nuestros nombres».

Así, el equipo de Data Cívica se cercioró de que si en la base aparece J en lugar de un nombre, sea porque así está en la base original.

Flattr this!

]]>
http://es.schoolofdata.org/2017/12/05/como-una-base-de-datos-en-mexico-se-adelanto-al-gobierno-para-buscar-desaparecidos/feed/ 0 2369
¿Qué implica la data de género? http://es.schoolofdata.org/2017/06/14/que-implica-la-data-de-genero/ http://es.schoolofdata.org/2017/06/14/que-implica-la-data-de-genero/#respond Wed, 14 Jun 2017 19:09:34 +0000 http://es.schoolofdata.org/?p=2071 Vivas Nos Queremos 8
En uno de los encuentros que tuvimos en Abrelatam 2016, a Majo Greloni (directora de Comunicación y Campañas Online en Wingu) y a mi nos motivó la curiosidad de identificar los desafíos sobre género y datos desde la diversidad que siempre caracteriza a este evento; fuimos voluntarias para conducir esta mesa y uno de los desafíos que se quedó rondando en mi cabeza tenía que ver con identificar qué se puede hacer con la poca data de género que tenemos para incidir en políticas públicas.

Entrando a una reflexión más profunda, me doy cuenta de que cuando empezamos una conversación sobre data de género, en la mayoría de los casos la primera puntualización que resalta es hablar sobre violencia de género y la ausencia de información que llega a ser una suerte de común denominador en Latinoamérica. Lo primero tiene que ver con que tendemos a limitar el tema de género al enfoque de violencia por el contexto urgente de nuestros países, y esa mirada es necesaria aunque no la única; lo segundo, un poco más preocupante, tiene que ver con la falta de datos de género, y si existen, la cuestionable calidad de los mismos.

Cuando hablamos de data de género no nos referimos meramente a un indicador enunciativo de hombres y mujeres dentro una base de datos: estamos hablando de todas las dimensiones que comprenden estos dos diferenciadores mayores, yendo a la construcción cultural y social más allá de lo biológicamente determinado. Esta construcción implica la comprensión de la vida de las mujeres y las disparidades, los desafíos políticos y legales que enfrentan y les impide avanzar; elementos que normalmente resultan ausentes de los datasets ante la falta del corte de género como componente primario de las bases de datos.

La perspectiva de género, en este sentido, alude no sólo al potencial de granularidad y calidad de datos y su consiguiente valor derivado del análisis, sino también a su potencial político, transformador de la realidad, es decir, una propuesta política que exige un compromiso a favor de la construcción de relaciones de igualdad de género. Sin buenos datos, nos perdemos de detalles cruciales que pueden cambiar disparidades y acortar caminos en los desafíos planteados; no podemos ver con precisión qué es lo que necesita ser modificado, si es que las soluciones planteadas funcionan o no, o si hay progreso en lo que estamos haciendo.

 

Desde cualquiera que sea nuestra rama de interés, la data de género implica no solamente una cuestión técnica que en definitiva tiene un peso importante y que determina la calidad de futuros análisis, al mismo tiempo hablamos de una cuestión basada en política y por lo tanto, la determinación de qué valores medir. En ese sentido, si consideramos que tenemos recursos limitados para la recolección de datos, la elección sobre qué medir, cómo medirlo y quién está midiendo puede profundizar una división inadecuada de datos y proporcionar datos sexistas o poco útiles.

No hay igualdad de género sin igualdad de datos

«Medimos lo que valoramos y si no es parte de la mentalidad que, por ejemplo, el trabajo no remunerado de las mujeres en el hogar tiene un valor económico además de otros beneficios y, por lo tanto, no medimos ese trabajo, entonces no podemos ver cómo las mujeres impulsan el desarrollo económico y productivo de los países», dice Emily Courey Pryor, directora de la iniciativa Data2X de la Fundación de las Naciones Unidas, cuyo objeto es mejorar la disponibilidad y el uso de los datos de género.

El vínculo entre los datos de género y el empoderamiento económico de las mujeres es un ejemplo enorme, y sin embargo es sólo una de las múltiples áreas en las que esta data es carente o inexistente.

Pasar por alto estas valoraciones contribuye a una cultura de invisibilidad; como el ejemplo expuesto por Courey existen otros tantos, relacionados por ejemplo a la edad reproductiva de las mujeres, que según la OMS, se define entre 15 y 49 años; y sin embargo las niñas menores de 15 años representan 2 millones de los 7,3 millones de embarazos de niñas menores cada año en los países en desarrollo, según UNFPA. Estos 2 millones de niñas no aparecen en las estadísticas y sin embargo están ahí.

La data de género, precisa y completa, abre la puerta a la identificación y consiguiente subsanación de estas brechas de datos, que a su vez se traducen en promoción de políticas efectivas para el cierre de brechas de desigualdad.

Con este panorama, conversando con Natália Mazzote (Co-Directora en Gênero e Número y Administradora de programas en Escola de Dados Brasil), concordamos que las varias implicaciones de los datos de género se convierten en un reto desde el punto de vista de la planificación estratégica: contamos con bases de datos e información sobre temas varios, como por ejemplo la empleabilidad en carreras universitarias tecnológicas, pero no contamos con información suficiente para medir, por ejemplo, la asimetría de género pues el recorte de datos de género se excluye o no se considera como importante dentro de estas recolecciones; a fin de cubrir esta brecha, el proceso al que normalmente recurrimos quienes trabajamos género desde distintas perspectivas, es el de crear una estructura propia recurriendo a fuentes alternas, especialistas en la materia y otros.

Esto implica un gran esfuerzo al momento de generar bases de datos y análisis como resultado de investigaciones, y poner este conjunto disponible para cualquier interesado; pero por momentos queda limitado al alcance local al no tener estándares internacionales que nos permitan tener una comparación macro de lo que está pasando a nivel regional.

 

Dos esfuerzos más visibles para subsanar la falta de estándares internacionales, mejorar la disponibilidad y el uso de los datos de género son:

  • Publicado en septiembre de 2015, los 16 indicadores globales «Listos para medir» (Ready to Measure) y monitorear los resultados para mujeres y niñas sobre los Objetivos de Género de los Objetivos de Desarrollo Sostenible (ODS), lanzados por la Organización de las Naciones Unidas con una nueva agenda de desarrollo sostenible y metas al 2030; los 17 objetivos que componen este compromiso han planteado un escenario más transversal para el tratamiento de las disparidades de género: la incorporación sistemática de una perspectiva de género en la implementación de la agenda global de trabajo, reflejada en la identificación de la meta 5 denominada “Igualdad de Género” y 11 ODS incluyen metas específicas desagregadas por género.

Impulsado por Data2x, quienes han identificado 28 brechas de datos en cinco ámbitos: salud, educación, oportunidades económicas, participación política y seguridad humana, ya cuentan con definiciones acordadas internacionalmente, que se elaboran a través de los instrumentos de recolección de datos disponibles, que ya cuentan con una cobertura relativamente amplia, que no tienen sesgos de género incorporados, y que están basados en las recomendaciones de ONU Mujeres, el Grupo Interinstitucional y de Expertos sobre Estadísticas de Género, el Grupo de Trabajo Abierto, los indicadores de los ODS y la actual lista de la Comisión de Estadística de las Naciones Unidas, incluyendo pero no limitado a la meta cinco sobre Igualdad de Género de los Objetivos de Desarrollo Sostenible. Están en la búsqueda de unir esfuerzos con otros socios, expertos y agencias nacionales para poner a prueba los indicadores “Listos para medir” y motivar el inicio de la recolección de datos de género.

  • Más reciente, de septiembre de 2016, la iniciativa emblemática “Haciendo que cada mujer y cada niña cuenten” (Making Every Woman and Girl Count) de ONU Mujeres. El programa de cinco años invertirá los recursos y la experiencia necesarios, centrándose en 12 países pioneros, para generar, priorizar y utilizar los datos de género. Ayudará a los países a formular políticas basadas en datos concretos y orientadas a aplicar plenamente los progresos logrados en relación con los objetivos de desarrollo sostenible (GDS).

 

En ambos casos existen objetivos claramente trazados, en búsqueda de resultados que ciertamente no veremos en el corto plazo, pero que significan un esfuerzo importante por trascender en la necesidad de mejores datos de género.

 

La labor continua y el rol desde sociedad civil

 

En el continuo ejercicio de demanda y generación de mejor data de género por parte de la ciudadanía hacia los gobiernos, vale la penar que como ejercicio recordemos y apliquemos los Principios Básicos para la Revolución de Datos para el Desarrollo Sostenible, presentado en el informe de la revolución de datos “Un mundo que cuenta” (A world that counts) de Naciones Unidas, para entender qué pedimos, cuáles las características que necesitamos y cómo lo pedimos:

  1. CALIDAD Y RELEVANCIA DE LOS DATOS: Lo había mencionado anteriormente, la invisibilización del corte de género deriva en un análisis de dataset sesgados, lo que limita la posibilidad de generar transformaciones.
  2. DESAGREGACIÓN DE DATOS: Se ha considerado al corte de género como omnipresente en las bases de datos, sabemos que se hizo, pero en algún punto alguien consideró que no eran importantes para el análisis; esta práctica invisibiliza realidades.
  3. OPORTUNIDAD DE DATOS: Los datos retrasados ​​son datos negados; la falta de datos desagregados y en el tiempo oportuno significan un dificultad mayor y una demora para la pertinente revisión de las políticas públicas.
  4. TRANSPARENCIA DE DATOS Y APERTURA: Todos los datos sobre cuestiones públicas y / o financiados por fondos públicos, incluidos los datos producidos por el sector privado, deberían hacerse públicos y «abiertos por defecto», con excepciones estrictas para las preocupaciones reales de seguridad o privacidad. En lo relacionado a género específicamente, la falta de transparencia y apertura de estos datos está generando poca precisión en la identificación de problemas y posibles soluciones, en lo que demandamos al aparato público.
  5. DATOS DE USABILIDAD Y CURACIÓN: La arquitectura de datos debe poner gran énfasis en el diseño centrado en el usuario y en interfaces amigables para el usuario, considerando que los usuarios frecuentes de estos datos, además de los organismos públicos, son organizaciones de sociedad civil. Datasets incomprensibles o información con componentes de complejidad innecesarios, como PDFs con contraseña, no facilitan el consumo de datos.
  6. PROTECCIÓN DE DATOS Y PRIVACIDAD: Es necesario elaborar normativa clara, políticas y marcos jurídicos sólidos que regulen la inclusión y la exclusión voluntaria, la extracción de datos, la reutilización con otros fines, la transferencia y la difusión. Los ciudadanos deberían poder comprender y controlar mejor sus propios datos y proteger a los productores de datos de las demandas de los gobiernos y de otros ataques.
  7. GOBIERNO DE LOS DATOS E INDEPENDENCIA: En la alternancia del poder político, muchas oficinas nacionales de estadística se ven afectadas en sus procesos y continuidad de acciones, las coloca en una posición de vulnerabilidad a la influencia de los grupos políticos y de interés. La calidad de los datos debe ser protegida y mejorada mediante el fortalecimiento y la garantía de que son funcionalmente autónomos, independientes de los ministerios sectoriales y de la influencia política.
  8. RECURSOS Y CAPACIDAD DE LOS DATOS: Una doble responsabilidad, por una parte requiere inversiones, por ejemplo, en capital humano, mejores tecnologías, infraestructura, datos geoespaciales y sistemas de gestión principalmente en sistemas gubernamentales; por otra debe desarrollarse la capacidad de ciencia de datos en los servidores públicos y organizaciones de sociedad civil para generar valor agregado a partir de datos, ello puede convertirse en un elemento complementario de calidad a las estadísticas oficiales.
  9. DERECHOS DE DATOS: Es la comprensión de que la revolución de los datos está estrechamente vinculada al ejercicio y resguardo de los derechos humanos, entre otros, el derecho a ser contados, el derecho a la identidad, el derecho a la privacidad ya la propiedad de los datos personales, el derecho al debido proceso, por nombrar algunos, pero que en esencia implican.

 

Finalmente, como periodistas, investigadores y activistas las puertas están abiertas para replantearnos la perspectiva de nuestras causas y empezar a dar enfoque de datos a los temas de género: ello nos conduce a una discusión en un nivel más puntual y efectivo, trascendiendo más allá de lo mediático y empujando a la reflexión más objetiva que se enfoque justamente en subsanar aquellas disparidades invisibilizadas; los datos son la herramienta más concreta para incidir en políticas públicas.

 

 

Flattr this!

]]>
http://es.schoolofdata.org/2017/06/14/que-implica-la-data-de-genero/feed/ 0 2071
Cómo hacer visualizaciones de datos con Tableau http://es.schoolofdata.org/2016/12/29/como-hacer-visualizaciones-de-datos-con-tableau/ http://es.schoolofdata.org/2016/12/29/como-hacer-visualizaciones-de-datos-con-tableau/#respond Thu, 29 Dec 2016 21:56:14 +0000 https://es.schoolofdata.org/?p=1851 Mi incursión en Tableau surgió como una oportunidad. Hace dos años, trabajaba en una Organización No Gubernamental (ONG) en El Salvador especializada en el tema de mujeres. Mi exjefe estaba por comprar un software especializado en visualizar datos. Se me acercó y me preguntó: «¿Le interesaría aprenderlo?» Dudé. No mucho, pero dudé. Y, pese a las dificultades iniciales, acepté el reto y heme aquí intentando que la gente lo ame tanto como yo lo hago.

De ahí, cada que puedo recomiendo Tableau, una herramienta creada por tres entusiastas de los datos en la Universidad de Stanford, como un excelente aliado en visualización cuando carecemos de equipos multidisciplinarios (conformado por visualizadores, infografistas, diseñadores, entre otros), pues se sustenta en el concepto one man band para contar cierto tipo de temáticas con gráficos. ¡Ojo! Tiene una versión pagada, pero si trabajas en una universidad o lo utilizas para fines académicos puedes solicitar una copia GRATUITA para dos años y válida para ser instalada en dos computadoras acá: http://www.tableau.com/academic/students.

Por eso, hoy quiero compartir contigo cómo puedes hacer visualizaciones de mapas y gráficas que, en su momento, impactaron al funcionario salvadoreño con un set de datos que trabajé durante mi paso por dicho proyecto, enfocado en la problemática de mujeres salvadoreñas deportadas de México y Estados Unidos, un fenómeno que casi no había sido analizado ni comprendido del todo en mi país. Sin más, zambullámonos en el vasto y fascinante mundo de Tableau, ¿sí?

¡Bellísimo así!

Es lo primero que dirás al abrir la nueva versión de Tableau, pues su edición 10 ha apostado por una interfaz más intuitiva para quien se anime a explorar el noble arte de la visualización. Te lo digo yo porque vengo de donde asustan, ya que me tocó aprender a utilizarlo en su versión 7. Como puedes ver en el menú de la izquierda, puedes conectar tus bases desde un archivo (ya sea .xls, .csv, .tsv, entre otros) hasta aquellas que tengas trabajadas en un servidor (MySQL, Oracle Server, etcétera).

image00

 

 

¡Comencemos! Conectaremos mi archivo con la opción Conectar a un archivo > Excel. Buscaremos la base trabajada en mi computadora y Tableau se tomara unos momentos para procesarla. ¡Voilá! Tendremos una previsualización para que podamos revisar la data antes de trabajar con ella. Esta deberías verla de la siguiente forma:

image12

El trabajo de carpintería con una base de datos se vuelve fundamental, pues dicho set se encuentra preparado para ser leído por un programa de computadora como Tableau con el objetivo de que puedan realizarse todas las conexiones y relaciones necesarias para analizar datos que nos hagan ver más allá de lo evidente (Thunder, Thunder,Thundercats, ¡oooooooooooh!).

A ojo de buen cubero, puedes ver que Tableau automáticamente establecer una diferenciación entre aquellos valores que son textos y números; no puede establecer que los años, las latitudes y longitudes son variables que pueden trabajarse de forma diferenciada en el caso de una visualización.

Para cambiarlas, haz clic sobre el ícono Numeral (#) que aparece arriba de dichas categorías > Rol geográfico > Latitud/Longitud. Finalizado este paso, verás que ha cambiado el ícono Numeral (#) por un globo terráqueo. ¡Eso significa que funcionó! ¡Yey! De igual forma, sigue los mismos pasos para la variable Ano y cambíalo por una Cadena que nos servirá para analizar los años de forma continua.

image02

 

 

 

 

¡A trabajar! Demos clic en el recuadro naranja denominado Hoja 1 y sigamos el camino datero hacia nuestro canvas en blanco. Qué belleza, ¿no? Tableau establece una clara diferenciación entre cada aspecto clave de visualización (filtros, marcas, gráficos, hojas, dashboards, entre otros) y, además, simplifica el trabajo mediante el arrastre de variables hacia determinados campos o con solo darle doble clic a las medidas y dimensiones podemos verlas desplegadas en nuestro canvas.

image23

 

Comencemos con un mapa. Para desplegarlo, haz doble clic en Longitud y Latitud; te aparecerá un punto geográfico que localizará a El Salvador en un mapa de OpenStreet. Como necesitamos visibilizar a los 262 municipios del país para visibilizar la temática de las mujeres repatriadas, arrastremos las Medidas Departamento y Municipio hacia la opción Detalle del Menú Marcas. ¡Listo!

image21

¿Ves? Ya podemos ver cómo cambia nuestra forma de visualizar mapas. Gracias a Tableau, podemos estilizar colores y tamaños de los puntos con cantidades o tasas; arrastremos Municipio y Tasa por cada 100,000 habitantes a las opciones Color y Tamaño del menú Marca respectivamente. Así, podemos mostrar la gravedad, repitencia de un fenómeno u otra problemática nacional.

image16

 

 

Pero, ¿qué pasa si no deseas los colores y tamaños preestablecidos de Tableau? Tableau te ofrece la maravillosa ventaja de arreglarlos a tu gusto en las opciones del menú Marca. Acá, yo cambié un poco el tamaño y utilicé la paleta de color púrpura de la herramienta. Para modificarlo, hice lo siguiente: di clic a la opción Color del Menú Marca > Editar Colores > Seleccionar paleta de colores > Púrpura > Asignar Paleta > Aceptar. ¡Y me quedó así!

ya

 

¡Momento! ¡Falta algo! Exacto: limpiar la descripción emergente. Aún contempla la Latitud y Longitud, así como otras variables útiles para describir el fenómeno en cada localidad. Dado que nos interesa que la gente se familiarice y lo entienda de un vistazo, arrastremos las siguientes Medidas a la opción Descripción emergente (Tooltip) del Menú Marcas: Forma de repatriacion y Cantidad.

Por las demás variables, ¡tranquilo! Ya se encuentran contempladas en dicho apartado. Para limpiar la suciedad persistente en el Tooltip puedes editar y condensar la información a lo más importante. ¡Ojo! No abuses de la paleta de colores, pues tu historia puede difuminarse ante una paleta de colores infinita e innecesaria. Finalizada tu edición, dale clic a Aceptar. ¡Primera hoja lista!

Do the evolution!
Como la rola de Pearl Jam, esta herramienta te ayuda a ver cómo evoluciona un fenómeno con gráficas de líneas o áreas. Para ver este caso, hagamos lo siguiente. Agreguemos una nueva hoja a nuestro libro de trabajo, haciendo clic en el botón inferior derecho, ubicado cerca de la hoja Mapa. En ella, arrastraremos la dimension de los años y la medida Cantidad a los apartados de columnas y filas respectivamente. ¿Ves cómo se despliega ahora?

image13

 

 

 

 

 

 

 

 

Maticemos el grado de intensidad de la gráfica arrastrando la medida Cantidad en la opción Color del menú Marcas y editemos el color a púrpura. Así, daremos aire de familia a nuestra visualización. Ahora bien, para vislumbrar las cantidades, arrastremos la medida Cantidad al campo Etiqueta del menú Marca y así podrás ver cómo se presentó el fenómeno en general durante tres años.

 

 

 

 

 

 

 

 

 

 

 

Si eres curioso como yo, notarás que al pasar el cursor sobre los puntos, verás que la Descripción emergente no tiene lo que necesitamos. Por eso, arrastraremos las siguientes variables a Descripción emergente: Departamento y Forma de repatriacion. Nuevamente, condensemos y editemos para resaltar lo importante. Así, tendremos un before and after espectacultar. Maravilloso, ¿verdad?

image07

 

 

 

 

 

 

 

 

 

 

 

Entre el mapa y el gráfico, ¿notaste elementos comunes que pueden servir para filtros? Yo también. Sazonemos nuestras hojas con ellos para que sean aplicables en un dashboard. Arrastremos las dimensiones Departamento y Forma de repatriación al campo Filtros, ubicado arriba del menú Marca. Seleccionemos todas sus variables y apliquémoslas a ambas hojas. Para el caso de los años, solo se lo aplicaremos al mapa, dado que ya contamos con un gráfico que muestra la evolución en el tiempo.

image10

 

 

 

 

 

 

 

 

 

 

 

image06

 

 

 

 

 

 

 

 

 

 

 

image04

 

 

 

 

 

 

 

 

 

 

 

¿Y si hacemos un muñeco?

¡Llegó el momento! Creemos un dashboard. Este es un elemento que contendrá nuestras hojas y otros elementos de interés para nuestra visualización. Accedamos a él con el botón Nuevo dashboard, ubicado cerca del botón Nueva hoja. ¡Voilá! Un canvas con la posibilidad de visibilizar el fenómeno de mujeres repatriadas a El Salvador. Arrastremos nuestras dos hojas para que nos queden así:

image11

 

 

 

 

 

 

 

 

 

 

 

Ordenemos la casa. Coloquemos la cantidad de tasas como valor flotante. Para hacerlo, haremos clic derecho sobre la flecha desplegable hacia abajo del contenedor de tasas y seleccionaremos la opción Flotante. Deshágamonos de las leyendas de colores de los municipios haciendo clic en la X que aparece en su contenedor. Finalizado esto, convoquemos los filtros a escena. Haremos clic sobre la flecha negra desplegable en el contenedor de la hoja Mapa y seleccionaremos la opción Filtro > Ano, Forma de repatriación y Departamento. Estos aparecerán de la siguiente forma:

image18

 

 

 

 

 

 

 

 

 

 

 

¡Yo sé! Aún no se ve lindo nuestro dashboard. Coloquemos dos filas imaginarias arriba de nuestro mapa. ¿Cómo? Utilicemos la opción Objetos > En blanco para colocarlas en el dashboard. Al principio, nos saldrán fuera de lugar, pero podemos arrastrarlas para acomodarlas en lo más alto de nuestra visualización. Una vez posicionadas, necesitamos redactar un titular y un indicador que guié a nuestro usuario a darse un vueltín por nuestra visualización.

Hagámoslo realidad haciendo clic en la opción Texto del Menú Objetos. Posteriormente, posicionemos el titular en la primera fila y el indicador en la siguiente. Terminado esto, elimina la fila del titular y despliega el titular en toda la fila; con el indicador ocurre lo contrario, dado que deberás arrastrar los filtros posterior a él. Acómodalos y obtendrás como resultado lo siguiente:

image01

 

 

 

 

 

 

 

 

Prescindamos del titular del Mapa. Haremos clic sobre la flecha desplegable del contenedor Mapa y le quitaremos el cheque a la opción Título. ¡Se fue, se fue! Ahora, pulamos el títular de nuestra gráfica. ¿Cómo? Hagamos clic sobre su titular y redactemos: Cantidad de mujeres repatriadas en. Finalizado eso, haremos clic en Insertar y coloquemos las siguientes variables en nuestro titular: ATTR(Departamento) – ATTR(Forma de repatriacion). Así, le daremos interactividad una vez el usuario se valga de los filtros para analizar la información. image14

 

 

 

 

 

 

 

 

 

 

 

 

image08

 

 

 

 

 

 

 

 

 

 

 

Ah, ¡lo olvidaba! También, puedes formatear el título para darle el mismo realce que al titular de nuestro dashboard. ¡Ojo! Siempre, siempre, siempre cita la fuente de dónde obtuviste la información, dado que eso te será de mucha utilidad para respaldar de dónde fue extraída y qué otras consideraciones tomaste en cuenta al momento de analizar la data, como el caso de las tasas.

 

¿Con quién se queda el Tableau?

Supongamos que ya tenemos nuestra visualización como la queremos. Acá, solo nos queda publicarlo en línea. Para eso, Tableau nos pide que elaboremos un extracto de nuestra información como respaldo. ¡Manos a la obra! Iremos a la barra de Menús > Datos > Extraer Datos. Acá, aparecerá un menú donde podremos añadir todas las variables clave que se extraerán de tu data.

image25

 

 

 

 

 

 

 

 

 

 

 

 

Haremos clic a la opción Añadir y seleccionaremos Año. A continuación, aparecerá una ventana emergente donde estarán todos los años. Escogélos todos y daremos clic en el botón Aceptar. Seguiremos el mismo procedimiento para el resto de variables; finalizado este procedimiento, crearemos el extracto dando clic en el botón Extracto.

image19

 

 

 

 

 

 

 

 

 

 

 

image03

 

 

 

 

 

 

 

 

 

 

 

image19

 

 

 

 

 

 

 

 

 

 

 

¡Ya casi, ya casi! Ahora vamos a la opción Servidor de la barra de menú. Escogeremos Tableau Public > Guardar en Tableau Public como… En cuanto hagamos eso, nos aparecerá una ventana donde ingresaremos nuestro correo electrónico y nuestra clave para acceder a nuestra cuenta. Si no cuentas con una, ¡tranquilo! Esta herramienta te permite crearla durante este proceso.

image17

 

 

 

 

 

 

 

 

 

 

 

 

image15

 

 

 

 

 

 

 

 

 

 

 

 

image05

 

 

 

 

 

 

 

 

 

 

 

Tan pronto como ingresemos nuestros datos, nos pedirá que redactemos el nombre de nuestra visualización. En este caso, le puse Mujeres repatriadas en El Salvador. Damos clic al botón Guardar. La herramienta procesará… ¡Voilá! ¡Nuestro Tableau aparecerá desplegado en nuestro perfil público de Tableau, donde podemos editarle detalles, como una breve descripción, qué tipo de formatos autorizamos a la herramienta para que la gente pueda descargar, entre otras utilidades.

image20

 

 

 

 

 

 

 

 

 

 

 

¿Tableau o no Tableau? ¡Esa es la cuestión!

Mi recomendación es que apuestes por Tableau. Y, si tu medio de comunicación u organización puede adquirirlo, mucho que mejor, pues una clara diferencia entre la versión gratuita y la versión pagada es que tienes mejor cobertura de seguridad, acceso al servidor pagado (con mejor seguridad que el público) y mayor lectura de líneas de registro y formato de apertura de ciertos archivos.

Sumado a eso, concuerdo con Ojo Público (2016) al garantizarte que la creación de filtros permite que los usuarios consulten y obtengan resultados personalizados en datos. Y, sobre todo, el hecho de que no se necesita saber programación para usarla, pues, al descubrir que algunas de sus funcionalidades provienen de herramientas como Excel, la cosa pinta mucho que mejor.

¡Eso sí! “Sobre advertencia, no hay engaño”. Actualmente, la mayoría de información sobre esta herramienta se encuentra en inglés, su foro de atención al usuario se tarda un poco (¡o un siglo!) en responder y algunos gráficos, como el mapa de relleno, dejan mucho que desear cuando son regiones o naciones foráneas a Estados Unidos…

Aun así, es una herramienta que promete mucho en su nueva actualización, a la que vale la pena acercarse por facilitarte un poco más las cosas a la hora de visibilizarse historias con datos, así como el grado de interactividad que le brinda al usuario y, si ya con esto no logro convencerte, te reto a que la pruebes y nos compartas qué te parece y que no debajo de esta publicación o en nuestro Twitter (@EscueladeDatos). Cheers!

Flattr this!

]]>
http://es.schoolofdata.org/2016/12/29/como-hacer-visualizaciones-de-datos-con-tableau/feed/ 0 1851
Combinando bases de datos con Tableau Public de manera automática http://es.schoolofdata.org/2016/10/24/combinando-bases-de-datos-con-tableau-public-de-manera-automatica/ http://es.schoolofdata.org/2016/10/24/combinando-bases-de-datos-con-tableau-public-de-manera-automatica/#respond Mon, 24 Oct 2016 20:15:57 +0000 https://es.schoolofdata.org/?p=1837 En ocasiones, tenemos dos o más bases de datos que queremos combinar por un factor común. El uso de datos es más efectivo cuando puedes combinar varias bases de datos y ver cómo se relacionan entre ellas. Tableau Public es un programa que nos permite hacer esto de manera sencilla. En este tutorial veremos cómo hacerlo.

Al combinar datos de manera automática te ahorras el tedioso trabajo de tener que emparejar de manera manual dos o varios set de datos.

Al combinar datos de manera automática te ahorras el tedioso trabajo de tener que emparejar de manera manual dos o varios set de datos.

 

  • Instala el programa

 

Este programa gratuito te permite importar tus datos para crear visualizaciones interactivas. Todo tu trabajo se guarda en tu usuario y se puede compartir a través de códigos embed o iframes. Otra ventaja es que el programa está disponible para los sistemas operativos Windows y Mac. Para descargar la aplicación, entra en este link y sigue las instrucciones que el instalador te señala.

2) Asegúrate de que tus datos compartan un denominador común

Cuando quieres unir bases de datos debes asegurarte de que ambas compartan algún campo que vincule los dos sets de datos. Por ejemplo, si tienes dos set de datos sobre los países de Latinoamérica, tu denominador común puede ser el nombre del país. O si tienes datos sobre denuncias y delitos de los partidos políticos, el denominador común puede ser el nombre o las siglas del partido.

3) Repasa la teoría de los conjuntos

Tableau Public te permite realizar dos tipos de combinaciones.

La primera, es una unión interior.

image00

 

 

 

 

En este tipo de unión, sólo se copiaran los datos en los que el denominador común de ambas fuentes de datos coincida. Por ejemplo, si tenemos un set de datos sobre alfabetización en  todos los países del mundo y lo combinamos con datos sobre el acceso a la educación primaria en los países de Latinoamérica, nuestra base de datos combinada solo mostrará los datos de los países de Latinoamérica.

La segunda, es una unión izquierda.

image01

 

 

 

 

En este tipo de unión, se copiarán todos los datos de tu primera fuente de datos y sólo se agregarán los datos de la segunda fuente cuando estos coincidan en denominador común. Las filas que no tengan coincidencias se mostrarán como valores nulos. Siguiendo nuestro ejemplo, nuestra base de datos combinada mostraría los datos de alfabetización de todos los países del mundo, pero aquellos que no forman parte de Latinoamérica no contarían con datos sobre el acceso a educación primaria.

4) Abre el programa y conecta tu primera fuente de datos

Al iniciar, el programa te invita a conectar a un archivo de base de datos, que puede ser en formatos Excel (xls, xlsx), Archivos de texto (csv) o Access. Selecciona tu primer set de datos. En nuestro ejemplo, sería el archivo con el porcentaje de alfabetización de todos los países del mundo.

image03

 

 

 

 

5) Añade tu segunda fuente de datos

Haz click en la palabra añadir y agrega una segunda base de datos. En nuestro ejemplo, es el archivo con el porcentaje de acceso a la educación primaria en los países latinoamericanos.

image05

 

 

 

 

6) Arrastra ambos sets de datos y conéctalos

Al arrastrar las diferentes hojas de cálculo a la pantalla de Tableau Public, el programa te mostrará la relación que estás creando entre ambas bases de datos y te dará una muestra de cómo luce tu conexión de datos.

image06

 

 

 

 

7) Edita la conexión

Haz click en los dos círculos unidos que se muestran entre tus fuentes de datos para abrir una ventana de edición de tu unión. En esta pestaña debes de decidir si quieres una combinación interior o una combinación izquierda. También debes de indicar cuál es la categoría en tus fuentes de datos que coincide o es igual en ambas. En este caso, seleccionamos el campo Country (País) para que combine los datos de cada país de manera automática.

image04

 

 

 

 

Siguiendo el ejemplo, si decides hacer una conexión interior, la combinación de estas dos bases de datos sólo te mostraria 42 filas con los datos de alfabetización y acceso a educación primaria de los 42 países de Latinoamérica y el Caribe.

En cambio, si eliges una conexión izquierda, el set de datos resultante te mostraría 254 filas con los nombres de todos los países del mundo y sus datos sobre alfabetización, pero los datos sobre acceso a educación primaria solo estarían en los países latinoamericanos. El resto de países tendría un valor nulo en esta categoría.

Durante todo el proceso, Tableau Public te muestra una previsualización de cómo se ve tu set de datos combinado debajo de la sección en la que editas las uniones.

8) Copiar y guardar.

Selecciona todas las filas y columnas de tu base de datos combinada haciendo click en la esquina superior izquierda de la previsualización que te muestra el programa. Copia el contenido con la combinación Ctrl+C o ⌘+C,  pégalo en el editor de hojas de cálculo de tu preferencia y guárdalo.

Así, de manera sencilla, puedes combinar bases de datos con muchos campos y sin tener que prestar atención y copiar manualmente las coincidencias. Esta práctica es de mucha utilidad cuando quieres combinar diferentes estadísticas sobre varios lugares, o cuando quieres combinar una base de datos con datos georeferenciales con una que contenga estadísticas.

La combinación izquierda te puede servir para identificar valores que coincidan entre dos bases de datos. Esto es de mucha utilidad cuando estás creando hipótesis para investigaciones o quieres comprobar relaciones entre listados de personas o entidades.

Flattr this!

]]>
http://es.schoolofdata.org/2016/10/24/combinando-bases-de-datos-con-tableau-public-de-manera-automatica/feed/ 0 1837
Open Refine – qué es + tutorial http://es.schoolofdata.org/2014/06/30/openrefine/ http://es.schoolofdata.org/2014/06/30/openrefine/#comments Mon, 30 Jun 2014 23:27:31 +0000 http://es.schoolofdata.scoda.okfn.org/?p=900

dtm_201307

Manuel Ríos

 

Este post y tutorial es una contribución de Manuel Ríos. Su semblanza: 

Hombre. Mexicano. Gustoso de la tecnología y su impacto. Comprometido con la sociedad y con mi país. Economía, innovación, desarrollo, entre otros.

——————————————————————————-

Sobre Open Refine

Open Refine es una herramienta originalmente creada por Google para el manejo de bases de datos. Nos permite limpiar bases de datos, exportarlas en diferentes formatos, y arreglar y manejar las bases para un mejor uso. Actualmente el proyecto ya no es financiado por Google y se encuentra como proyecto abierto.

Los archivos que podemos importar para trabajar pueden tener las extensiones TSV, CSV, XML, JSON, XLS, e incluso Google Spreadsheets, entre otros. También nos permite transformar archivos de cualquiera de estos formatos a otro. Open Refine funciona como ejecutable sobre cualquier navegador web y está disponible para Windows, Mac y Linux.

Tutorial: ¿Cómo hacer fusiones en Open Refine?

La función merge (fusionar, intercalar) sirve principalmente para unir bases de datos, generalmente a través de una variable en común.

En este breve tutorial, haremos un merge o fusión de dos bases de datos. ¡Comenzamos!

Tomamos dos bases de datos de la Penn World Table que contienen datos sobre México y Estados Unidos de 1950 a 2010. Las variables en las bases son las siguientes:

País: nombre del país
Isocode: código del país
Año: de 1960 a 2010
Población: Población total del país
PIB: PIB del país
PIBPC: PIB per cápita del país

Vamos a realizar una fusión basada en la variable “Año”, juntando los datos de población, PIB y PIBPC en una misma base.

Pasos:

1. Abrir Open Refine y crear un proyecto nuevo.

2. En este botón, debes escoger los archivos que vas a trabajar. Después, haz clic en Next.

Refine1

2. Al hacer clic en Next, llegaremos a una vista previa, donde damos un nombre al proyecto. Después hacemos clic en Create Project. En este caso lo único que hicimos fue crear el proyecto con la base de datos de México. Una vez creado el proyecto, éste aparecerá en la sección Open Project.

Screen Shot 2014-06-30 at 17.49.25

3. De la misma manera, subimos el otro archivo para crear otro proyecto. Hay que tener ambos abiertos. Se verán así:

Screen Shot 2014-06-30 at 17.50.234. Para hacer la fusión a partir de la variable de año, vamos a hacer clic en la flechita que está al lado del nombre (en este ejemplo, unimos la base de Estados Unidos a la de México). Después elegiremos la opción de Add column based on this column.

Screen Shot 2014-06-30 at 17.52.40

5. En la siguiente ventana vamos a llenar los datos para realizar la fusión.

En el campo Expression podemos hacer la fusión a través del siguiente comando:

cell.cross(“USA” , “Año”).cells [“Población”]. Value [0]

 En Preview podemos ver cómo va a quedar la nueva columna en el documento.

Screen Shot 2014-06-30 at 17.55.05

6. Hacer clic en OK. Entonces podremos ver que la variable  “PoblacionUSA” ya se encuentra en la base de México, con los valores en cada año que le corresponden.

Screen Shot 2014-06-30 at 17.57.40

6. Para traer otra variable con su año correspondiente, podemos cambiar el comando. Por ejemplo, para traer el PIBUSA a la base de México, el comando sería el siguiente:

cell.cross(“USA” , “Año”).cells [“PIB”]. Value [0]

Screen Shot 2014-06-30 at 17.59.27

Al hacer clic en OK nuevamente, aparecerá la nueva variable en la base.

Screen Shot 2014-06-30 at 18.01.39

En resumen, puedes adaptar este comando para hacer tus fusiones:

cell.cross(“nombre del otro proyecto” , “variable en común”).cells [“variable a traer”]. Value [0]

¡Esperamos que este mini tutorial te sea de utilidad!

Flattr this!

]]>
http://es.schoolofdata.org/2014/06/30/openrefine/feed/ 1 900
Introducción a MongoDB http://es.schoolofdata.org/2014/04/06/introduccion-a-mongodb/ http://es.schoolofdata.org/2014/04/06/introduccion-a-mongodb/#respond Sun, 06 Apr 2014 17:50:24 +0000 http://es.schoolofdata.okfn.org/?p=816 Este post es una contribución de David Trillo de Manejando Datos, un blog sobre bases de datos y programación. David estará contribuyendo al blog de Escuela. ¡Gracias, David!
————

dtm_201307

David Trillo, ManejandoDatos.es

Desde hace varios años, existe una nueva tendencia en el sector de las bases de datos hacia nuevos conceptos. Se trata de las bases de datos NoSQL, o sea, Not Only SQL.

En los siguientes párrafos voy a contar una pequeña introducción sobre mongoDB, cuya web oficial es www.mongodb.org, y donde encontrarás más información sobre este interesante proyecto.

Conceptos básicos

Para alguien que solo conoce las bases de datos relacionales, empezar con las bases de datos de MongoDB requiere una “pequeña” introducción a los principales conceptos.

Un registro de SQL se denomina documento en NoSQL, mientras que una tabla de SQL es una colección de documentos en NoSQL.

Los documentos son un conjunto de claves con sus valores asociados, cómo por ejemplo { “clave”: “valor” }, y que tienen además un esquema dinámico. Se entiende por esquema dinámico el hecho de que los documentos de una misma colección no necesiten tener el mismo conjunto de campos o estructura, e incluso campos comunes pueden contener distintos tipos de dato.

Frente a las tablas de las base de datos relacionales, las claves son “cadenas” que no pueden contener caracteres especiales como $, #, …  en contraste con los campos autonuméricos de las bases de datos relacionales (bueno, esto es lo deseable!). Además, las claves serán únicas, no estando permitido claves duplicadas.

Las colecciones (de documentos) son las que permiten organizar los documentos de forma rápida y cómoda. Lo más lógico es que cada colección contenga documentos con un mismo tipo de estructura, y no se mezclen, aunque cómo hemos visto antes, los esquemas dinámicos permiten muchas opciones.

Y … ¿qué ventajas tienen este tipo de bases de datos? La rapidez de las consultas. Una de las características de MongoDB es que no es una base de datos transaccional, esto es, las operaciones de insercion y/o actualizacion no se hacen dentro de una transacion, sino en varias, por lo que es posible que se realicen algunas sí y otras no (en las bases de datos transaccionales, o se realizan todas o no se realiza ninguna).

La información en la base de datos se guarda en formato BSON, que es una versión modificada del formato JSON, formato muy utilizado en programación Web, sobre todo en JavaScript.

Por eso, mongoDB es muy interesante si se usa con otros dos proyectos muy interesantes, como son node.js o Socket.io.


¿Te interesa el tema? David ha escrito mucho sobre MongoDB en ManejandoDatos. Ha cubierto los desafíos; publicado reflexiones, scripts, e inclusive una guía de instalación. ¡Aprovecha esta información!

Flattr this!

]]>
http://es.schoolofdata.org/2014/04/06/introduccion-a-mongodb/feed/ 0 816
SQL: La precuela (Excel vs bases de datos) http://es.schoolofdata.org/2013/11/27/sql-la-precuela-excel-vs-bases-de-datos/ http://es.schoolofdata.org/2013/11/27/sql-la-precuela-excel-vs-bases-de-datos/#comments Wed, 27 Nov 2013 12:32:55 +0000 https://es.schoolofdata.org/?p=678 Este post fue publicado originalmente en inglés por Noah Veltmann en School of Data, y traducido al español por Aura Montemayor de SocialTIC.

5613864571_f8ef912bd0_z

Imagen: Frédéric Bisson

Escuela de Datos retomó la publicación de Noah Veltman para Learning Lunches, un tutorial para periodistas que se dedica a disipar la idea de que las herramientas técnicas son difíciles de usar cuando se trata de obtener datos.

Las primeras herramientas que compara son SQL y Excel.

Para qué es bueno Excel:

Excel tiene una mala reputación, pero lo cierto es que también es un software muy flexible y potente, y en él puedes hacer muchas cosas como las siguientes:

  • Navegar por los datos con facilidad.
  • Introducir y editar datos manualmente con facilidad.
  • Compartir copias de los archivos.
  • Escoger la presentación visual.
  • Aprovechar la estructura flexible que dan las celdas únicas.
  • Integrar tu trabajo con el software de cualquier oficina.
  • Aprovechar la vivacidad que da la posibilidad de uso de fórmulas.
  • Usar los íconos de ayuda para realizar gráficos, que dan sugerencias y tienen corrector ortográfico.
  • Aprender a usarlo de manera relativamente fácil.

Para qué no es bueno Excel:

Desafortunadamente, Excel tiene límites, y es malo para otras cosas como las siguientes:

  • No integra los datos, ya que cada celda es única; esto hace que el documento pueda ser muy inconsistente. Un número no tiene necesariamente el formato de un número; así puede haber variaciones entre datos. Debes poner atención a los detalles.

  • No es recomendable para trabajar con múltiples bases de datos.

  • Cuando los datos llegan a determinada cantidad, el rendimiento del documento se reduce al igual que la interfaz. Las celdas son limitadas.

  • Cuando se trata de trabajar en equipo, es muy difícil saber quién modificó el documento y en qué lugar.

Bases de datos relacionadas

¿Qué es una base de datos relacionada? Podríamos ser muy exigentes con la terminología, pero, en términos generales, se trata de un «servidor» que almacena todos tus datos (piensa en una enorme biblioteca) con un mecanismo para que alguien más las pueda consultar (piensa en un bibliotecario).

La consulta SQL (Structured Query Language) es una sintaxis para solicitar cosas desde la base de datos. Es el lenguaje que el bibliotecario habla. Sigue leyendo y te hablaremos más de esto.

La parte de «relacionar» es un indicio de que estas bases de datos se preocupan por las relaciones entre los datos. Y sí: también existen las bases de datos no relacionadas, pero asumiremos por el momento que todos somos amigos.

El mantra de las bases de datos: cada cosa en su lugar

En una base de datos, debes guardar las cosas lógicamente. Incluso, algunas veces ésta te obliga a guardarlos de cierta manera.

Piensa que cada base de datos es como una tabla, y cada tabla corresponde a una hoja de cálculo en un archivo de Excel. Una tabla de base de datos se compone de columnas y filas.

Columnas

A cada columna se le asigna un nombre (como «Dirección» ) y un tipo de columna definida (como  ‘ Fecha ‘, ‘Fecha + Hora ‘ o ‘Texto’) . Tienes que escoger un tipo de columna y mantener el mismo formato para cada fila. La base de datos relacionará a todos los datos que pongas en esa columna bajo ese tipo. Esto podría parecer tedioso y molesto, pero es muy útil. Si trataras de poner datos incorrectos en una columna, Excel marcaría un error hasta que fueran introducidos de manera correcta.

También puede especificar cosas útiles, como las siguientes:

  • Si una columna tiene valores duplicados.
  • Si una columna está vacía.
  • El valor predeterminado de una columna si no especificas tú uno.

Importante: Las columnas definen la estructura de los datos.

Filas

Las filas son los datos reales de la tabla. Una vez que establezcas la estructura de la columna, puedes agregar tantas líneas como desees.

Cada fila tiene un valor para cada columna. Excel es un lienzo visual y te permitirá crear cualquier tipo de celdas y fusionarlas como desees. Incluso puedes hacer formas tan complejas como en un juego de Tetris. Sin embargo, esto no va con la idea de una base de datos donde se prevé una red real. Si dejas celdas vacías de manera intencional, el documento sabe distinguir que esa celda está vacía, y que no es lo mismo que una no existente.

Mesas, combinaciones y llaves

Más adelante retomaremos este tema, pero poner todo en el lugar correcto significa hacer tu vida más sencilla. Puedes hacer y deshacer tus datos para ponerlos en diferentes tablas o categorías y poder trabajar con ellos como un conjunto.

Que los datos sean datos

Las bases de datos sólo se centran en las capas superficiales e ignoran por completo la presentación visual de los datos. Colores, formas, bordes, fuentes… básicamente no existen para las bases de datos. Lo que ves es lo que hay. Eso se puede tomar como una buena noticia, pero también como una mala. La buena es que las bases de datos son excelentes para hacer cálculos; pero la mala es que tienen que ser complementadas con otro programa para crear un producto final, como un gráfico o una página web.

Al ser muy buenas en el almacenamiento y procesamiento de datos y no en otras cosas, las bases de datos son extremadamente escalables. ¿Necesitas 1 millón de filas de datos? ¿10 millones de dólares? No hay problema: no hay prácticamente ningún límite a la cantidad de datos que pueden almacenar.

Bases de datos y web

Las bases de datos son excelentes para hacer análisis preliminares, explorar datos y limpiarlos… Pero son mejores para conectarlos con otros programas una vez que sepas lo que quieres hacer con ellos. Virtualmente, todo el internet se sustenta en bases de datos como las antes mencionadas. Por ejemplo Twitter, Facebook y Gmail son complejas bases de datos que nos dan información.

Cuando se trata de noticias y se maneja una gran cantidad de datos (o se espera que éstos cambien con el tiempo), tiene a utilizarse una base de datos. En vez de tener un archivo JSON estático con todos tus datos, mantienes una base de datos y escribes un app que hace búsquedas en ella con los datos actuales. Y así, cuando los datos cambian, lo único que tienes que hacer es actualizar la base de datos – los cambios se verán automáticamente reflejados en el app.

Para los casos de apps en las que los datos no van a cambiar y la cantidad no es grande, una base de datos es demasiado esfuerzo que no rendirá frutos, aunque tal vez quieras usar una al principio para crear un archivo de datos de cierto tipo.

Si estás usando un API para introducir datos a un app, estás usando también una base de datos; la diferencia es que estás dejando que alguien más la almacene por ti. Esto es mucho más fácil, pero también aumenta la vulnerabilidad de tus datos, pues esas personas pueden acceder a tus datos cuando quieran.

Pequeñeces que vale la pena mencionar: a veces un app no accede directamente a una base de datos para jalar información. A veces accede a archivos en cache, pero esos archivos sí son generados automáticamente con base en lo que está en la base de datos.

¿Entonces cuándo debo usar una base de datos en lugar de Excel?

Excel y las bases de datos son dos cosas totalmente distintas. Ninguna herramienta es buena o mala. Te recomendamos usar una base de datos si tu proyecto cumples con las siguientes características:

  • Si tienes muchos datos.

  • Si tus datos están desordenados o son muy complejos.

  • Quieres proyectar otras cosas con tus datos.

  • Si otras personas necesitan trabajar con tus datos.

OK, me gusta. ¿Cómo puedo empezar?

Las bases de datos tienen su propia profundidad. Es recomendable llevarla con calma y no sumergirse de inmediato en lo más profundo. Úsalas cuando cuando las ventajas superen las inconveniencias, y cuando lo que necesites sea muy fácil de conseguir. Mientras más practiques, te vas a sentir más confiado y podrás extraer mayor información.

Opción 1: SQLite

SQLite es una excelente manera de empezar. Puedes instalar SQLite Manager.

Si necesitas asesoría de SQL, visita: https://github.com/tthibo/SQL-Tutorial

Opción 2: Microsoft Access

Microsoft Access se ejecuta en SQL y presenta una interfaz de software tradicional. Dependiendo de a quién le preguntes, es una herramienta útil… o simplemente hace las cosas más confusas. Nosotros NO lo recomendamos, pero las opiniones pueden variar.

Opción 3: Configurar una cuenta web compartida

Puedes configurar una cuenta web compartida, y esto puede costar 20 libras (32 USD) al año. Típicamente, estas cuentas vienen con una interfaz que permite crear, editar e interactuar con bases de datos sin escribir ningún SQL. También puedes jugar con las otras habilidades relacionadas con la web que te interesen y compartir los resultados con los demás.

Visita: A Small Orange (una opción buena y barata para hosting): http://asmallorange.com/

Opción 4: ¿Instalo MySQL o PostgreSQL en mi computadora?

Puedes instalar MAMP en una Mac o WAMP en una  PC. Esto instalará MySQL, así como una interfaz llamada phpMyAdmin (http://www.phpmyadmin.net). Una vez que hayas instalado MySQL, tendrás muchas opciones adicionales, ya que el software libre sirve como un navegador o como editor para tus bases de datos SQL. Si lo prefieres, puedes instalar PostgreSQL, que es diferente a MySQL. Ambos son populare,s ya que tienen una gran cantidad de datos. Pero, si estás iniciando, por lo pronto no pienses mucho en eso.

Apéndice: Consulta para la diversión y el beneficio

Gran parte de las bases de datos proviene de SQL, un lenguaje muy flexible para hacer preguntas acerca de las base de datos. Al principio no es fácil de usar, pero, con los siguientes ejemplos, todo será más claro.

SQL tiene 4 bloques básicos:
SELECT (buscar algo);
UPDATE (modificar algunas filas existentes);
INSERT (añadir nuevas filas);
DELETE (eliminar algunas filas).
Hay muchos otros comandos, pero éstos son los que más vas a utilizar; especialmente SELECT.

Imaginemos una tabla llamada “atletas olímpicos ” que tiene seis columnas (nombre, país, fecha de nacimiento, estatura, peso y sexo):

name
country
birthdate
height
weight
gender

Cuando creamos nuestra tabla, podemos especificar cosas como “no es necesario poner el país” o “el sexo debe ser M o F”.

Misión 1: Obtén una lista de todos los atletas en orden alfabético. Desde aquí puedes ver toda la tabla, ordenarlos por nombre de la A a la Z . Lo puedes hacer de la siguiente manera:

SELECT

*
FROM athletes
ORDER BY name ASC

Misión 2: Obtén una lista de todos los atletas del equipo de Gran Bretaña. Sólo obtendrás las filas para los atletas británicos. No especificaste como ordenarlos, así que no saldrán en orden alfabético. Sigue los siguientes pasos:

SELECT
*
FROM athletes
WHERE country = ‘Great Britain’

Misión 3: ¿Qué país tiene el promedio de atletas más pesado? Esto tomará todas las filas y las pondrá en grupos por país. Se abrirá una lista de los nombres de los países y el peso promedio de cada grupo. Esto lo puedes lograr así:

SELECT
country,AVG(WEIGHT)
FROM athletes
GROUP BY country

Misión 4: ¿En qué mes nacen más atletas olímpicos? Tal vez quieras probar una teoría astrológica sobre que el talento de los leos para el deporte. Desde aquí puedes ver el número de atletas olímpicos que nacieron en ese mes.

SELECT
MONTH(birthdate),COUNT(*)
FROM athletes
GROUP BY MONTH(birthdate)

Misión 5: Añade un nuevo atleta. Agrega un atleta a la tabla. Para insertar una fila, especifica las columnas que vas a añadir y el valor de cada uno.

INSERT
INTO athletes
(name,country,height,weight,gender)
VALUES (‘Andrew Leimdorfer’,’Great Britain’,180,74.8,’M’)

Misión 6: Ordena a todos los atletas en orden de estatura y peso; puede ser que notes algo muy extraño con el atleta canadiense Ian Warner.

SELECT
*
FROM athletes
WHERE gender = ‘M’
ORDER BY height/weight ASC

Misión 7: Si obtienes tus datos del portal london2012.com, pensarás que Ian Warner mide 5′ 7″ y pesa 160 kg. Lo más probable es que su peso fue marcado en libras. Vamos a arreglar esto.

UPDATE
athletes
SET weight = weight/2.2
WHERE name = ‘Ian Warner’

Misión 8: Borra a todos los atletas de Canadá y Estados Unidos.

DELETE
FROM athletes
WHERE country = ‘United States of America’ OR country = ‘Canada’;

Una vez que nos fijamos en  las operaciones para cambiar las bases de datos, seguro notas lo siguiente: verás que una consulta es como una oración y tiene reglas gramaticales. Tiene un «verbo» (¿Qué tipo de acción quiero?), un «objeto» (¿Qué tabla es la que quiero que haga la acción?) y «adverbios» opcionales (¿Cómo quiero hacer la acción?). Los «adverbios» incluyen detalles como «ordenar esta columna» y «sólo hacer esto para ciertas filas.»

Misión de bonus: Varias tablas y una breve muestra de JOIN

Es probable que haya mucho más datos que sólo los atletas. Para cada país, también puedes tener su bandera, su población y su ciudad capital; también tienes todos los eventos olímpicos y los atletas que participaron en ellos. Para cada evento, también tienes los resultados que obtuvieron: cuántas medallas y los resultados finales.

Si usaras Excel para depurar este tipo de bases de datos, sería una verdadera locura, ya que tendrías un montón de hojas de cálculo y con mucho esfuerzo lograrías hacer una referencia cruzada, o tendrías una mega-hoja de cálculo con columnas infinitas (las fuentes de datos gubernamentales usualmente aman las mega-hojas de cálculo).

Es posible que haya una hoja de cálculo donde cada fila es un atleta, y haya una larga lista de columnas llenas de una gran cantidad de información redundante y sin sentido, como:

name, country, birthdate, height, weight, gender, country_population, country_flag_url, country_gdp, event1, event1_date, event1_result, event2_date, event2_result, event3_date, event3_result, event4_date, event4_result, number_of_medals

Estas enormes bases de datos tienen muchas debilidades entre las que sobresalen:

Pierdes la capacidad de visualizar los datos. Cuando la información es tan grande, se vuelve un desastre

La estructura se vuelve muy poco flexible. Esto es casi una ley: en las mega hojas de cálculo, el número de columnas nunca es suficiente.

No tiene ningún sentido de las relaciones. Los atletas son una unidad aquí, pero hay otros. Hay países que tienen eventos (que pertenecen a los deportes), tienen resultados (que pertenecen a los eventos), que tienen atletas (que compiten en los eventos, que dan lugar a esos acontecimientos, y casi siempre pertenecen a los países). Estas relaciones probablemente serán la base para un montón de historias interesantes basadas en los datos, y la mega-hoja de cálculo hace un mal trabajo para contarlas.

El análisis es difícil. ¿Cómo puedes encontrar todos los atletas hombres que corren los 100 metros? Algunos de ellos podrían tener su tiempo en event1_result, otros en event2_result. Intenta (no lo creo) divertirte con los datos que están anidados; o si introduces manualmente cualquiera de estos datos, hay una buena probabilidad de que obtengas muchas  inconsistencias textuales como 100 metros, 100m de los hombres, Hombres y 100m.

SQL te permite mantener estas cosas en un montón de tablas separadas, pero utiliza conexiones lógicas entre ellos para que puedas trabajar con un gran conjunto de datos. Para combinar las tablas de este tipo, se utiliza JOIN.

Es posible crear una tabla para los atletas con la información básica, como la estatura y el peso; una tabla para eventos con detalles sobre dónde y cuándo se lleva a cabo y el récord mundial actual; una tabla para los países con información sobre cada país; así como una tabla de resultados en la que cada fila contiene un atleta, un evento, su resultado, y la medalla que ganaron (si los hay).

¡A continuación, te enseñamos como combinar temporalmente las tablas!

¿Quién ganó las medallas de oro el día de hoy?

SELECT
athletes.name, athletes.country, event.name
FROM athletes, results, events
WHERE athletes.id = results.athlete_id AND event.id = results.event_id
AND event.date = DATE(NOW()) AND results.medal = ‘Gold’

¿Cuántas medallas ha ganado cada país?

SELECT
countries.name, COUNT(*)
FROM athletes, countries, results, events
WHERE athletes.id = results.athlete_id AND event.id = results.event_id AND athletes.country_id = countries.id
AND results.medal IN (‘Gold’,’Silver’,’Bronze’)
GROUP BY countries.id

 

Flattr this!

]]>
http://es.schoolofdata.org/2013/11/27/sql-la-precuela-excel-vs-bases-de-datos/feed/ 2 678