Estás navegando por el archivo de base de datos.

Explorer de MediaCloud: Obtén datos sobre la cobertura mediática de un tema

- el mayo 29, 2018 en Tutoriales

¿Cómo cubren los medios de comunicación cierto tema? Esta es una pregunta muy común y para respondérsela muchos investigadores han recolectado datos de diversas maneras. En este tutorial te explicamos las funciones de Explorer, una de las herramientas de MediaCloud, un proyecto que hace scrapping en las páginas de muchos medios en línea y clasifica las historias, además de que te permite descargar y obtener bases de datos sobre la cobertura mediática de los temas que busques de manera fácil.

Lee el resto de la entrada →

Algoritmos y clusters: Encuentra errores y límpialos de manera fácil con OpenRefine

- el mayo 3, 2018 en Tutoriales

¿Te has encontrado con bases de datos que tienen pequeños errores de transcripción? ¿Espacios de más, uso desordenado de mayúsculas y minúsculas, o registros que representan al mismo dato pero que fueron escritos con pequeñas diferencias? Con la herramienta OpenRefine puedes automatizar mucho del doloroso proceso de limpiar una base de datos. En este tutorial te enseñaremos una de sus funciones más útiles: la clusterización —o generación de agrupaciones automáticas— y los diferentes algoritmos que determinan las coincidencias entre registros.

Lee el resto de la entrada →

Cómo una base de datos en México se adelantó al gobierno para buscar desaparecidos

- el diciembre 5, 2017 en Noticias, Uncategorized

Peronasdesaparecidas.org.mx es el nombre de la interfaz creada por la organización sin fines de lucro Data Cívica, que logró acercar datos cruciales a familias y organizaciones que buscan a personas desparecidas en México. Estos datos, como el nombre propio de las personas en los casos del fuero común (estatal o de provincias), no están actualmente publicados en la base oficial gubernamental, el Registro Nacional de Personas Extraviadas o Desaparecidas (RNPED).

 

Lee el resto de la entrada →

¿Qué implica la data de género?

- el junio 14, 2017 en Experiencias, Guest posts

Vivas Nos Queremos 8
En uno de los encuentros que tuvimos en Abrelatam 2016, a Majo Greloni (directora de Comunicación y Campañas Online en Wingu) y a mi nos motivó la curiosidad de identificar los desafíos sobre género y datos desde la diversidad que siempre caracteriza a este evento; fuimos voluntarias para conducir esta mesa y uno de los desafíos que se quedó rondando en mi cabeza tenía que ver con identificar qué se puede hacer con la poca data de género que tenemos para incidir en políticas públicas.

Entrando a una reflexión más profunda, me doy cuenta de que cuando empezamos una conversación sobre data de género, en la mayoría de los casos la primera puntualización que resalta es hablar sobre violencia de género y la ausencia de información que llega a ser una suerte de común denominador en Latinoamérica. Lo primero tiene que ver con que tendemos a limitar el tema de género al enfoque de violencia por el contexto urgente de nuestros países, y esa mirada es necesaria aunque no la única; lo segundo, un poco más preocupante, tiene que ver con la falta de datos de género, y si existen, la cuestionable calidad de los mismos.

Cuando hablamos de data de género no nos referimos meramente a un indicador enunciativo de hombres y mujeres dentro una base de datos: estamos hablando de todas las dimensiones que comprenden estos dos diferenciadores mayores, yendo a la construcción cultural y social más allá de lo biológicamente determinado. Esta construcción implica la comprensión de la vida de las mujeres y las disparidades, los desafíos políticos y legales que enfrentan y les impide avanzar; elementos que normalmente resultan ausentes de los datasets ante la falta del corte de género como componente primario de las bases de datos.

La perspectiva de género, en este sentido, alude no sólo al potencial de granularidad y calidad de datos y su consiguiente valor derivado del análisis, sino también a su potencial político, transformador de la realidad, es decir, una propuesta política que exige un compromiso a favor de la construcción de relaciones de igualdad de género. Sin buenos datos, nos perdemos de detalles cruciales que pueden cambiar disparidades y acortar caminos en los desafíos planteados; no podemos ver con precisión qué es lo que necesita ser modificado, si es que las soluciones planteadas funcionan o no, o si hay progreso en lo que estamos haciendo.

 

Desde cualquiera que sea nuestra rama de interés, la data de género implica no solamente una cuestión técnica que en definitiva tiene un peso importante y que determina la calidad de futuros análisis, al mismo tiempo hablamos de una cuestión basada en política y por lo tanto, la determinación de qué valores medir. En ese sentido, si consideramos que tenemos recursos limitados para la recolección de datos, la elección sobre qué medir, cómo medirlo y quién está midiendo puede profundizar una división inadecuada de datos y proporcionar datos sexistas o poco útiles.

No hay igualdad de género sin igualdad de datos

«Medimos lo que valoramos y si no es parte de la mentalidad que, por ejemplo, el trabajo no remunerado de las mujeres en el hogar tiene un valor económico además de otros beneficios y, por lo tanto, no medimos ese trabajo, entonces no podemos ver cómo las mujeres impulsan el desarrollo económico y productivo de los países», dice Emily Courey Pryor, directora de la iniciativa Data2X de la Fundación de las Naciones Unidas, cuyo objeto es mejorar la disponibilidad y el uso de los datos de género.

El vínculo entre los datos de género y el empoderamiento económico de las mujeres es un ejemplo enorme, y sin embargo es sólo una de las múltiples áreas en las que esta data es carente o inexistente.

Pasar por alto estas valoraciones contribuye a una cultura de invisibilidad; como el ejemplo expuesto por Courey existen otros tantos, relacionados por ejemplo a la edad reproductiva de las mujeres, que según la OMS, se define entre 15 y 49 años; y sin embargo las niñas menores de 15 años representan 2 millones de los 7,3 millones de embarazos de niñas menores cada año en los países en desarrollo, según UNFPA. Estos 2 millones de niñas no aparecen en las estadísticas y sin embargo están ahí.

La data de género, precisa y completa, abre la puerta a la identificación y consiguiente subsanación de estas brechas de datos, que a su vez se traducen en promoción de políticas efectivas para el cierre de brechas de desigualdad.

Con este panorama, conversando con Natália Mazzote (Co-Directora en Gênero e Número y Administradora de programas en Escola de Dados Brasil), concordamos que las varias implicaciones de los datos de género se convierten en un reto desde el punto de vista de la planificación estratégica: contamos con bases de datos e información sobre temas varios, como por ejemplo la empleabilidad en carreras universitarias tecnológicas, pero no contamos con información suficiente para medir, por ejemplo, la asimetría de género pues el recorte de datos de género se excluye o no se considera como importante dentro de estas recolecciones; a fin de cubrir esta brecha, el proceso al que normalmente recurrimos quienes trabajamos género desde distintas perspectivas, es el de crear una estructura propia recurriendo a fuentes alternas, especialistas en la materia y otros.

Esto implica un gran esfuerzo al momento de generar bases de datos y análisis como resultado de investigaciones, y poner este conjunto disponible para cualquier interesado; pero por momentos queda limitado al alcance local al no tener estándares internacionales que nos permitan tener una comparación macro de lo que está pasando a nivel regional.

 

Dos esfuerzos más visibles para subsanar la falta de estándares internacionales, mejorar la disponibilidad y el uso de los datos de género son:

  • Publicado en septiembre de 2015, los 16 indicadores globales «Listos para medir» (Ready to Measure) y monitorear los resultados para mujeres y niñas sobre los Objetivos de Género de los Objetivos de Desarrollo Sostenible (ODS), lanzados por la Organización de las Naciones Unidas con una nueva agenda de desarrollo sostenible y metas al 2030; los 17 objetivos que componen este compromiso han planteado un escenario más transversal para el tratamiento de las disparidades de género: la incorporación sistemática de una perspectiva de género en la implementación de la agenda global de trabajo, reflejada en la identificación de la meta 5 denominada “Igualdad de Género” y 11 ODS incluyen metas específicas desagregadas por género.

Impulsado por Data2x, quienes han identificado 28 brechas de datos en cinco ámbitos: salud, educación, oportunidades económicas, participación política y seguridad humana, ya cuentan con definiciones acordadas internacionalmente, que se elaboran a través de los instrumentos de recolección de datos disponibles, que ya cuentan con una cobertura relativamente amplia, que no tienen sesgos de género incorporados, y que están basados en las recomendaciones de ONU Mujeres, el Grupo Interinstitucional y de Expertos sobre Estadísticas de Género, el Grupo de Trabajo Abierto, los indicadores de los ODS y la actual lista de la Comisión de Estadística de las Naciones Unidas, incluyendo pero no limitado a la meta cinco sobre Igualdad de Género de los Objetivos de Desarrollo Sostenible. Están en la búsqueda de unir esfuerzos con otros socios, expertos y agencias nacionales para poner a prueba los indicadores “Listos para medir” y motivar el inicio de la recolección de datos de género.

  • Más reciente, de septiembre de 2016, la iniciativa emblemática “Haciendo que cada mujer y cada niña cuenten” (Making Every Woman and Girl Count) de ONU Mujeres. El programa de cinco años invertirá los recursos y la experiencia necesarios, centrándose en 12 países pioneros, para generar, priorizar y utilizar los datos de género. Ayudará a los países a formular políticas basadas en datos concretos y orientadas a aplicar plenamente los progresos logrados en relación con los objetivos de desarrollo sostenible (GDS).

 

En ambos casos existen objetivos claramente trazados, en búsqueda de resultados que ciertamente no veremos en el corto plazo, pero que significan un esfuerzo importante por trascender en la necesidad de mejores datos de género.

 

La labor continua y el rol desde sociedad civil

 

En el continuo ejercicio de demanda y generación de mejor data de género por parte de la ciudadanía hacia los gobiernos, vale la penar que como ejercicio recordemos y apliquemos los Principios Básicos para la Revolución de Datos para el Desarrollo Sostenible, presentado en el informe de la revolución de datos “Un mundo que cuenta” (A world that counts) de Naciones Unidas, para entender qué pedimos, cuáles las características que necesitamos y cómo lo pedimos:

  1. CALIDAD Y RELEVANCIA DE LOS DATOS: Lo había mencionado anteriormente, la invisibilización del corte de género deriva en un análisis de dataset sesgados, lo que limita la posibilidad de generar transformaciones.
  2. DESAGREGACIÓN DE DATOS: Se ha considerado al corte de género como omnipresente en las bases de datos, sabemos que se hizo, pero en algún punto alguien consideró que no eran importantes para el análisis; esta práctica invisibiliza realidades.
  3. OPORTUNIDAD DE DATOS: Los datos retrasados ​​son datos negados; la falta de datos desagregados y en el tiempo oportuno significan un dificultad mayor y una demora para la pertinente revisión de las políticas públicas.
  4. TRANSPARENCIA DE DATOS Y APERTURA: Todos los datos sobre cuestiones públicas y / o financiados por fondos públicos, incluidos los datos producidos por el sector privado, deberían hacerse públicos y «abiertos por defecto», con excepciones estrictas para las preocupaciones reales de seguridad o privacidad. En lo relacionado a género específicamente, la falta de transparencia y apertura de estos datos está generando poca precisión en la identificación de problemas y posibles soluciones, en lo que demandamos al aparato público.
  5. DATOS DE USABILIDAD Y CURACIÓN: La arquitectura de datos debe poner gran énfasis en el diseño centrado en el usuario y en interfaces amigables para el usuario, considerando que los usuarios frecuentes de estos datos, además de los organismos públicos, son organizaciones de sociedad civil. Datasets incomprensibles o información con componentes de complejidad innecesarios, como PDFs con contraseña, no facilitan el consumo de datos.
  6. PROTECCIÓN DE DATOS Y PRIVACIDAD: Es necesario elaborar normativa clara, políticas y marcos jurídicos sólidos que regulen la inclusión y la exclusión voluntaria, la extracción de datos, la reutilización con otros fines, la transferencia y la difusión. Los ciudadanos deberían poder comprender y controlar mejor sus propios datos y proteger a los productores de datos de las demandas de los gobiernos y de otros ataques.
  7. GOBIERNO DE LOS DATOS E INDEPENDENCIA: En la alternancia del poder político, muchas oficinas nacionales de estadística se ven afectadas en sus procesos y continuidad de acciones, las coloca en una posición de vulnerabilidad a la influencia de los grupos políticos y de interés. La calidad de los datos debe ser protegida y mejorada mediante el fortalecimiento y la garantía de que son funcionalmente autónomos, independientes de los ministerios sectoriales y de la influencia política.
  8. RECURSOS Y CAPACIDAD DE LOS DATOS: Una doble responsabilidad, por una parte requiere inversiones, por ejemplo, en capital humano, mejores tecnologías, infraestructura, datos geoespaciales y sistemas de gestión principalmente en sistemas gubernamentales; por otra debe desarrollarse la capacidad de ciencia de datos en los servidores públicos y organizaciones de sociedad civil para generar valor agregado a partir de datos, ello puede convertirse en un elemento complementario de calidad a las estadísticas oficiales.
  9. DERECHOS DE DATOS: Es la comprensión de que la revolución de los datos está estrechamente vinculada al ejercicio y resguardo de los derechos humanos, entre otros, el derecho a ser contados, el derecho a la identidad, el derecho a la privacidad ya la propiedad de los datos personales, el derecho al debido proceso, por nombrar algunos, pero que en esencia implican.

 

Finalmente, como periodistas, investigadores y activistas las puertas están abiertas para replantearnos la perspectiva de nuestras causas y empezar a dar enfoque de datos a los temas de género: ello nos conduce a una discusión en un nivel más puntual y efectivo, trascendiendo más allá de lo mediático y empujando a la reflexión más objetiva que se enfoque justamente en subsanar aquellas disparidades invisibilizadas; los datos son la herramienta más concreta para incidir en políticas públicas.

 

 

Cómo hacer visualizaciones de datos con Tableau

- el diciembre 29, 2016 en Tutoriales, Uncategorized

Mi incursión en Tableau surgió como una oportunidad. Hace dos años, trabajaba en una Organización No Gubernamental (ONG) en El Salvador especializada en el tema de mujeres. Mi exjefe estaba por comprar un software especializado en visualizar datos. Se me acercó y me preguntó: «¿Le interesaría aprenderlo?» Dudé. No mucho, pero dudé. Y, pese a las dificultades iniciales, acepté el reto y heme aquí intentando que la gente lo ame tanto como yo lo hago.

De ahí, cada que puedo recomiendo Tableau, una herramienta creada por tres entusiastas de los datos en la Universidad de Stanford, como un excelente aliado en visualización cuando carecemos de equipos multidisciplinarios (conformado por visualizadores, infografistas, diseñadores, entre otros), pues se sustenta en el concepto one man band para contar cierto tipo de temáticas con gráficos. ¡Ojo! Tiene una versión pagada, pero si trabajas en una universidad o lo utilizas para fines académicos puedes solicitar una copia GRATUITA para dos años y válida para ser instalada en dos computadoras acá: http://www.tableau.com/academic/students.

Por eso, hoy quiero compartir contigo cómo puedes hacer visualizaciones de mapas y gráficas que, en su momento, impactaron al funcionario salvadoreño con un set de datos que trabajé durante mi paso por dicho proyecto, enfocado en la problemática de mujeres salvadoreñas deportadas de México y Estados Unidos, un fenómeno que casi no había sido analizado ni comprendido del todo en mi país. Sin más, zambullámonos en el vasto y fascinante mundo de Tableau, ¿sí?

¡Bellísimo así!

Es lo primero que dirás al abrir la nueva versión de Tableau, pues su edición 10 ha apostado por una interfaz más intuitiva para quien se anime a explorar el noble arte de la visualización. Te lo digo yo porque vengo de donde asustan, ya que me tocó aprender a utilizarlo en su versión 7. Como puedes ver en el menú de la izquierda, puedes conectar tus bases desde un archivo (ya sea .xls, .csv, .tsv, entre otros) hasta aquellas que tengas trabajadas en un servidor (MySQL, Oracle Server, etcétera).

image00

 

 

¡Comencemos! Conectaremos mi archivo con la opción Conectar a un archivo > Excel. Buscaremos la base trabajada en mi computadora y Tableau se tomara unos momentos para procesarla. ¡Voilá! Tendremos una previsualización para que podamos revisar la data antes de trabajar con ella. Esta deberías verla de la siguiente forma:

image12

El trabajo de carpintería con una base de datos se vuelve fundamental, pues dicho set se encuentra preparado para ser leído por un programa de computadora como Tableau con el objetivo de que puedan realizarse todas las conexiones y relaciones necesarias para analizar datos que nos hagan ver más allá de lo evidente (Thunder, Thunder,Thundercats, ¡oooooooooooh!).

A ojo de buen cubero, puedes ver que Tableau automáticamente establecer una diferenciación entre aquellos valores que son textos y números; no puede establecer que los años, las latitudes y longitudes son variables que pueden trabajarse de forma diferenciada en el caso de una visualización.

Para cambiarlas, haz clic sobre el ícono Numeral (#) que aparece arriba de dichas categorías > Rol geográfico > Latitud/Longitud. Finalizado este paso, verás que ha cambiado el ícono Numeral (#) por un globo terráqueo. ¡Eso significa que funcionó! ¡Yey! De igual forma, sigue los mismos pasos para la variable Ano y cambíalo por una Cadena que nos servirá para analizar los años de forma continua.

image02

 

 

 

 

¡A trabajar! Demos clic en el recuadro naranja denominado Hoja 1 y sigamos el camino datero hacia nuestro canvas en blanco. Qué belleza, ¿no? Tableau establece una clara diferenciación entre cada aspecto clave de visualización (filtros, marcas, gráficos, hojas, dashboards, entre otros) y, además, simplifica el trabajo mediante el arrastre de variables hacia determinados campos o con solo darle doble clic a las medidas y dimensiones podemos verlas desplegadas en nuestro canvas.

image23

 

Comencemos con un mapa. Para desplegarlo, haz doble clic en Longitud y Latitud; te aparecerá un punto geográfico que localizará a El Salvador en un mapa de OpenStreet. Como necesitamos visibilizar a los 262 municipios del país para visibilizar la temática de las mujeres repatriadas, arrastremos las Medidas Departamento y Municipio hacia la opción Detalle del Menú Marcas. ¡Listo!

image21

¿Ves? Ya podemos ver cómo cambia nuestra forma de visualizar mapas. Gracias a Tableau, podemos estilizar colores y tamaños de los puntos con cantidades o tasas; arrastremos Municipio y Tasa por cada 100,000 habitantes a las opciones Color y Tamaño del menú Marca respectivamente. Así, podemos mostrar la gravedad, repitencia de un fenómeno u otra problemática nacional.

image16

 

 

Pero, ¿qué pasa si no deseas los colores y tamaños preestablecidos de Tableau? Tableau te ofrece la maravillosa ventaja de arreglarlos a tu gusto en las opciones del menú Marca. Acá, yo cambié un poco el tamaño y utilicé la paleta de color púrpura de la herramienta. Para modificarlo, hice lo siguiente: di clic a la opción Color del Menú Marca > Editar Colores > Seleccionar paleta de colores > Púrpura > Asignar Paleta > Aceptar. ¡Y me quedó así!

ya

 

¡Momento! ¡Falta algo! Exacto: limpiar la descripción emergente. Aún contempla la Latitud y Longitud, así como otras variables útiles para describir el fenómeno en cada localidad. Dado que nos interesa que la gente se familiarice y lo entienda de un vistazo, arrastremos las siguientes Medidas a la opción Descripción emergente (Tooltip) del Menú Marcas: Forma de repatriacion y Cantidad.

Por las demás variables, ¡tranquilo! Ya se encuentran contempladas en dicho apartado. Para limpiar la suciedad persistente en el Tooltip puedes editar y condensar la información a lo más importante. ¡Ojo! No abuses de la paleta de colores, pues tu historia puede difuminarse ante una paleta de colores infinita e innecesaria. Finalizada tu edición, dale clic a Aceptar. ¡Primera hoja lista!

Do the evolution!
Como la rola de Pearl Jam, esta herramienta te ayuda a ver cómo evoluciona un fenómeno con gráficas de líneas o áreas. Para ver este caso, hagamos lo siguiente. Agreguemos una nueva hoja a nuestro libro de trabajo, haciendo clic en el botón inferior derecho, ubicado cerca de la hoja Mapa. En ella, arrastraremos la dimension de los años y la medida Cantidad a los apartados de columnas y filas respectivamente. ¿Ves cómo se despliega ahora?

image13

 

 

 

 

 

 

 

 

Maticemos el grado de intensidad de la gráfica arrastrando la medida Cantidad en la opción Color del menú Marcas y editemos el color a púrpura. Así, daremos aire de familia a nuestra visualización. Ahora bien, para vislumbrar las cantidades, arrastremos la medida Cantidad al campo Etiqueta del menú Marca y así podrás ver cómo se presentó el fenómeno en general durante tres años.

 

 

 

 

 

 

 

 

 

 

 

Si eres curioso como yo, notarás que al pasar el cursor sobre los puntos, verás que la Descripción emergente no tiene lo que necesitamos. Por eso, arrastraremos las siguientes variables a Descripción emergente: Departamento y Forma de repatriacion. Nuevamente, condensemos y editemos para resaltar lo importante. Así, tendremos un before and after espectacultar. Maravilloso, ¿verdad?

image07

 

 

 

 

 

 

 

 

 

 

 

Entre el mapa y el gráfico, ¿notaste elementos comunes que pueden servir para filtros? Yo también. Sazonemos nuestras hojas con ellos para que sean aplicables en un dashboard. Arrastremos las dimensiones Departamento y Forma de repatriación al campo Filtros, ubicado arriba del menú Marca. Seleccionemos todas sus variables y apliquémoslas a ambas hojas. Para el caso de los años, solo se lo aplicaremos al mapa, dado que ya contamos con un gráfico que muestra la evolución en el tiempo.

image10

 

 

 

 

 

 

 

 

 

 

 

image06

 

 

 

 

 

 

 

 

 

 

 

image04

 

 

 

 

 

 

 

 

 

 

 

¿Y si hacemos un muñeco?

¡Llegó el momento! Creemos un dashboard. Este es un elemento que contendrá nuestras hojas y otros elementos de interés para nuestra visualización. Accedamos a él con el botón Nuevo dashboard, ubicado cerca del botón Nueva hoja. ¡Voilá! Un canvas con la posibilidad de visibilizar el fenómeno de mujeres repatriadas a El Salvador. Arrastremos nuestras dos hojas para que nos queden así:

image11

 

 

 

 

 

 

 

 

 

 

 

Ordenemos la casa. Coloquemos la cantidad de tasas como valor flotante. Para hacerlo, haremos clic derecho sobre la flecha desplegable hacia abajo del contenedor de tasas y seleccionaremos la opción Flotante. Deshágamonos de las leyendas de colores de los municipios haciendo clic en la X que aparece en su contenedor. Finalizado esto, convoquemos los filtros a escena. Haremos clic sobre la flecha negra desplegable en el contenedor de la hoja Mapa y seleccionaremos la opción Filtro > Ano, Forma de repatriación y Departamento. Estos aparecerán de la siguiente forma:

image18

 

 

 

 

 

 

 

 

 

 

 

¡Yo sé! Aún no se ve lindo nuestro dashboard. Coloquemos dos filas imaginarias arriba de nuestro mapa. ¿Cómo? Utilicemos la opción Objetos > En blanco para colocarlas en el dashboard. Al principio, nos saldrán fuera de lugar, pero podemos arrastrarlas para acomodarlas en lo más alto de nuestra visualización. Una vez posicionadas, necesitamos redactar un titular y un indicador que guié a nuestro usuario a darse un vueltín por nuestra visualización.

Hagámoslo realidad haciendo clic en la opción Texto del Menú Objetos. Posteriormente, posicionemos el titular en la primera fila y el indicador en la siguiente. Terminado esto, elimina la fila del titular y despliega el titular en toda la fila; con el indicador ocurre lo contrario, dado que deberás arrastrar los filtros posterior a él. Acómodalos y obtendrás como resultado lo siguiente:

image01

 

 

 

 

 

 

 

 

Prescindamos del titular del Mapa. Haremos clic sobre la flecha desplegable del contenedor Mapa y le quitaremos el cheque a la opción Título. ¡Se fue, se fue! Ahora, pulamos el títular de nuestra gráfica. ¿Cómo? Hagamos clic sobre su titular y redactemos: Cantidad de mujeres repatriadas en. Finalizado eso, haremos clic en Insertar y coloquemos las siguientes variables en nuestro titular: ATTR(Departamento) – ATTR(Forma de repatriacion). Así, le daremos interactividad una vez el usuario se valga de los filtros para analizar la información. image14

 

 

 

 

 

 

 

 

 

 

 

 

image08

 

 

 

 

 

 

 

 

 

 

 

Ah, ¡lo olvidaba! También, puedes formatear el título para darle el mismo realce que al titular de nuestro dashboard. ¡Ojo! Siempre, siempre, siempre cita la fuente de dónde obtuviste la información, dado que eso te será de mucha utilidad para respaldar de dónde fue extraída y qué otras consideraciones tomaste en cuenta al momento de analizar la data, como el caso de las tasas.

 

¿Con quién se queda el Tableau?

Supongamos que ya tenemos nuestra visualización como la queremos. Acá, solo nos queda publicarlo en línea. Para eso, Tableau nos pide que elaboremos un extracto de nuestra información como respaldo. ¡Manos a la obra! Iremos a la barra de Menús > Datos > Extraer Datos. Acá, aparecerá un menú donde podremos añadir todas las variables clave que se extraerán de tu data.

image25

 

 

 

 

 

 

 

 

 

 

 

 

Haremos clic a la opción Añadir y seleccionaremos Año. A continuación, aparecerá una ventana emergente donde estarán todos los años. Escogélos todos y daremos clic en el botón Aceptar. Seguiremos el mismo procedimiento para el resto de variables; finalizado este procedimiento, crearemos el extracto dando clic en el botón Extracto.

image19

 

 

 

 

 

 

 

 

 

 

 

image03

 

 

 

 

 

 

 

 

 

 

 

image19

 

 

 

 

 

 

 

 

 

 

 

¡Ya casi, ya casi! Ahora vamos a la opción Servidor de la barra de menú. Escogeremos Tableau Public > Guardar en Tableau Public como… En cuanto hagamos eso, nos aparecerá una ventana donde ingresaremos nuestro correo electrónico y nuestra clave para acceder a nuestra cuenta. Si no cuentas con una, ¡tranquilo! Esta herramienta te permite crearla durante este proceso.

image17

 

 

 

 

 

 

 

 

 

 

 

 

image15

 

 

 

 

 

 

 

 

 

 

 

 

image05

 

 

 

 

 

 

 

 

 

 

 

Tan pronto como ingresemos nuestros datos, nos pedirá que redactemos el nombre de nuestra visualización. En este caso, le puse Mujeres repatriadas en El Salvador. Damos clic al botón Guardar. La herramienta procesará… ¡Voilá! ¡Nuestro Tableau aparecerá desplegado en nuestro perfil público de Tableau, donde podemos editarle detalles, como una breve descripción, qué tipo de formatos autorizamos a la herramienta para que la gente pueda descargar, entre otras utilidades.

image20

 

 

 

 

 

 

 

 

 

 

 

¿Tableau o no Tableau? ¡Esa es la cuestión!

Mi recomendación es que apuestes por Tableau. Y, si tu medio de comunicación u organización puede adquirirlo, mucho que mejor, pues una clara diferencia entre la versión gratuita y la versión pagada es que tienes mejor cobertura de seguridad, acceso al servidor pagado (con mejor seguridad que el público) y mayor lectura de líneas de registro y formato de apertura de ciertos archivos.

Sumado a eso, concuerdo con Ojo Público (2016) al garantizarte que la creación de filtros permite que los usuarios consulten y obtengan resultados personalizados en datos. Y, sobre todo, el hecho de que no se necesita saber programación para usarla, pues, al descubrir que algunas de sus funcionalidades provienen de herramientas como Excel, la cosa pinta mucho que mejor.

¡Eso sí! “Sobre advertencia, no hay engaño”. Actualmente, la mayoría de información sobre esta herramienta se encuentra en inglés, su foro de atención al usuario se tarda un poco (¡o un siglo!) en responder y algunos gráficos, como el mapa de relleno, dejan mucho que desear cuando son regiones o naciones foráneas a Estados Unidos…

Aun así, es una herramienta que promete mucho en su nueva actualización, a la que vale la pena acercarse por facilitarte un poco más las cosas a la hora de visibilizarse historias con datos, así como el grado de interactividad que le brinda al usuario y, si ya con esto no logro convencerte, te reto a que la pruebes y nos compartas qué te parece y que no debajo de esta publicación o en nuestro Twitter (@EscueladeDatos). Cheers!

Combinando bases de datos con Tableau Public de manera automática

- el octubre 24, 2016 en Tutoriales

En ocasiones, tenemos dos o más bases de datos que queremos combinar por un factor común. El uso de datos es más efectivo cuando puedes combinar varias bases de datos y ver cómo se relacionan entre ellas. Tableau Public es un programa que nos permite hacer esto de manera sencilla. En este tutorial veremos cómo hacerlo.

Al combinar datos de manera automática te ahorras el tedioso trabajo de tener que emparejar de manera manual dos o varios set de datos.

Al combinar datos de manera automática te ahorras el tedioso trabajo de tener que emparejar de manera manual dos o varios set de datos.

 

  • Instala el programa

 

Este programa gratuito te permite importar tus datos para crear visualizaciones interactivas. Todo tu trabajo se guarda en tu usuario y se puede compartir a través de códigos embed o iframes. Otra ventaja es que el programa está disponible para los sistemas operativos Windows y Mac. Para descargar la aplicación, entra en este link y sigue las instrucciones que el instalador te señala.

2) Asegúrate de que tus datos compartan un denominador común

Cuando quieres unir bases de datos debes asegurarte de que ambas compartan algún campo que vincule los dos sets de datos. Por ejemplo, si tienes dos set de datos sobre los países de Latinoamérica, tu denominador común puede ser el nombre del país. O si tienes datos sobre denuncias y delitos de los partidos políticos, el denominador común puede ser el nombre o las siglas del partido.

3) Repasa la teoría de los conjuntos

Tableau Public te permite realizar dos tipos de combinaciones.

La primera, es una unión interior.

image00

 

 

 

 

En este tipo de unión, sólo se copiaran los datos en los que el denominador común de ambas fuentes de datos coincida. Por ejemplo, si tenemos un set de datos sobre alfabetización en  todos los países del mundo y lo combinamos con datos sobre el acceso a la educación primaria en los países de Latinoamérica, nuestra base de datos combinada solo mostrará los datos de los países de Latinoamérica.

La segunda, es una unión izquierda.

image01

 

 

 

 

En este tipo de unión, se copiarán todos los datos de tu primera fuente de datos y sólo se agregarán los datos de la segunda fuente cuando estos coincidan en denominador común. Las filas que no tengan coincidencias se mostrarán como valores nulos. Siguiendo nuestro ejemplo, nuestra base de datos combinada mostraría los datos de alfabetización de todos los países del mundo, pero aquellos que no forman parte de Latinoamérica no contarían con datos sobre el acceso a educación primaria.

4) Abre el programa y conecta tu primera fuente de datos

Al iniciar, el programa te invita a conectar a un archivo de base de datos, que puede ser en formatos Excel (xls, xlsx), Archivos de texto (csv) o Access. Selecciona tu primer set de datos. En nuestro ejemplo, sería el archivo con el porcentaje de alfabetización de todos los países del mundo.

image03

 

 

 

 

5) Añade tu segunda fuente de datos

Haz click en la palabra añadir y agrega una segunda base de datos. En nuestro ejemplo, es el archivo con el porcentaje de acceso a la educación primaria en los países latinoamericanos.

image05

 

 

 

 

6) Arrastra ambos sets de datos y conéctalos

Al arrastrar las diferentes hojas de cálculo a la pantalla de Tableau Public, el programa te mostrará la relación que estás creando entre ambas bases de datos y te dará una muestra de cómo luce tu conexión de datos.

image06

 

 

 

 

7) Edita la conexión

Haz click en los dos círculos unidos que se muestran entre tus fuentes de datos para abrir una ventana de edición de tu unión. En esta pestaña debes de decidir si quieres una combinación interior o una combinación izquierda. También debes de indicar cuál es la categoría en tus fuentes de datos que coincide o es igual en ambas. En este caso, seleccionamos el campo Country (País) para que combine los datos de cada país de manera automática.

image04

 

 

 

 

Siguiendo el ejemplo, si decides hacer una conexión interior, la combinación de estas dos bases de datos sólo te mostraria 42 filas con los datos de alfabetización y acceso a educación primaria de los 42 países de Latinoamérica y el Caribe.

En cambio, si eliges una conexión izquierda, el set de datos resultante te mostraría 254 filas con los nombres de todos los países del mundo y sus datos sobre alfabetización, pero los datos sobre acceso a educación primaria solo estarían en los países latinoamericanos. El resto de países tendría un valor nulo en esta categoría.

Durante todo el proceso, Tableau Public te muestra una previsualización de cómo se ve tu set de datos combinado debajo de la sección en la que editas las uniones.

8) Copiar y guardar.

Selecciona todas las filas y columnas de tu base de datos combinada haciendo click en la esquina superior izquierda de la previsualización que te muestra el programa. Copia el contenido con la combinación Ctrl+C o ⌘+C,  pégalo en el editor de hojas de cálculo de tu preferencia y guárdalo.

Así, de manera sencilla, puedes combinar bases de datos con muchos campos y sin tener que prestar atención y copiar manualmente las coincidencias. Esta práctica es de mucha utilidad cuando quieres combinar diferentes estadísticas sobre varios lugares, o cuando quieres combinar una base de datos con datos georeferenciales con una que contenga estadísticas.

La combinación izquierda te puede servir para identificar valores que coincidan entre dos bases de datos. Esto es de mucha utilidad cuando estás creando hipótesis para investigaciones o quieres comprobar relaciones entre listados de personas o entidades.

Open Refine – qué es + tutorial

- el junio 30, 2014 en Tutoriales

dtm_201307

Manuel Ríos

 

Este post y tutorial es una contribución de Manuel Ríos. Su semblanza: 

Hombre. Mexicano. Gustoso de la tecnología y su impacto. Comprometido con la sociedad y con mi país. Economía, innovación, desarrollo, entre otros.

——————————————————————————-

Sobre Open Refine

Open Refine es una herramienta originalmente creada por Google para el manejo de bases de datos. Nos permite limpiar bases de datos, exportarlas en diferentes formatos, y arreglar y manejar las bases para un mejor uso. Actualmente el proyecto ya no es financiado por Google y se encuentra como proyecto abierto.

Los archivos que podemos importar para trabajar pueden tener las extensiones TSV, CSV, XML, JSON, XLS, e incluso Google Spreadsheets, entre otros. También nos permite transformar archivos de cualquiera de estos formatos a otro. Open Refine funciona como ejecutable sobre cualquier navegador web y está disponible para Windows, Mac y Linux.

Tutorial: ¿Cómo hacer fusiones en Open Refine?

La función merge (fusionar, intercalar) sirve principalmente para unir bases de datos, generalmente a través de una variable en común.

En este breve tutorial, haremos un merge o fusión de dos bases de datos. ¡Comenzamos!

Tomamos dos bases de datos de la Penn World Table que contienen datos sobre México y Estados Unidos de 1950 a 2010. Las variables en las bases son las siguientes:

País: nombre del país
Isocode: código del país
Año: de 1960 a 2010
Población: Población total del país
PIB: PIB del país
PIBPC: PIB per cápita del país

Vamos a realizar una fusión basada en la variable “Año”, juntando los datos de población, PIB y PIBPC en una misma base.

Pasos:

1. Abrir Open Refine y crear un proyecto nuevo.

2. En este botón, debes escoger los archivos que vas a trabajar. Después, haz clic en Next.

Refine1

2. Al hacer clic en Next, llegaremos a una vista previa, donde damos un nombre al proyecto. Después hacemos clic en Create Project. En este caso lo único que hicimos fue crear el proyecto con la base de datos de México. Una vez creado el proyecto, éste aparecerá en la sección Open Project.

Screen Shot 2014-06-30 at 17.49.25

3. De la misma manera, subimos el otro archivo para crear otro proyecto. Hay que tener ambos abiertos. Se verán así:

Screen Shot 2014-06-30 at 17.50.234. Para hacer la fusión a partir de la variable de año, vamos a hacer clic en la flechita que está al lado del nombre (en este ejemplo, unimos la base de Estados Unidos a la de México). Después elegiremos la opción de Add column based on this column.

Screen Shot 2014-06-30 at 17.52.40

5. En la siguiente ventana vamos a llenar los datos para realizar la fusión.

En el campo Expression podemos hacer la fusión a través del siguiente comando:

cell.cross(“USA” , “Año”).cells [“Población”]. Value [0]

 En Preview podemos ver cómo va a quedar la nueva columna en el documento.

Screen Shot 2014-06-30 at 17.55.05

6. Hacer clic en OK. Entonces podremos ver que la variable  “PoblacionUSA” ya se encuentra en la base de México, con los valores en cada año que le corresponden.

Screen Shot 2014-06-30 at 17.57.40

6. Para traer otra variable con su año correspondiente, podemos cambiar el comando. Por ejemplo, para traer el PIBUSA a la base de México, el comando sería el siguiente:

cell.cross(“USA” , “Año”).cells [“PIB”]. Value [0]

Screen Shot 2014-06-30 at 17.59.27

Al hacer clic en OK nuevamente, aparecerá la nueva variable en la base.

Screen Shot 2014-06-30 at 18.01.39

En resumen, puedes adaptar este comando para hacer tus fusiones:

cell.cross(“nombre del otro proyecto” , “variable en común”).cells [“variable a traer”]. Value [0]

¡Esperamos que este mini tutorial te sea de utilidad!

Introducción a MongoDB

- el abril 6, 2014 en Guest posts

Este post es una contribución de David Trillo de Manejando Datos, un blog sobre bases de datos y programación. David estará contribuyendo al blog de Escuela. ¡Gracias, David!
————

dtm_201307

David Trillo, ManejandoDatos.es

Desde hace varios años, existe una nueva tendencia en el sector de las bases de datos hacia nuevos conceptos. Se trata de las bases de datos NoSQL, o sea, Not Only SQL.

En los siguientes párrafos voy a contar una pequeña introducción sobre mongoDB, cuya web oficial es www.mongodb.org, y donde encontrarás más información sobre este interesante proyecto.

Conceptos básicos

Para alguien que solo conoce las bases de datos relacionales, empezar con las bases de datos de MongoDB requiere una “pequeña” introducción a los principales conceptos.

Un registro de SQL se denomina documento en NoSQL, mientras que una tabla de SQL es una colección de documentos en NoSQL.

Los documentos son un conjunto de claves con sus valores asociados, cómo por ejemplo { “clave”: “valor” }, y que tienen además un esquema dinámico. Se entiende por esquema dinámico el hecho de que los documentos de una misma colección no necesiten tener el mismo conjunto de campos o estructura, e incluso campos comunes pueden contener distintos tipos de dato.

Frente a las tablas de las base de datos relacionales, las claves son “cadenas” que no pueden contener caracteres especiales como $, #, …  en contraste con los campos autonuméricos de las bases de datos relacionales (bueno, esto es lo deseable!). Además, las claves serán únicas, no estando permitido claves duplicadas.

Las colecciones (de documentos) son las que permiten organizar los documentos de forma rápida y cómoda. Lo más lógico es que cada colección contenga documentos con un mismo tipo de estructura, y no se mezclen, aunque cómo hemos visto antes, los esquemas dinámicos permiten muchas opciones.

Y … ¿qué ventajas tienen este tipo de bases de datos? La rapidez de las consultas. Una de las características de MongoDB es que no es una base de datos transaccional, esto es, las operaciones de insercion y/o actualizacion no se hacen dentro de una transacion, sino en varias, por lo que es posible que se realicen algunas sí y otras no (en las bases de datos transaccionales, o se realizan todas o no se realiza ninguna).

La información en la base de datos se guarda en formato BSON, que es una versión modificada del formato JSON, formato muy utilizado en programación Web, sobre todo en JavaScript.

Por eso, mongoDB es muy interesante si se usa con otros dos proyectos muy interesantes, como son node.js o Socket.io.


¿Te interesa el tema? David ha escrito mucho sobre MongoDB en ManejandoDatos. Ha cubierto los desafíos; publicado reflexiones, scripts, e inclusive una guía de instalación. ¡Aprovecha esta información!

SQL: La precuela (Excel vs bases de datos)

- el noviembre 27, 2013 en Tutoriales

Este post fue publicado originalmente en inglés por Noah Veltmann en School of Data, y traducido al español por Aura Montemayor de SocialTIC.

5613864571_f8ef912bd0_z

Imagen: Frédéric Bisson

Escuela de Datos retomó la publicación de Noah Veltman para Learning Lunches, un tutorial para periodistas que se dedica a disipar la idea de que las herramientas técnicas son difíciles de usar cuando se trata de obtener datos.

Las primeras herramientas que compara son SQL y Excel.

Para qué es bueno Excel:

Excel tiene una mala reputación, pero lo cierto es que también es un software muy flexible y potente, y en él puedes hacer muchas cosas como las siguientes:

  • Navegar por los datos con facilidad.
  • Introducir y editar datos manualmente con facilidad.
  • Compartir copias de los archivos.
  • Escoger la presentación visual.
  • Aprovechar la estructura flexible que dan las celdas únicas.
  • Integrar tu trabajo con el software de cualquier oficina.
  • Aprovechar la vivacidad que da la posibilidad de uso de fórmulas.
  • Usar los íconos de ayuda para realizar gráficos, que dan sugerencias y tienen corrector ortográfico.
  • Aprender a usarlo de manera relativamente fácil.

Para qué no es bueno Excel:

Desafortunadamente, Excel tiene límites, y es malo para otras cosas como las siguientes:

  • No integra los datos, ya que cada celda es única; esto hace que el documento pueda ser muy inconsistente. Un número no tiene necesariamente el formato de un número; así puede haber variaciones entre datos. Debes poner atención a los detalles.

  • No es recomendable para trabajar con múltiples bases de datos.

  • Cuando los datos llegan a determinada cantidad, el rendimiento del documento se reduce al igual que la interfaz. Las celdas son limitadas.

  • Cuando se trata de trabajar en equipo, es muy difícil saber quién modificó el documento y en qué lugar.

Bases de datos relacionadas

¿Qué es una base de datos relacionada? Podríamos ser muy exigentes con la terminología, pero, en términos generales, se trata de un «servidor» que almacena todos tus datos (piensa en una enorme biblioteca) con un mecanismo para que alguien más las pueda consultar (piensa en un bibliotecario).

La consulta SQL (Structured Query Language) es una sintaxis para solicitar cosas desde la base de datos. Es el lenguaje que el bibliotecario habla. Sigue leyendo y te hablaremos más de esto.

La parte de «relacionar» es un indicio de que estas bases de datos se preocupan por las relaciones entre los datos. Y sí: también existen las bases de datos no relacionadas, pero asumiremos por el momento que todos somos amigos.

El mantra de las bases de datos: cada cosa en su lugar

En una base de datos, debes guardar las cosas lógicamente. Incluso, algunas veces ésta te obliga a guardarlos de cierta manera.

Piensa que cada base de datos es como una tabla, y cada tabla corresponde a una hoja de cálculo en un archivo de Excel. Una tabla de base de datos se compone de columnas y filas.

Columnas

A cada columna se le asigna un nombre (como «Dirección» ) y un tipo de columna definida (como  ‘ Fecha ‘, ‘Fecha + Hora ‘ o ‘Texto’) . Tienes que escoger un tipo de columna y mantener el mismo formato para cada fila. La base de datos relacionará a todos los datos que pongas en esa columna bajo ese tipo. Esto podría parecer tedioso y molesto, pero es muy útil. Si trataras de poner datos incorrectos en una columna, Excel marcaría un error hasta que fueran introducidos de manera correcta.

También puede especificar cosas útiles, como las siguientes:

  • Si una columna tiene valores duplicados.
  • Si una columna está vacía.
  • El valor predeterminado de una columna si no especificas tú uno.

Importante: Las columnas definen la estructura de los datos.

Filas

Las filas son los datos reales de la tabla. Una vez que establezcas la estructura de la columna, puedes agregar tantas líneas como desees.

Cada fila tiene un valor para cada columna. Excel es un lienzo visual y te permitirá crear cualquier tipo de celdas y fusionarlas como desees. Incluso puedes hacer formas tan complejas como en un juego de Tetris. Sin embargo, esto no va con la idea de una base de datos donde se prevé una red real. Si dejas celdas vacías de manera intencional, el documento sabe distinguir que esa celda está vacía, y que no es lo mismo que una no existente.

Mesas, combinaciones y llaves

Más adelante retomaremos este tema, pero poner todo en el lugar correcto significa hacer tu vida más sencilla. Puedes hacer y deshacer tus datos para ponerlos en diferentes tablas o categorías y poder trabajar con ellos como un conjunto.

Que los datos sean datos

Las bases de datos sólo se centran en las capas superficiales e ignoran por completo la presentación visual de los datos. Colores, formas, bordes, fuentes… básicamente no existen para las bases de datos. Lo que ves es lo que hay. Eso se puede tomar como una buena noticia, pero también como una mala. La buena es que las bases de datos son excelentes para hacer cálculos; pero la mala es que tienen que ser complementadas con otro programa para crear un producto final, como un gráfico o una página web.

Al ser muy buenas en el almacenamiento y procesamiento de datos y no en otras cosas, las bases de datos son extremadamente escalables. ¿Necesitas 1 millón de filas de datos? ¿10 millones de dólares? No hay problema: no hay prácticamente ningún límite a la cantidad de datos que pueden almacenar.

Bases de datos y web

Las bases de datos son excelentes para hacer análisis preliminares, explorar datos y limpiarlos… Pero son mejores para conectarlos con otros programas una vez que sepas lo que quieres hacer con ellos. Virtualmente, todo el internet se sustenta en bases de datos como las antes mencionadas. Por ejemplo Twitter, Facebook y Gmail son complejas bases de datos que nos dan información.

Cuando se trata de noticias y se maneja una gran cantidad de datos (o se espera que éstos cambien con el tiempo), tiene a utilizarse una base de datos. En vez de tener un archivo JSON estático con todos tus datos, mantienes una base de datos y escribes un app que hace búsquedas en ella con los datos actuales. Y así, cuando los datos cambian, lo único que tienes que hacer es actualizar la base de datos – los cambios se verán automáticamente reflejados en el app.

Para los casos de apps en las que los datos no van a cambiar y la cantidad no es grande, una base de datos es demasiado esfuerzo que no rendirá frutos, aunque tal vez quieras usar una al principio para crear un archivo de datos de cierto tipo.

Si estás usando un API para introducir datos a un app, estás usando también una base de datos; la diferencia es que estás dejando que alguien más la almacene por ti. Esto es mucho más fácil, pero también aumenta la vulnerabilidad de tus datos, pues esas personas pueden acceder a tus datos cuando quieran.

Pequeñeces que vale la pena mencionar: a veces un app no accede directamente a una base de datos para jalar información. A veces accede a archivos en cache, pero esos archivos sí son generados automáticamente con base en lo que está en la base de datos.

¿Entonces cuándo debo usar una base de datos en lugar de Excel?

Excel y las bases de datos son dos cosas totalmente distintas. Ninguna herramienta es buena o mala. Te recomendamos usar una base de datos si tu proyecto cumples con las siguientes características:

  • Si tienes muchos datos.

  • Si tus datos están desordenados o son muy complejos.

  • Quieres proyectar otras cosas con tus datos.

  • Si otras personas necesitan trabajar con tus datos.

OK, me gusta. ¿Cómo puedo empezar?

Las bases de datos tienen su propia profundidad. Es recomendable llevarla con calma y no sumergirse de inmediato en lo más profundo. Úsalas cuando cuando las ventajas superen las inconveniencias, y cuando lo que necesites sea muy fácil de conseguir. Mientras más practiques, te vas a sentir más confiado y podrás extraer mayor información.

Opción 1: SQLite

SQLite es una excelente manera de empezar. Puedes instalar SQLite Manager.

Si necesitas asesoría de SQL, visita: https://github.com/tthibo/SQL-Tutorial

Opción 2: Microsoft Access

Microsoft Access se ejecuta en SQL y presenta una interfaz de software tradicional. Dependiendo de a quién le preguntes, es una herramienta útil… o simplemente hace las cosas más confusas. Nosotros NO lo recomendamos, pero las opiniones pueden variar.

Opción 3: Configurar una cuenta web compartida

Puedes configurar una cuenta web compartida, y esto puede costar 20 libras (32 USD) al año. Típicamente, estas cuentas vienen con una interfaz que permite crear, editar e interactuar con bases de datos sin escribir ningún SQL. También puedes jugar con las otras habilidades relacionadas con la web que te interesen y compartir los resultados con los demás.

Visita: A Small Orange (una opción buena y barata para hosting): http://asmallorange.com/

Opción 4: ¿Instalo MySQL o PostgreSQL en mi computadora?

Puedes instalar MAMP en una Mac o WAMP en una  PC. Esto instalará MySQL, así como una interfaz llamada phpMyAdmin (http://www.phpmyadmin.net). Una vez que hayas instalado MySQL, tendrás muchas opciones adicionales, ya que el software libre sirve como un navegador o como editor para tus bases de datos SQL. Si lo prefieres, puedes instalar PostgreSQL, que es diferente a MySQL. Ambos son populare,s ya que tienen una gran cantidad de datos. Pero, si estás iniciando, por lo pronto no pienses mucho en eso.

Apéndice: Consulta para la diversión y el beneficio

Gran parte de las bases de datos proviene de SQL, un lenguaje muy flexible para hacer preguntas acerca de las base de datos. Al principio no es fácil de usar, pero, con los siguientes ejemplos, todo será más claro.

SQL tiene 4 bloques básicos:
SELECT (buscar algo);
UPDATE (modificar algunas filas existentes);
INSERT (añadir nuevas filas);
DELETE (eliminar algunas filas).
Hay muchos otros comandos, pero éstos son los que más vas a utilizar; especialmente SELECT.

Imaginemos una tabla llamada “atletas olímpicos ” que tiene seis columnas (nombre, país, fecha de nacimiento, estatura, peso y sexo):

name
country
birthdate
height
weight
gender

Cuando creamos nuestra tabla, podemos especificar cosas como “no es necesario poner el país” o “el sexo debe ser M o F”.

Misión 1: Obtén una lista de todos los atletas en orden alfabético. Desde aquí puedes ver toda la tabla, ordenarlos por nombre de la A a la Z . Lo puedes hacer de la siguiente manera:

SELECT

*
FROM athletes
ORDER BY name ASC

Misión 2: Obtén una lista de todos los atletas del equipo de Gran Bretaña. Sólo obtendrás las filas para los atletas británicos. No especificaste como ordenarlos, así que no saldrán en orden alfabético. Sigue los siguientes pasos:

SELECT
*
FROM athletes
WHERE country = ‘Great Britain’

Misión 3: ¿Qué país tiene el promedio de atletas más pesado? Esto tomará todas las filas y las pondrá en grupos por país. Se abrirá una lista de los nombres de los países y el peso promedio de cada grupo. Esto lo puedes lograr así:

SELECT
country,AVG(WEIGHT)
FROM athletes
GROUP BY country

Misión 4: ¿En qué mes nacen más atletas olímpicos? Tal vez quieras probar una teoría astrológica sobre que el talento de los leos para el deporte. Desde aquí puedes ver el número de atletas olímpicos que nacieron en ese mes.

SELECT
MONTH(birthdate),COUNT(*)
FROM athletes
GROUP BY MONTH(birthdate)

Misión 5: Añade un nuevo atleta. Agrega un atleta a la tabla. Para insertar una fila, especifica las columnas que vas a añadir y el valor de cada uno.

INSERT
INTO athletes
(name,country,height,weight,gender)
VALUES (‘Andrew Leimdorfer’,’Great Britain’,180,74.8,’M’)

Misión 6: Ordena a todos los atletas en orden de estatura y peso; puede ser que notes algo muy extraño con el atleta canadiense Ian Warner.

SELECT
*
FROM athletes
WHERE gender = ‘M’
ORDER BY height/weight ASC

Misión 7: Si obtienes tus datos del portal london2012.com, pensarás que Ian Warner mide 5′ 7″ y pesa 160 kg. Lo más probable es que su peso fue marcado en libras. Vamos a arreglar esto.

UPDATE
athletes
SET weight = weight/2.2
WHERE name = ‘Ian Warner’

Misión 8: Borra a todos los atletas de Canadá y Estados Unidos.

DELETE
FROM athletes
WHERE country = ‘United States of America’ OR country = ‘Canada’;

Una vez que nos fijamos en  las operaciones para cambiar las bases de datos, seguro notas lo siguiente: verás que una consulta es como una oración y tiene reglas gramaticales. Tiene un «verbo» (¿Qué tipo de acción quiero?), un «objeto» (¿Qué tabla es la que quiero que haga la acción?) y «adverbios» opcionales (¿Cómo quiero hacer la acción?). Los «adverbios» incluyen detalles como «ordenar esta columna» y «sólo hacer esto para ciertas filas.»

Misión de bonus: Varias tablas y una breve muestra de JOIN

Es probable que haya mucho más datos que sólo los atletas. Para cada país, también puedes tener su bandera, su población y su ciudad capital; también tienes todos los eventos olímpicos y los atletas que participaron en ellos. Para cada evento, también tienes los resultados que obtuvieron: cuántas medallas y los resultados finales.

Si usaras Excel para depurar este tipo de bases de datos, sería una verdadera locura, ya que tendrías un montón de hojas de cálculo y con mucho esfuerzo lograrías hacer una referencia cruzada, o tendrías una mega-hoja de cálculo con columnas infinitas (las fuentes de datos gubernamentales usualmente aman las mega-hojas de cálculo).

Es posible que haya una hoja de cálculo donde cada fila es un atleta, y haya una larga lista de columnas llenas de una gran cantidad de información redundante y sin sentido, como:

name, country, birthdate, height, weight, gender, country_population, country_flag_url, country_gdp, event1, event1_date, event1_result, event2_date, event2_result, event3_date, event3_result, event4_date, event4_result, number_of_medals

Estas enormes bases de datos tienen muchas debilidades entre las que sobresalen:

Pierdes la capacidad de visualizar los datos. Cuando la información es tan grande, se vuelve un desastre

La estructura se vuelve muy poco flexible. Esto es casi una ley: en las mega hojas de cálculo, el número de columnas nunca es suficiente.

No tiene ningún sentido de las relaciones. Los atletas son una unidad aquí, pero hay otros. Hay países que tienen eventos (que pertenecen a los deportes), tienen resultados (que pertenecen a los eventos), que tienen atletas (que compiten en los eventos, que dan lugar a esos acontecimientos, y casi siempre pertenecen a los países). Estas relaciones probablemente serán la base para un montón de historias interesantes basadas en los datos, y la mega-hoja de cálculo hace un mal trabajo para contarlas.

El análisis es difícil. ¿Cómo puedes encontrar todos los atletas hombres que corren los 100 metros? Algunos de ellos podrían tener su tiempo en event1_result, otros en event2_result. Intenta (no lo creo) divertirte con los datos que están anidados; o si introduces manualmente cualquiera de estos datos, hay una buena probabilidad de que obtengas muchas  inconsistencias textuales como 100 metros, 100m de los hombres, Hombres y 100m.

SQL te permite mantener estas cosas en un montón de tablas separadas, pero utiliza conexiones lógicas entre ellos para que puedas trabajar con un gran conjunto de datos. Para combinar las tablas de este tipo, se utiliza JOIN.

Es posible crear una tabla para los atletas con la información básica, como la estatura y el peso; una tabla para eventos con detalles sobre dónde y cuándo se lleva a cabo y el récord mundial actual; una tabla para los países con información sobre cada país; así como una tabla de resultados en la que cada fila contiene un atleta, un evento, su resultado, y la medalla que ganaron (si los hay).

¡A continuación, te enseñamos como combinar temporalmente las tablas!

¿Quién ganó las medallas de oro el día de hoy?

SELECT
athletes.name, athletes.country, event.name
FROM athletes, results, events
WHERE athletes.id = results.athlete_id AND event.id = results.event_id
AND event.date = DATE(NOW()) AND results.medal = ‘Gold’

¿Cuántas medallas ha ganado cada país?

SELECT
countries.name, COUNT(*)
FROM athletes, countries, results, events
WHERE athletes.id = results.athlete_id AND event.id = results.event_id AND athletes.country_id = countries.id
AND results.medal IN (‘Gold’,’Silver’,’Bronze’)
GROUP BY countries.id