Open Refine – qué es + tutorial
Este post y tutorial es una contribución de Manuel Ríos. Su semblanza:
Hombre. Mexicano. Gustoso de la tecnología y su impacto. Comprometido con la sociedad y con mi país. Economía, innovación, desarrollo, entre otros.
——————————————————————————-
Sobre Open Refine
Open Refine es una herramienta originalmente creada por Google para el manejo de bases de datos. Nos permite limpiar bases de datos, exportarlas en diferentes formatos, y arreglar y manejar las bases para un mejor uso. Actualmente el proyecto ya no es financiado por Google y se encuentra como proyecto abierto.
Los archivos que podemos importar para trabajar pueden tener las extensiones TSV, CSV, XML, JSON, XLS, e incluso Google Spreadsheets, entre otros. También nos permite transformar archivos de cualquiera de estos formatos a otro. Open Refine funciona como ejecutable sobre cualquier navegador web y está disponible para Windows, Mac y Linux.
Tutorial: ¿Cómo hacer fusiones en Open Refine?
La función merge (fusionar, intercalar) sirve principalmente para unir bases de datos, generalmente a través de una variable en común.
En este breve tutorial, haremos un merge o fusión de dos bases de datos. ¡Comenzamos!
Tomamos dos bases de datos de la Penn World Table que contienen datos sobre México y Estados Unidos de 1950 a 2010. Las variables en las bases son las siguientes:
País: nombre del país
Isocode: código del país
Año: de 1960 a 2010
Población: Población total del país
PIB: PIB del país
PIBPC: PIB per cápita del país
Vamos a realizar una fusión basada en la variable “Año”, juntando los datos de población, PIB y PIBPC en una misma base.
Pasos:
1. Abrir Open Refine y crear un proyecto nuevo.
2. En este botón, debes escoger los archivos que vas a trabajar. Después, haz clic en Next.
2. Al hacer clic en Next, llegaremos a una vista previa, donde damos un nombre al proyecto. Después hacemos clic en Create Project. En este caso lo único que hicimos fue crear el proyecto con la base de datos de México. Una vez creado el proyecto, éste aparecerá en la sección Open Project.
3. De la misma manera, subimos el otro archivo para crear otro proyecto. Hay que tener ambos abiertos. Se verán así:
4. Para hacer la fusión a partir de la variable de año, vamos a hacer clic en la flechita que está al lado del nombre (en este ejemplo, unimos la base de Estados Unidos a la de México). Después elegiremos la opción de Add column based on this column.
5. En la siguiente ventana vamos a llenar los datos para realizar la fusión.
En el campo Expression podemos hacer la fusión a través del siguiente comando:
cell.cross(“USA” , “Año”).cells [“Población”]. Value [0]
En Preview podemos ver cómo va a quedar la nueva columna en el documento.
6. Hacer clic en OK. Entonces podremos ver que la variable “PoblacionUSA” ya se encuentra en la base de México, con los valores en cada año que le corresponden.
6. Para traer otra variable con su año correspondiente, podemos cambiar el comando. Por ejemplo, para traer el PIBUSA a la base de México, el comando sería el siguiente:
cell.cross(“USA” , “Año”).cells [“PIB”]. Value [0]
Al hacer clic en OK nuevamente, aparecerá la nueva variable en la base.
En resumen, puedes adaptar este comando para hacer tus fusiones:
cell.cross(“nombre del otro proyecto” , “variable en común”).cells [“variable a traer”]. Value [0]
¡Esperamos que este mini tutorial te sea de utilidad!
[…] — Si haces preguntas abiertas, puedes homologar los resultados con un proceso básico de limpieza de datos. […]