Estás navegando por el archivo de Open Refine.

Algoritmos y clusters: Encuentra errores y límpialos de manera fácil con OpenRefine

- el mayo 3, 2018 en Tutoriales

¿Te has encontrado con bases de datos que tienen pequeños errores de transcripción? ¿Espacios de más, uso desordenado de mayúsculas y minúsculas, o registros que representan al mismo dato pero que fueron escritos con pequeñas diferencias? Con la herramienta OpenRefine puedes automatizar mucho del doloroso proceso de limpiar una base de datos. En este tutorial te enseñaremos una de sus funciones más útiles: la clusterización —o generación de agrupaciones automáticas— y los diferentes algoritmos que determinan las coincidencias entre registros.

Lee el resto de la entrada →

Open Refine – qué es + tutorial

- el junio 30, 2014 en Tutoriales

dtm_201307

Manuel Ríos

 

Este post y tutorial es una contribución de Manuel Ríos. Su semblanza: 

Hombre. Mexicano. Gustoso de la tecnología y su impacto. Comprometido con la sociedad y con mi país. Economía, innovación, desarrollo, entre otros.

——————————————————————————-

Sobre Open Refine

Open Refine es una herramienta originalmente creada por Google para el manejo de bases de datos. Nos permite limpiar bases de datos, exportarlas en diferentes formatos, y arreglar y manejar las bases para un mejor uso. Actualmente el proyecto ya no es financiado por Google y se encuentra como proyecto abierto.

Los archivos que podemos importar para trabajar pueden tener las extensiones TSV, CSV, XML, JSON, XLS, e incluso Google Spreadsheets, entre otros. También nos permite transformar archivos de cualquiera de estos formatos a otro. Open Refine funciona como ejecutable sobre cualquier navegador web y está disponible para Windows, Mac y Linux.

Tutorial: ¿Cómo hacer fusiones en Open Refine?

La función merge (fusionar, intercalar) sirve principalmente para unir bases de datos, generalmente a través de una variable en común.

En este breve tutorial, haremos un merge o fusión de dos bases de datos. ¡Comenzamos!

Tomamos dos bases de datos de la Penn World Table que contienen datos sobre México y Estados Unidos de 1950 a 2010. Las variables en las bases son las siguientes:

País: nombre del país
Isocode: código del país
Año: de 1960 a 2010
Población: Población total del país
PIB: PIB del país
PIBPC: PIB per cápita del país

Vamos a realizar una fusión basada en la variable “Año”, juntando los datos de población, PIB y PIBPC en una misma base.

Pasos:

1. Abrir Open Refine y crear un proyecto nuevo.

2. En este botón, debes escoger los archivos que vas a trabajar. Después, haz clic en Next.

Refine1

2. Al hacer clic en Next, llegaremos a una vista previa, donde damos un nombre al proyecto. Después hacemos clic en Create Project. En este caso lo único que hicimos fue crear el proyecto con la base de datos de México. Una vez creado el proyecto, éste aparecerá en la sección Open Project.

Screen Shot 2014-06-30 at 17.49.25

3. De la misma manera, subimos el otro archivo para crear otro proyecto. Hay que tener ambos abiertos. Se verán así:

Screen Shot 2014-06-30 at 17.50.234. Para hacer la fusión a partir de la variable de año, vamos a hacer clic en la flechita que está al lado del nombre (en este ejemplo, unimos la base de Estados Unidos a la de México). Después elegiremos la opción de Add column based on this column.

Screen Shot 2014-06-30 at 17.52.40

5. En la siguiente ventana vamos a llenar los datos para realizar la fusión.

En el campo Expression podemos hacer la fusión a través del siguiente comando:

cell.cross(“USA” , “Año”).cells [“Población”]. Value [0]

 En Preview podemos ver cómo va a quedar la nueva columna en el documento.

Screen Shot 2014-06-30 at 17.55.05

6. Hacer clic en OK. Entonces podremos ver que la variable  “PoblacionUSA” ya se encuentra en la base de México, con los valores en cada año que le corresponden.

Screen Shot 2014-06-30 at 17.57.40

6. Para traer otra variable con su año correspondiente, podemos cambiar el comando. Por ejemplo, para traer el PIBUSA a la base de México, el comando sería el siguiente:

cell.cross(“USA” , “Año”).cells [“PIB”]. Value [0]

Screen Shot 2014-06-30 at 17.59.27

Al hacer clic en OK nuevamente, aparecerá la nueva variable en la base.

Screen Shot 2014-06-30 at 18.01.39

En resumen, puedes adaptar este comando para hacer tus fusiones:

cell.cross(“nombre del otro proyecto” , “variable en común”).cells [“variable a traer”]. Value [0]

¡Esperamos que este mini tutorial te sea de utilidad!