Daniel Suárez Pérez, coordinador del proyecto colombiano Datos Al Tablero, comparte cómo éste se inició, cómo se desarrolló, y los retos que aún tiene por delante.
Datos al Tablero se realizó vía School of Data, a través del Data Member Support, en alianza con el movimiento Todos por la Educación. Es una análisis de la desigualdad educativa en Colombia, a través de la recolección y análisis de datos sobre deserción y repitencia entre 2012 y 2015.
]]>La herramienta: import.io es una herramienta para la extracción de datos muy poderosa y fácil de usar que tiene como objetivo obtener datos de forma estructurada de cualquier sitio web. Está pensada para no programadores que necesitan datos (y programadores que no quieren complicarse la vida).
¡¡Casi lo olvido!! Además de todo, es gratuito (o_O)
El objetivo de este post/tutorial es enseñarte a scrapear una web y crear un dataset y/o un API de consulta en 60 segundos. ¿Estás listo?.
Es muy simple. Sólo debes ingresar a http://magic.import.io; introducir la URL que deseas scrapear, y pulsar el botón “GET DATA”. ¡Sí! ¡Así de fácil! Sin plugins, sin instalar programas, sin conocimiento previo y sin registrarte. Esto puedes hacerlo desde cualquier navegador; incluso funciona en tu tablet o smartphone.
Por ejemplo: si queremos tener en una tabla la información de todos los artículos relacionados con “Chewbacca” en MercadoLibre, sólo debemos ir a su página y hacer la búsqueda. Después copiar el link (http://listado.mercadolibre.com.mx/chewbacca), pegarlo y presionar GetData.
Notarás que ahora tienes toda la información tabulada, y lo único que debes hacer es eliminar las columnas que no necesites. Para esto sólo coloca el cursor sobre la columna que deseas eliminar y aparecerá una “x”.
También puedes renombrar las cabeceras para que sea más legible; sólo haz un clic en el título de la columna.
Por último, basta con que hagas clic en “descargar”, y te lo guardará en formato csv.
Ojo: notarás que te da las opciones “Download the current page” y “Download # pages”. Esta última es por si la web a scrapear tiene varios resultados en distintas páginas.
En nuestro ejemplo, tenemos 373 items con 48 artículos cada página. Así que nos sirve mucho esa opción.
Por último, buenas noticias para los más técnicos: hay un boton que dice “GET API” y este nos sirve, “literal”, para generar un API de consumo que actualizará los datos cada llamada. Para esto debes registrar una cuenta (también es gratuita).
Como vieron, podemos scrapear cualquier web en menos de 60 segundos aunque esté paginada. Esto es “magic”, ¿o no?
Para cosas más complicadas que requieren logueo, entrar a subwebs, automatizar búsquedas, etcétera, tenemos un programa de import.io que se instala y que explicaré en otro tutorial.
¿Qué es data scraping?
Data scraping, “raspado de datos” o “escrapeo de datos” es una técnica que se utiliza para extraer datos desde fuentes como sitios web para convertirlos a un formato que permita su análisis y procesamiento con mayor facilidad.
Si te interesa conocer más sobre esta técnica, te esperamos este miércoles. ¡Entrada libre!
Crédito de foto: Escuela de Datos
]]>