Estás navegando por el archivo de scraping.

Datos al Tablero: análisis de desigualdad en Colombia.

- el noviembre 28, 2016 en Experiencias, Fuentes de datos

 

Daniel Suárez Pérez, coordinador del proyecto colombiano Datos Al Tablero, comparte cómo éste se inició, cómo se desarrolló, y los retos que aún tiene por delante.

Datos al Tablero se realizó vía School of Data, a través del Data Member Support, en alianza con el movimiento Todos por la Educación. Es una análisis de la desigualdad educativa en Colombia, a través de la recolección y análisis de datos sobre deserción y repitencia entre 2012 y 2015.

La magia de import.io

- el diciembre 4, 2014 en Tutoriales

Editamos este post para agregar el enlace a este webinar de Phi sobre el mismo tema.


La herramienta: import.io es una herramienta para la extracción de datos muy poderosa y fácil de usar que tiene como objetivo obtener datos de forma estructurada de cualquier sitio web. Está pensada para no programadores que necesitan datos (y programadores que no quieren complicarse la vida).

¡¡Casi lo olvido!! Además de todo, es gratuito (o_O)

El objetivo de este post/tutorial es enseñarte a scrapear una web y crear un dataset y/o un API de consulta en 60 segundos. ¿Estás listo?.

Es muy simple. Sólo debes ingresar a http://magic.import.io; introducir la URL que deseas scrapear, y pulsar el botón “GET DATA”. ¡Sí! ¡Así de fácil! Sin plugins, sin instalar programas, sin conocimiento previo y sin registrarte. Esto puedes hacerlo desde cualquier navegador; incluso funciona en tu tablet o smartphone.

Por ejemplo: si queremos tener en una tabla la información de todos los artículos relacionados con “Chewbacca” en MercadoLibre, sólo debemos ir a su página y hacer la búsqueda. Después copiar el link (http://listado.mercadolibre.com.mx/chewbacca), pegarlo y presionar GetData.

 

Screen Shot 2014-12-03 at 19.00.11

 

Notarás que ahora tienes toda la información tabulada, y lo único que debes hacer es eliminar las columnas que no necesites. Para esto sólo coloca el cursor sobre la columna que deseas eliminar y aparecerá una “x”.

Screen Shot 2014-12-03 at 19.00.23

También puedes renombrar las cabeceras para que sea más legible; sólo haz un clic en el título de la columna.

Screen Shot 2014-12-03 at 19.00.37

Por último, basta con que hagas clic en “descargar”, y te lo guardará en formato csv.

Screen Shot 2014-12-03 at 19.00.52

Ojo: notarás que te da las opciones “Download the current page” y “Download # pages”. Esta última es por si la web a scrapear tiene varios resultados en distintas páginas.

Screen Shot 2014-12-03 at 19.01.06

En nuestro ejemplo, tenemos 373 items con 48 artículos cada página. Así que nos sirve mucho esa opción.

Screen Shot 2014-12-04 at 08.09.27

Por último, buenas noticias para los más técnicos: hay un boton que dice “GET API” y este nos sirve, “literal”, para generar un API de consumo que actualizará los datos cada llamada. Para esto debes registrar una cuenta (también es gratuita).

Screen Shot 2014-12-03 at 19.01.44

Como vieron, podemos scrapear cualquier web en menos de 60 segundos aunque esté paginada. Esto es “magic”, ¿o no?
Para cosas más complicadas que requieren logueo, entrar a subwebs, automatizar búsquedas, etcétera, tenemos un programa de import.io que se instala y que explicaré en otro tutorial.

Data Scraping: Descrubriendo el potencial de la apertura de datos. Conceptos y herramientas

- el octubre 9, 2013 en DAL


9101897565_6955ec45b5_zContinuando con las actividades de Desarrollando América Latina (#DAL2013) en Ecuador, este miércoles 9 de octubre a las 18h30 realizaremos la conferencia Data Scraping: Descrubriendo el potencial de la apertura de datos. Conceptos y herramientas con la participación de Sergio Araiza, representante de Escuela de Datos y Socialtic, quien intenvendrá vía videoconferencia desde México. Este evento se llevará a cabo en el Aula 1 de la Torre 2 de la Universidad Santa María en Guayaquil, Av. Carlos Julio Arosemena Km. 4,5.

¿Qué es data scraping?

Data scraping, “raspado de datos” o “escrapeo de datos” es una técnica que se utiliza para extraer datos desde fuentes como sitios web para convertirlos a un formato que permita su análisis y procesamiento con mayor facilidad.

Si te interesa conocer más sobre esta técnica, te esperamos este miércoles. ¡Entrada libre!

Crédito de foto: Escuela de Datos