Estás navegando por el archivo de web scraping.

La magia de import.io

- el diciembre 4, 2014 en Tutoriales

Editamos este post para agregar el enlace a este webinar de Phi sobre el mismo tema.


La herramienta: import.io es una herramienta para la extracción de datos muy poderosa y fácil de usar que tiene como objetivo obtener datos de forma estructurada de cualquier sitio web. Está pensada para no programadores que necesitan datos (y programadores que no quieren complicarse la vida).

¡¡Casi lo olvido!! Además de todo, es gratuito (o_O)

El objetivo de este post/tutorial es enseñarte a scrapear una web y crear un dataset y/o un API de consulta en 60 segundos. ¿Estás listo?.

Es muy simple. Sólo debes ingresar a http://magic.import.io; introducir la URL que deseas scrapear, y pulsar el botón “GET DATA”. ¡Sí! ¡Así de fácil! Sin plugins, sin instalar programas, sin conocimiento previo y sin registrarte. Esto puedes hacerlo desde cualquier navegador; incluso funciona en tu tablet o smartphone.

Por ejemplo: si queremos tener en una tabla la información de todos los artículos relacionados con “Chewbacca” en MercadoLibre, sólo debemos ir a su página y hacer la búsqueda. Después copiar el link (http://listado.mercadolibre.com.mx/chewbacca), pegarlo y presionar GetData.

 

Screen Shot 2014-12-03 at 19.00.11

 

Notarás que ahora tienes toda la información tabulada, y lo único que debes hacer es eliminar las columnas que no necesites. Para esto sólo coloca el cursor sobre la columna que deseas eliminar y aparecerá una “x”.

Screen Shot 2014-12-03 at 19.00.23

También puedes renombrar las cabeceras para que sea más legible; sólo haz un clic en el título de la columna.

Screen Shot 2014-12-03 at 19.00.37

Por último, basta con que hagas clic en “descargar”, y te lo guardará en formato csv.

Screen Shot 2014-12-03 at 19.00.52

Ojo: notarás que te da las opciones “Download the current page” y “Download # pages”. Esta última es por si la web a scrapear tiene varios resultados en distintas páginas.

Screen Shot 2014-12-03 at 19.01.06

En nuestro ejemplo, tenemos 373 items con 48 artículos cada página. Así que nos sirve mucho esa opción.

Screen Shot 2014-12-04 at 08.09.27

Por último, buenas noticias para los más técnicos: hay un boton que dice “GET API” y este nos sirve, “literal”, para generar un API de consumo que actualizará los datos cada llamada. Para esto debes registrar una cuenta (también es gratuita).

Screen Shot 2014-12-03 at 19.01.44

Como vieron, podemos scrapear cualquier web en menos de 60 segundos aunque esté paginada. Esto es “magic”, ¿o no?
Para cosas más complicadas que requieren logueo, entrar a subwebs, automatizar búsquedas, etcétera, tenemos un programa de import.io que se instala y que explicaré en otro tutorial.

Periodismo de datos: Aprende web scraping y cómo trabaja con los datos El Confidencial

- el febrero 28, 2014 en Noticias

03.03.2014 17:00h – 20:00h

Lugar: Medialab-Prado, Madrid, España. Auditorio (2ª planta/2nd Floor)

Volvemos a la carga con las actividades del grupo de trabajo de periodismo de datos tras el éxito del taller de producción (I y II) realizado en otoño. En estas primeras sesiones de 2014, coordinadas por la Escuela de Datos de la OKFN-es, nos centraremos en conocer experiencias de trabajo con datos y también en seguir aprendiendo nuevas herramientas. En esta decimocuarta sesión nos centraremos en la elaboración de las historias y la extracción de datos.

Primero, Daniele Grasso y Jesús Escudero, periodistas de El Confidencial, nos contarán su experiencia desde la redacción del periódico en el trabajo con los datos. [streaming en directo]

Después, el desarrollador Miguel Fiandor nos mostrará cómo extraer datos de páginas web o utilizar los ya extraídos a través de ScraperWiki.

periodismo

Gráfico del artículo El sector eléctrico español da trabajo a 24 excargos públicos, publicado en El Confidencial.

Programa

17:00h – 17:50h: Cómo hacer periodismo de datos en el día a día, por Daniele Grasso y Jesús Escudero, periodistas de El Confidencial. [streaming en directo]

El periodismo de datos no se limita solo a las grandes investigaciones de varios meses. Puede ser una manera de aportar valor añadido y contexto a informaciones de actualidad. Recurrir a los datos es muy útil a la hora de complementar noticias urgentes, informaciones clásicas, grandes eventos señalados y de profundizar en la publicación de estadísticas oficiales. Para ello, Daniele Grasso y Jesús Escudero contarán el proceso de elaboración del periodista de datos y casos prácticos de su experiencia en El Confidencial y en otros medios.

17:50h -18:00h: Pausa

18:00h – 20:00h: Rascando datos de la Web con ScraperWiki, taller de web scraping, por Miguel Fiandor, desarrollador del proyecto Transparencia de Cuentas Públicas. [Sin streaming]

Será un taller muy práctico, útil y accesible de scraping o captura de datos con ScraperWiki y Python. Mostraremos, a partir de ejemplos concretos, cómo capturar datos de una web con las mejores librerías de Python: BeautifulSoup y Requests. Algunos los elaboraremos desde cero y en otros casos, utilizaremos el trabajo de otras personas que ponen a nuestra disposición su experiencia. Veremos también algunos consejos de buenas prácticas para el mejor uso de ScraperWiki, por ejemplo, cómo automatizar formularios y cómo limpiar los datos que nos traemos al hacer scraping antes de salvarlo en una pequeña base de datos o una hoja de cálculo.