La magia de import.io

el diciembre 4, 2014 en Tutoriales

Editamos este post para agregar el enlace a este webinar de Phi sobre el mismo tema.


La herramienta: import.io es una herramienta para la extracción de datos muy poderosa y fácil de usar que tiene como objetivo obtener datos de forma estructurada de cualquier sitio web. Está pensada para no programadores que necesitan datos (y programadores que no quieren complicarse la vida).

¡¡Casi lo olvido!! Además de todo, es gratuito (o_O)

El objetivo de este post/tutorial es enseñarte a scrapear una web y crear un dataset y/o un API de consulta en 60 segundos. ¿Estás listo?.

Es muy simple. Sólo debes ingresar a http://magic.import.io; introducir la URL que deseas scrapear, y pulsar el botón “GET DATA”. ¡Sí! ¡Así de fácil! Sin plugins, sin instalar programas, sin conocimiento previo y sin registrarte. Esto puedes hacerlo desde cualquier navegador; incluso funciona en tu tablet o smartphone.

Por ejemplo: si queremos tener en una tabla la información de todos los artículos relacionados con “Chewbacca” en MercadoLibre, sólo debemos ir a su página y hacer la búsqueda. Después copiar el link (http://listado.mercadolibre.com.mx/chewbacca), pegarlo y presionar GetData.

 

Screen Shot 2014-12-03 at 19.00.11

 

Notarás que ahora tienes toda la información tabulada, y lo único que debes hacer es eliminar las columnas que no necesites. Para esto sólo coloca el cursor sobre la columna que deseas eliminar y aparecerá una “x”.

Screen Shot 2014-12-03 at 19.00.23

También puedes renombrar las cabeceras para que sea más legible; sólo haz un clic en el título de la columna.

Screen Shot 2014-12-03 at 19.00.37

Por último, basta con que hagas clic en “descargar”, y te lo guardará en formato csv.

Screen Shot 2014-12-03 at 19.00.52

Ojo: notarás que te da las opciones “Download the current page” y “Download # pages”. Esta última es por si la web a scrapear tiene varios resultados en distintas páginas.

Screen Shot 2014-12-03 at 19.01.06

En nuestro ejemplo, tenemos 373 items con 48 artículos cada página. Así que nos sirve mucho esa opción.

Screen Shot 2014-12-04 at 08.09.27

Por último, buenas noticias para los más técnicos: hay un boton que dice “GET API” y este nos sirve, “literal”, para generar un API de consumo que actualizará los datos cada llamada. Para esto debes registrar una cuenta (también es gratuita).

Screen Shot 2014-12-03 at 19.01.44

Como vieron, podemos scrapear cualquier web en menos de 60 segundos aunque esté paginada. Esto es “magic”, ¿o no?
Para cosas más complicadas que requieren logueo, entrar a subwebs, automatizar búsquedas, etcétera, tenemos un programa de import.io que se instala y que explicaré en otro tutorial.

5 respuestas a “La magia de import.io”

  1. CINDY dice:

    viendo el video y tratando de hacerlo mismo en import io, los titulos en las celdas no puedo editarlo y me aparece un sistema diferente al de ustedes no se que pueda ser .. ayuda!

  2. CINDY dice:

    O DONDE ME PUEDO CONTACTAR PARA RECIBIR AYUDA :!:! PORFA .. [email protected]

  3. vanessa dice:

    Hola,

    me gustaría saber si se puede hacer una mezcla entre un Crawler y un conector, puesto que necesitamos parsear paginas con títulos y enlaces que llevan a otras subpáginas.

    Muchas gracias un saludo.

  4. jasmin dice:

    hola , necesito saber si es posible con import.io scrapear datos de dos paginas web diferentes que tienen la misma estructura????

    • Marcos Ge dice:

      Sí, es posible, simplemente repitiendo la serie de pasos que menciona el artículo para la segunda fuente de datos y despues consolidando las dos bases. Si necesitas más información, te sugiero que contactes al autor del texto, @PhiRequiem, en twitter.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *