¿Cómo empezar mi propia aventura con datos?

el octubre 23, 2014 en Tutoriales

Comenzar un trabajo haciendo uso de datos no es complicado, pero tampoco es sencillo. En el trabajo con datos existen distintas metodologías que nos permiten que el trabajo con datos sera mucho más sencillo. En el siguiente post te mostraremos cuales son estos pasos y que debes hacer en cada uno de ellos para que tu aventura con datos sera mucho más fácil. School of Data   ¿Cómo empezamos a trabajar?. Como toda aventura, tenemos que tener un punto de partida. Podemos comenzar con una o muchas preguntas.¿Qué sucede en mi país?, ¿En qué se gasta el presupuesto público?, ¿Cuántos partidos ganó mi selección de fútbol? Muchas más.

Hacerse algunas preguntas es una buena manera de iniciar una búsqueda de datos. Te ayuda a concentrarte y encontrar argumentos que te servirán para resolver tus dudas.

De cualquier manera, si tienes una pregunta en mente o no, siempre debes de estar atento a los patrones inesperados que encuentres en las bases de datos.

Cualquier dato que no esperabas, o aquellos que consideres sorprendentes, te ayudarán a tener mejores resultados.

Pensando de manera tabular

Los datos recolectados y estructurados son muchos más útiles, pero no siempre están disponibles en formatos de tablas (CSV, TSV,Excel, Libre Office, etc). La recolección de datos se puede hacer de diferentes maneras: desde analizar informes, reportes, balances hasta usar scripts de programación para scrappear, usar drones, encuestas, y muchas formas más.

Crear una tabla para ordenarlos (los datos) es muy eficiente.

 

La ruta del data pipeline

En resumen, el data pipeline es la guía que necesitamos para trabajar con datos. Para tener un trabajo más ordenado y más simple (no todo es fácil), debemos seguir estos pasos.

03

 Adquisición / Fuentes de datos.

En esta primera etapa nos encargamos de buscar nuestra fuente de datos. Ya sean portales de datos públicos, reportes, balances, encuestas, ¿drones? O podemos pedirle a nuestro hacker más cercano que nos ayude a extraer un poco de información.

04

La limpieza y la transformación de datos.

Muchas veces necesitamos eliminar registros inválidos y traducir algunas columnas a un conjunto legible de valores de un set de datos. También vamos a querer combinar conjuntos de datos de diferentes tablas en una sola, eliminar los valores y más. Conforme adquirimos datos, nos daremos cuenta que estos tienen muchas inconsistencias. En esta parte necesitan tener mucha paciencia, les tomara más tiempo que las otras etapas.

02

El análisis de los datos.

Esta etapa nos será de utilidad pues responderemos nuestras preguntas iniciales. Acá nos encargamos de corroborar los datos obtenidos, validarlos, cruzar información. Aquí es donde encontraremos nuestra historia.

05

Presentación y/o visualización de datos.

Por fin veremos el resultado final. En esta etapa nos encargaremos de volver visible nuestros datos. Acá decidiremos cómo los presentaremos, dependiendo de cual sea nuestro objetivo.

 

Esta guía básica nos permitirá tener una idea de cómo poder iniciar nuestra aventura con datos y no perdernos en el intento. Recuerden que muchas veces las fuentes de datos suelen desaparecer por raras razones así que les sugiero documentar cada paso que realicen. También es importante de corroborar sus fuentes y los datos obtenidos.

 

 

Una respuesta a “¿Cómo empezar mi propia aventura con datos?”

  1. mi aventura quiero que sea en mi colegio liceo galois valledupar colombia septimo de bachiderato mi aventura debe ser como de misterio o de algo que sea divertido quiero que esa aventura esten mis amigos como jhojhan danna nicolle rubio daren bryan valentina valeria angel obama pirri sergio natalya laura rubio david que seria el villano moises carlos jose edwin israel valentina parra jesus lusiberto carol la mona diego la negra la china y su amiga que estan em 6 valentina porfavor que la aventura tenga algo increibre como ser bionicos algo interesante.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *