Únete al mapeo y validación de datos por terremoto en México

Marcos Ge - el Septiembre 14, 2017 en Uncategorized

CopyfarleftP2P Subversiones.org

El desastre en México no ha concluido. Los terremotos del 8 y 19 de septiembre dejaron centenares de muertos y millones de damnificados, muchos de los cuales lo perdieron todo.

La comunidad del equipo humanitario de OpenStreetMap (HOT), por sus siglas en inglés, se volcó inmediatamente a la tarea de mapear los daños en caminos y edificaciones, labor que es fundamental para evaluar el daño y continuar haciendo llegar ayuda humanitaria, particularmente a los estados de Chiapas y Oaxaca en ese país.

Aquí puedes consultar la tarea del último terremoto en México, y las tareas de validación y mapeo pendientes. A la cabeza de este esfuerzo está Miriam González, parte de OpenStreetMap México.

Aunque las tareas han avanzado, aún faltan algunos mapeos para personas que quieran iniciar en OpenStreetMap, pero, también se requiere de validación

Si no sabes cómo hacerlo, aprende a mapear caminos y edificios en unos minutos con este video de José Luis Domingo en español. No es necesario que estés en México para colaborar.

En este apartado, la comunidad de OpenStreetMap pone a disposición de la comunidad interesada en ayudar, otros recursos para el aprendizaje y uso de mapas.

Para personas que no estén familiarizadas con el funcionamiento de OSM, pueden encontrar sencillas instrucciones por escrito aquí.

Si eres una usuaria más familiarizada con la plataforma, puedes encontrar información para validación de mapas aquí.

Datos abiertos para el alivio del desastre

Si eres una persona cercana a las localidades afectadas que buscar usar datos para aliviar el desastre o colaborar para hacer llegar víveres a las personas que los requieren, para las tareas que ya se completaron es posible descargar los datos abiertos del terremoto, en Juchitán de Zaragoza y San Dionisio del Mar, dos de los municipios más devastados por el terremoto.

 

 

 

Limpieza y visualizaciones, Python III

sebastianoliva - el Agosto 31, 2017 en Tutoriales

Desde Escuela de Datos, Sebastián Oliva, fellow 2017, enseña cómo usar la librería de Pandas para Python para importar distintas bases de datos. En este ejercicio vimos exactamente qué es una base de datos relacional, de qué trata el lenguaje SQL, y en el terreno práctico, cómo hacer algunas visualizaciones en Python para hallar patrones interesantes.
Pues seguir el webinar del 31 de agosto paso a paso en el video que compartimos contigo y el cuaderno que publicamos abajo. También puedes consultar el cuaderno de trabajo de Sebastián aquí.

Leer y escribir archivos, bases de datos y más

Al realizar una exploración de datos, estos pueden provenir de muchas fuentes, en algunos casos recursos en linea, bases de datos SQL o de otros tipos; en otros puede ser necesario exportar a algun formato para seguir el análisis en otra herramienta. Con las herramientas que ya conocemos (Python, Pandas, etc), es muy conveniente el poder utilizarlas para exportar e importar datos. Vamos a trabajar un poco con unas bases de datos sencillas que nos permitirán ejemplificar la facilidad y algunos posibles asuntos a la hora de manipular datos en distintas fuentas. Una de estas es una base de datos de estudios ambientales desde los inicios de los 90’s hasta el 2014, mientras otra son los centros educativos en Guatemala hasta el 2013

Bases de datos: un Crash Course

Como hemos visto ya en estos tutoriales, Pandas es una libreria muy poderosa para manipular datos; sin embargo tiene también competencia obvia en sistemas de bases de datos, que dependiendo de su oferta ofrecen alguna de la funcionalidad de Pandas, junto con otra que es incomparable. Entre los conceptos fundamentales de bases de datos es reconocer la diferencia entre un DBMS (Database Management System) y una DB en sí. El DBMS es el software que permite acceder y controlar la base de datos; mientras que la DB son nuestros datos. Es comparable a la relación entre un reproductor multimedios y la música en sí, la diferencia mas notable es que practicamente no existe un estandar de bases de datos, mas allá de lo que provee SQL en si. Existe una variedad de modelos de bases de datos, para esta ocasión nos enfocaremos en el más común: SQL y bases de Datos Relacionales

RDBMS (Relational Database Management Systems)

SQL es un lenguaje que permite interactuar con bases de datos relacionales. El “Standard Query Language” es en la realidad, no tan estandar, sin embargo, hay un subconjunto que es compatible conocido como ANSI SQL y sus posteriores revisiones. Los ejemplos de este tutorial estarán en SQLite, una base de datos libre que ofrece alto rendimiento y poco uso de recursos, a contraparte de sus limitaciones como concurrencia limitada y el estar basada en archivos. La estaremos usando por su simplicidad, pero téoricamente podriamos usar casi cualquier otro DBMS. Algo muy notable y de tener en cuenta es que las Bases de datos Relacionales, como su nombre lo dice, están basadas en relaciones. Mucha gente confunde este concepto con el de llaves y uniones entre ellas, sin embargo es mucho mas profundo. En las bases de datos relacionales (y lo siento por si puede parecer un poco confuso): Las relaciones son agrupaciones de datos en las cuales se preserva su identidad, es decir representan algo, del cual queramos llevar registro; De estas agrupaciones, cada entidad o sea filas ó tuplas (que lleva su propia carga matemática), del mismo tipo se materializan en tablas, es decir las relaciones de bases de datos relacionales no se refieren a las relaciones que se pueden crear entre los datos, sinó a la estructura tabular en sí. Podemos tomar una pausa aquí y comenzar con el código. Es conveniente porque podremos ver varias de estas analogías en vivo.
import pandas as pd
import numpy as np
import seaborn
import joypy

import matplotlib
matplotlib.rc("savefig", dpi=300)
%matplotlib notebook
import sqlite3
conexion_estudios_ambientales = sqlite3.connect("estudios_amb.sqlite3")
estudios = pd.read_sql("SELECT * FROM estudios_ambientales", 
                       conexion_estudios_ambientales, 
                       parse_dates=["Fecha_Captura","Fecha_Resolucion","Fecha_Notificacion","Fecha_Dictamen"])
estudios.head()
Periodo Numero_Estudio Nombre_Proyecto Representante_Legal Direccion_Proyecto Fecha_Captura Fecha_Resolucion Fecha_Notificacion Fecha_Dictamen
0 2014 DABI-0682 PATSY ZONA 1 HENRY ALONSO MENESES MORAN 6TA. CALLE 5-13 ZONA 1, GUATEMALA, GUATEMALA 2017-07-18 NaT NaT NaT
1 2014 EAI-5140 VIVIENDA UNIFAMILIAR EL ENCINAL, MUNICIPIO DE … CRISTIAN RICARDO BONILLA ALVARADO FINCA URBANA UBICADA EN LOTE NO. 10 SECTRO E L… 2014-10-30 NaT NaT NaT
2 2014 EAI-5079 “AMPLIACIÓN SISTEMA DE AGUAS PLUVIALES CANTÓN … MANUEL AGUSTO NAVAS Y NAVAS CANTON AMERICA ZONA 3, SANTIAGO SACATEPEQUEZ, … 2014-10-29 NaT NaT NaT
3 2014 EAI-5080 “AMPLIACION SISTEMA DE ALCANTARILLADO SANITARI… MANUEL AGUSTO NAVAS Y NAVAS SECTOR CHICRUZ ZONA 3 ALDEA SANTA MARIA CAUQUE… 2014-10-29 NaT NaT NaT
4 2014 EAI-5081 “MEJORAMIENTO INSTALACIONES DEPORTIVAS Y RECRE… MANUEL AGUSTO NAVAS Y NAVAS SECTOR LA CIENAGA KILOMETRO 32 CARRETERA A SAN… 2014-10-29 NaT NaT NaT
 
tiempos_espera=pd.concat(
    {
        "Periodo": estudios["Periodo"].map(int).astype(int),
        "TiempoEspera": (estudios["Fecha_Captura"]-estudios["Fecha_Resolucion"]).map(lambda x: x.days)
    },
    axis=1
).dropna()

tiempos_espera
Periodo TiempoEspera
312 2014 -153.0
313 2014 -153.0
369 2014 -181.0
371 2014 -181.0
372 2014 -181.0
373 2014 -172.0
375 2014 -181.0
378 2014 -181.0
379 2014 -181.0
496 2014 231.0
503 2014 203.0
556 2014 228.0
559 2014 228.0
652 2014 257.0
750 2014 -7.0
774 2014 -4.0
825 2014 -3.0
876 2014 -5.0
903 2014 -8.0
917 2014 -6.0
935 2014 -1.0
940 2014 -6.0
941 2014 -6.0
942 2014 -6.0
943 2014 -6.0
944 2014 -6.0
946 2014 -7.0
948 2014 -7.0
950 2014 -6.0
953 2014 -6.0
44420 2000 -236.0
44421 2000 -201.0
44422 2000 -142.0
44424 2000 -344.0
44425 2000 -142.0
44426 2000 -142.0
44427 2000 -35.0
44428 2000 -143.0
44429 2000 -177.0
44430 2000 -173.0
44432 2000 -173.0
44434 2000 -1010.0
44435 2000 -2671.0
44438 2000 -341.0
44440 2000 -1048.0
44442 2000 -173.0
44443 2000 -233.0
44448 2000 -235.0
44451 2000 -2847.0
44456 2000 -327.0
44619 1999 -4442.0
44641 1999 -47.0
44649 1999 207.0
44916 1998 -5189.0
45133 1998 -95.0
45252 1997 -4259.0
45533 1996 -6765.0
45820 1994 -4839.0
45973 1994 -4290.0
45976 1995 -5807.0
34035 rows × 2 columns
tiempos_espera.describe()
Periodo TiempoEspera
count 34035.000000 34035.000000
mean 2009.556750 -96.639929
std 11.527618 391.044888
min 0.000000 -32871.000000
25% 2007.000000 -158.000000
50% 2010.000000 -47.000000
75% 2013.000000 0.000000
max 2206.000000 6926.000000
Ahora ya tenemos los elementos, cada uno de los registros y las fechas en las cuales fueron procesados. Podemos ver que el 50% esperó hasta 47 dias y el promedio es esperar 96 dias.
tiempos_espera.plot()
<matplotlib.axes._subplots.AxesSubplot at 0x7f09f76c7470>
tiempos_espera[tiempos_espera["TiempoEspera"] > 0]
Periodo TiempoEspera
496 2014 231.0
503 2014 203.0
556 2014 228.0
559 2014 228.0
652 2014 257.0
1000 2014 302.0
1012 2014 75.0
1013 2014 75.0
1040 2014 54.0
1041 2014 54.0
1057 2014 48.0
1058 2014 48.0
1107 2014 23.0
1481 2014 232.0
1482 2014 232.0
1483 2014 232.0
1527 2014 232.0
1528 2014 73.0
1575 2014 200.0
1585 2014 141.0
1619 2014 18.0
1621 2014 18.0
1622 2014 140.0
1626 2014 1.0
1733 2014 166.0
1734 2014 135.0
1735 2014 135.0
1737 2014 194.0
1756 2014 135.0
1796 2014 12.0
41194 2004 143.0
41195 2004 214.0
41196 2004 42.0
41233 2004 75.0
41268 2004 157.0
41270 2004 120.0
41273 2004 73.0
41276 2004 179.0
41277 2004 20.0
41279 2004 14.0
41314 2004 47.0
41318 2004 43.0
41319 2004 284.0
41327 2004 42.0
41331 2004 192.0
41332 2004 172.0
41333 2004 66.0
41334 2004 95.0
41335 2004 201.0
41338 2004 115.0
41339 2004 98.0
41340 2004 28.0
41342 2004 49.0
41381 2004 231.0
41387 2004 47.0
41388 2004 47.0
41389 2004 48.0
41390 2003 74.0
43978 1999 337.0
44649 1999 207.0
6849 rows × 2 columns

¿Con que esperaste cuánto?

+6926.000000 !!! Esto es un poco ridiculo. Pero este error está atado a la calidad del dato. Lo que podemos hacer es limpiarlo.
tiempos_espera = tiempos_espera[tiempos_espera["Periodo"] < 2015] 
tiempos_espera = tiempos_espera[tiempos_espera["TiempoEspera"] < 0] # Errores, probablemente año 1900? (IDK)
tiempos_espera = tiempos_espera[tiempos_espera["TiempoEspera"] > -10000] # Errores, probablemente año 1900? (IDK)
# print(tiempos_espera.Periodo.unique()) # Ver que años
tiempos_espera = tiempos_espera.set_index("Periodo")
tiempos_espera.describe()
# tiempos_espera.plot()
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-20-06b73fa6e678> in <module>()
      1 tiempos_espera.describe()
----> 2 tiempos_espera.plot(type="bar")

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/pandas/plotting/_core.py in __call__(self, x, y, kind, ax, subplots, sharex, sharey, layout, figsize, use_index, title, grid, legend, style, logx, logy, loglog, xticks, yticks, xlim, ylim, rot, fontsize, colormap, table, yerr, xerr, secondary_y, sort_columns, **kwds)
   2615                           fontsize=fontsize, colormap=colormap, table=table,
   2616                           yerr=yerr, xerr=xerr, secondary_y=secondary_y,
-> 2617                           sort_columns=sort_columns, **kwds)
   2618     __call__.__doc__ = plot_frame.__doc__
   2619 

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/pandas/plotting/_core.py in plot_frame(data, x, y, kind, ax, subplots, sharex, sharey, layout, figsize, use_index, title, grid, legend, style, logx, logy, loglog, xticks, yticks, xlim, ylim, rot, fontsize, colormap, table, yerr, xerr, secondary_y, sort_columns, **kwds)
   1857                  yerr=yerr, xerr=xerr,
   1858                  secondary_y=secondary_y, sort_columns=sort_columns,
-> 1859                  **kwds)
   1860 
   1861 

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/pandas/plotting/_core.py in _plot(data, x, y, subplots, ax, kind, **kwds)
   1682         plot_obj = klass(data, subplots=subplots, ax=ax, kind=kind, **kwds)
   1683 
-> 1684     plot_obj.generate()
   1685     plot_obj.draw()
   1686     return plot_obj.result

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/pandas/plotting/_core.py in generate(self)
    238         self._compute_plot_data()
    239         self._setup_subplots()
--> 240         self._make_plot()
    241         self._add_table()
    242         self._make_legend()

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/pandas/plotting/_core.py in _make_plot(self)
    938                              stacking_id=stacking_id,
    939                              is_errorbar=is_errorbar,
--> 940                              **kwds)
    941             self._add_legend_handle(newlines[0], label, index=i)
    942 

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/pandas/plotting/_core.py in _plot(cls, ax, x, y, style, column_num, stacking_id, **kwds)
    953             cls._initialize_stacker(ax, stacking_id, len(y))
    954         y_values = cls._get_stacked_values(ax, stacking_id, y, kwds['label'])
--> 955         lines = MPLPlot._plot(ax, x, y_values, style=style, **kwds)
    956         cls._update_stacker(ax, stacking_id, y)
    957         return lines

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/pandas/plotting/_core.py in _plot(cls, ax, x, y, style, is_errorbar, **kwds)
    573             else:
    574                 args = (x, y)
--> 575             return ax.plot(*args, **kwds)
    576 
    577     def _get_index_name(self):

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/matplotlib/__init__.py in inner(ax, *args, **kwargs)
   1896                     warnings.warn(msg % (label_namer, func.__name__),
   1897                                   RuntimeWarning, stacklevel=2)
-> 1898             return func(ax, *args, **kwargs)
   1899         pre_doc = inner.__doc__
   1900         if pre_doc is None:

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/matplotlib/axes/_axes.py in plot(self, *args, **kwargs)
   1404         kwargs = cbook.normalize_kwargs(kwargs, _alias_map)
   1405 
-> 1406         for line in self._get_lines(*args, **kwargs):
   1407             self.add_line(line)
   1408             lines.append(line)

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/matplotlib/axes/_base.py in _grab_next_args(self, *args, **kwargs)
    405                 return
    406             if len(remaining) <= 3:
--> 407                 for seg in self._plot_args(remaining, kwargs):
    408                     yield seg
    409                 return

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/matplotlib/axes/_base.py in _plot_args(self, tup, kwargs)
    393         ncx, ncy = x.shape[1], y.shape[1]
    394         for j in xrange(max(ncx, ncy)):
--> 395             seg = func(x[:, j % ncx], y[:, j % ncy], kw, kwargs)
    396             ret.append(seg)
    397         return ret

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/matplotlib/axes/_base.py in _makeline(self, x, y, kw, kwargs)
    300         default_dict = self._getdefaults(None, kw)
    301         self._setdefaults(default_dict, kw)
--> 302         seg = mlines.Line2D(x, y, **kw)
    303         return seg
    304 

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/matplotlib/lines.py in __init__(self, xdata, ydata, linewidth, linestyle, color, marker, markersize, markeredgewidth, markeredgecolor, markerfacecolor, markerfacecoloralt, fillstyle, antialiased, dash_capstyle, solid_capstyle, dash_joinstyle, solid_joinstyle, pickradius, drawstyle, markevery, **kwargs)
    429         # update kwargs before updating data to give the caller a
    430         # chance to init axes (and hence unit support)
--> 431         self.update(kwargs)
    432         self.pickradius = pickradius
    433         self.ind_offset = 0

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/matplotlib/artist.py in update(self, props)
    883         try:
    884             ret = [_update_property(self, k, v)
--> 885                    for k, v in props.items()]
    886         finally:
    887             self.eventson = store

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/matplotlib/artist.py in <listcomp>(.0)
    883         try:
    884             ret = [_update_property(self, k, v)
--> 885                    for k, v in props.items()]
    886         finally:
    887             self.eventson = store

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/matplotlib/artist.py in _update_property(self, k, v)
    876                 func = getattr(self, 'set_' + k, None)
    877                 if func is None or not six.callable(func):
--> 878                     raise AttributeError('Unknown property %s' % k)
    879                 return func(v)
    880 

AttributeError: Unknown property type
# verde_obscuro = seaborn.palplot(seaborn.cubehelix_palette(8, start=2, rot=0, dark=0, light=.95, reverse=True))
# %matplotlib inline
fig, axes = joypy.joyplot(tiempos_espera, 
                          by="Periodo", 
                          column="TiempoEspera", 
                          fade=True,
                          #kind="normalized_counts",
                          hist=True, 
                          bins=250,
                          grid=True,
                          range_style="own", 
                          x_range=[-1255,100], 
                          figsize=(4,8),
                          colormap=seaborn.cubehelix_palette(8, start=2, rot=0, dark=0, light=.95, reverse=True, as_cmap=True))
Algunos de los usos mas avanzados de esto te permiten hacer análisis de datos estructurados, como justamente un sistema informatico ya existente usualmente se compone de muchas tablas y relaciones, además de vinculos y estructuras entre ellas. Veamos un ejemplo con otra base de datos. Usaremos una llamada Chinook, una base de datos de ejemplo que contiene datos de una tienda de discos, es un ejemplo un poco “empresarial” pero puede servirnos. Podemos ver el esquema de la base de datos aqui: db chinook
chinook_connection = sqlite3.connect("Chinook_Sqlite.sqlite")
chinook_dataframe = pd.read_sql("""Select *
FROM Track
LEFT OUTER JOIN MediaType ON MediaType.MediaTypeId = Track.MediaTypeId
LEFT OUTER JOIN Genre ON Genre.GenreId =Track.GenreId
LEFT OUTER JOIN Album ON Album.AlbumId = Track.AlbumId
LEFT OUTER JOIN Artist ON Artist.ArtistId = Album.ArtistId""", chinook_connection)
chinook_dataframe
TrackId Name AlbumId MediaTypeId GenreId Composer Milliseconds Bytes UnitPrice MediaTypeId Name GenreId Name AlbumId Title ArtistId ArtistId Name
0 1 For Those About To Rock (We Salute You) 1 1 1 Angus Young, Malcolm Young, Brian Johnson 343719 11170334 0.99 1 MPEG audio file 1 Rock 1 For Those About To Rock We Salute You 1 1 AC/DC
1 2 Balls to the Wall 2 2 1 None 342562 5510424 0.99 2 Protected AAC audio file 1 Rock 2 Balls to the Wall 2 2 Accept
2 3 Fast As a Shark 3 2 1 F. Baltes, S. Kaufman, U. Dirkscneider & W. Ho… 230619 3990994 0.99 2 Protected AAC audio file 1 Rock 3 Restless and Wild 2 2 Accept
3 4 Restless and Wild 3 2 1 F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D… 252051 4331779 0.99 2 Protected AAC audio file 1 Rock 3 Restless and Wild 2 2 Accept
4 5 Princess of the Dawn 3 2 1 Deaffy & R.A. Smith-Diesel 375418 6290521 0.99 2 Protected AAC audio file 1 Rock 3 Restless and Wild 2 2 Accept
5 6 Put The Finger On You 1 1 1 Angus Young, Malcolm Young, Brian Johnson 205662 6713451 0.99 1 MPEG audio file 1 Rock 1 For Those About To Rock We Salute You 1 1 AC/DC
6 7 Let’s Get It Up 1 1 1 Angus Young, Malcolm Young, Brian Johnson 233926 7636561 0.99 1 MPEG audio file 1 Rock 1 For Those About To Rock We Salute You 1 1 AC/DC
7 8 Inject The Venom 1 1 1 Angus Young, Malcolm Young, Brian Johnson 210834 6852860 0.99 1 MPEG audio file 1 Rock 1 For Those About To Rock We Salute You 1 1 AC/DC
8 9 Snowballed 1 1 1 Angus Young, Malcolm Young, Brian Johnson 203102 6599424 0.99 1 MPEG audio file 1 Rock 1 For Those About To Rock We Salute You 1 1 AC/DC
9 10 Evil Walks 1 1 1 Angus Young, Malcolm Young, Brian Johnson 263497 8611245 0.99 1 MPEG audio file 1 Rock 1 For Those About To Rock We Salute You 1 1 AC/DC
10 11 C.O.D. 1 1 1 Angus Young, Malcolm Young, Brian Johnson 199836 6566314 0.99 1 MPEG audio file 1 Rock 1 For Those About To Rock We Salute You 1 1 AC/DC
11 12 Breaking The Rules 1 1 1 Angus Young, Malcolm Young, Brian Johnson 263288 8596840 0.99 1 MPEG audio file 1 Rock 1 For Those About To Rock We Salute You 1 1 AC/DC
12 13 Night Of The Long Knives 1 1 1 Angus Young, Malcolm Young, Brian Johnson 205688 6706347 0.99 1 MPEG audio file 1 Rock 1 For Those About To Rock We Salute You 1 1 AC/DC
13 14 Spellbound 1 1 1 Angus Young, Malcolm Young, Brian Johnson 270863 8817038 0.99 1 MPEG audio file 1 Rock 1 For Those About To Rock We Salute You 1 1 AC/DC
14 15 Go Down 4 1 1 AC/DC 331180 10847611 0.99 1 MPEG audio file 1 Rock 4 Let There Be Rock 1 1 AC/DC
15 16 Dog Eat Dog 4 1 1 AC/DC 215196 7032162 0.99 1 MPEG audio file 1 Rock 4 Let There Be Rock 1 1 AC/DC
16 17 Let There Be Rock 4 1 1 AC/DC 366654 12021261 0.99 1 MPEG audio file 1 Rock 4 Let There Be Rock 1 1 AC/DC
17 18 Bad Boy Boogie 4 1 1 AC/DC 267728 8776140 0.99 1 MPEG audio file 1 Rock 4 Let There Be Rock 1 1 AC/DC
18 19 Problem Child 4 1 1 AC/DC 325041 10617116 0.99 1 MPEG audio file 1 Rock 4 Let There Be Rock 1 1 AC/DC
19 20 Overdose 4 1 1 AC/DC 369319 12066294 0.99 1 MPEG audio file 1 Rock 4 Let There Be Rock 1 1 AC/DC
20 21 Hell Ain’t A Bad Place To Be 4 1 1 AC/DC 254380 8331286 0.99 1 MPEG audio file 1 Rock 4 Let There Be Rock 1 1 AC/DC
21 22 Whole Lotta Rosie 4 1 1 AC/DC 323761 10547154 0.99 1 MPEG audio file 1 Rock 4 Let There Be Rock 1 1 AC/DC
22 23 Walk On Water 5 1 1 Steven Tyler, Joe Perry, Jack Blades, Tommy Shaw 295680 9719579 0.99 1 MPEG audio file 1 Rock 5 Big Ones 3 3 Aerosmith
23 24 Love In An Elevator 5 1 1 Steven Tyler, Joe Perry 321828 10552051 0.99 1 MPEG audio file 1 Rock 5 Big Ones 3 3 Aerosmith
24 25 Rag Doll 5 1 1 Steven Tyler, Joe Perry, Jim Vallance, Holly K… 264698 8675345 0.99 1 MPEG audio file 1 Rock 5 Big Ones 3 3 Aerosmith
25 26 What It Takes 5 1 1 Steven Tyler, Joe Perry, Desmond Child 310622 10144730 0.99 1 MPEG audio file 1 Rock 5 Big Ones 3 3 Aerosmith
26 27 Dude (Looks Like A Lady) 5 1 1 Steven Tyler, Joe Perry, Desmond Child 264855 8679940 0.99 1 MPEG audio file 1 Rock 5 Big Ones 3 3 Aerosmith
27 28 Janie’s Got A Gun 5 1 1 Steven Tyler, Tom Hamilton 330736 10869391 0.99 1 MPEG audio file 1 Rock 5 Big Ones 3 3 Aerosmith
28 29 Cryin’ 5 1 1 Steven Tyler, Joe Perry, Taylor Rhodes 309263 10056995 0.99 1 MPEG audio file 1 Rock 5 Big Ones 3 3 Aerosmith
29 30 Amazing 5 1 1 Steven Tyler, Richie Supa 356519 11616195 0.99 1 MPEG audio file 1 Rock 5 Big Ones 3 3 Aerosmith
3473 3474 October Song 322 2 9 Matt Rowe & Stefan Skarbek 204846 3358125 0.99 2 Protected AAC audio file 9 Pop 322 Frank 252 252 Amy Winehouse
3474 3475 What Is It About Men 322 2 9 Delroy “Chris” Cooper, Donovan Jackson, Earl C… 209573 3426106 0.99 2 Protected AAC audio file 9 Pop 322 Frank 252 252 Amy Winehouse
3475 3476 Help Yourself 322 2 9 Freddy James, Jimmy hogarth & Larry Stock 300884 5029266 0.99 2 Protected AAC audio file 9 Pop 322 Frank 252 252 Amy Winehouse
3476 3477 Amy Amy Amy (Outro) 322 2 9 Astor Campbell, Delroy “Chris” Cooper, Donovan… 663426 10564704 0.99 2 Protected AAC audio file 9 Pop 322 Frank 252 252 Amy Winehouse
3477 3478 Slowness 323 2 23 None 215386 3644793 0.99 2 Protected AAC audio file 23 Alternative 323 Carried to Dust (Bonus Track Version) 253 253 Calexico
3478 3479 Prometheus Overture, Op. 43 324 4 24 Ludwig van Beethoven 339567 10887931 0.99 4 Purchased AAC audio file 24 Classical 324 Beethoven: Symphony No. 6 ‘Pastoral’ Etc. 254 254 Otto Klemperer & Philharmonia Orchestra
3479 3480 Sonata for Solo Violin: IV: Presto 325 4 24 Béla Bartók 299350 9785346 0.99 4 Purchased AAC audio file 24 Classical 325 Bartok: Violin & Viola Concertos 255 255 Yehudi Menuhin
3480 3481 A Midsummer Night’s Dream, Op.61 Incidental Mu… 326 2 24 None 387826 6497867 0.99 2 Protected AAC audio file 24 Classical 326 Mendelssohn: A Midsummer Night’s Dream 256 256 Philharmonia Orchestra & Sir Neville Marriner
3481 3482 Suite No. 3 in D, BWV 1068: III. Gavotte I & II 327 2 24 Johann Sebastian Bach 225933 3847164 0.99 2 Protected AAC audio file 24 Classical 327 Bach: Orchestral Suites Nos. 1 – 4 257 257 Academy of St. Martin in the Fields, Sir Nevil…
3482 3483 Concert pour 4 Parties de V**les, H. 545: I. P… 328 2 24 Marc-Antoine Charpentier 110266 1973559 0.99 2 Protected AAC audio file 24 Classical 328 Charpentier: Divertissements, Airs & Concerts 258 258 Les Arts Florissants & William Christie
3483 3484 Adios nonino 329 2 24 Astor Piazzolla 289388 4781384 0.99 2 Protected AAC audio file 24 Classical 329 South American Getaway 259 259 The 12 Cellists of The Berlin Philharmonic
3484 3485 Symphony No. 3 Op. 36 for Orchestra and Sopran… 330 2 24 Henryk Górecki 567494 9273123 0.99 2 Protected AAC audio file 24 Classical 330 Górecki: Symphony No. 3 260 260 Adrian Leaper & Doreen de Feis
3485 3486 Act IV, Symphony 331 2 24 Henry Purcell 364296 5987695 0.99 2 Protected AAC audio file 24 Classical 331 Purcell: The Fairy Queen 261 261 Roger Norrington, London Classical Players
3486 3487 3 Gymnopédies: No.1 – Lent Et Grave, No.3 – Le… 332 2 24 Erik Satie 385506 6458501 0.99 2 Protected AAC audio file 24 Classical 332 The Ultimate Relexation Album 262 262 Charles Dutoit & L’Orchestre Symphonique de Mo…
3487 3488 Music for the Funeral of Queen Mary: VI. “Thou… 333 2 24 Henry Purcell 142081 2365930 0.99 2 Protected AAC audio file 24 Classical 333 Purcell: Music for the Queen Mary 263 263 Equale Brass Ensemble, John Eliot Gardiner & M…
3488 3489 Symphony No. 2: III. Allegro vivace 334 2 24 Kurt Weill 376510 6129146 0.99 2 Protected AAC audio file 24 Classical 334 Weill: The Seven Deadly Sins 264 264 Kent Nagano and Orchestre de l’Opéra de Lyon
3489 3490 Partita in E Major, BWV 1006A: I. Prelude 335 2 24 Johann Sebastian Bach 285673 4744929 0.99 2 Protected AAC audio file 24 Classical 335 J.S. Bach: Chaconne, Suite in E Minor, Partita… 265 265 Julian Bream
3490 3491 Le Sacre Du Printemps: I.iv. Spring Rounds 336 2 24 Igor Stravinsky 234746 4072205 0.99 2 Protected AAC audio file 24 Classical 336 Prokofiev: Symphony No.5 & Stravinksy: Le Sacr… 248 248 Berliner Philharmoniker & Herbert Von Karajan
3491 3492 Sing Joyfully 314 2 24 William Byrd 133768 2256484 0.99 2 Protected AAC audio file 24 Classical 314 English Renaissance 247 247 The King’s Singers
3492 3493 Metopes, Op. 29: Calypso 337 2 24 Karol Szymanowski 333669 5548755 0.99 2 Protected AAC audio file 24 Classical 337 Szymanowski: Piano Works, Vol. 1 266 266 Martin Roscoe
3493 3494 Symphony No. 2, Op. 16 – “The Four Temperamen… 338 2 24 Carl Nielsen 286998 4834785 0.99 2 Protected AAC audio file 24 Classical 338 Nielsen: The Six Symphonies 267 267 Göteborgs Symfoniker & Neeme Järvi
3494 3495 24 Caprices, Op. 1, No. 24, for Solo Violin, i… 339 2 24 Niccolò Paganini 265541 4371533 0.99 2 Protected AAC audio file 24 Classical 339 Great Recordings of the Century: Paganini’s 24… 268 268 Itzhak Perlman
3495 3496 Étude 1, In C Major – Preludio (Presto) – Liszt 340 4 24 None 51780 2229617 0.99 4 Purchased AAC audio file 24 Classical 340 Liszt – 12 Études D’Execution Transcendante 269 269 Michele Campanella
3496 3497 Erlkonig, D.328 341 2 24 None 261849 4307907 0.99 2 Protected AAC audio file 24 Classical 341 Great Recordings of the Century – Shubert: Sch… 270 270 Gerald Moore
3497 3498 Concerto for Violin, Strings and Continuo in G… 342 4 24 Pietro Antonio Locatelli 493573 16454937 0.99 4 Purchased AAC audio file 24 Classical 342 Locatelli: Concertos for Violin, Strings and C… 271 271 Mela Tenenbaum, Pro Musica Prague & Richard Kapp
3498 3499 Pini Di Roma (Pinien Von Rom) \ I Pini Della V… 343 2 24 None 286741 4718950 0.99 2 Protected AAC audio file 24 Classical 343 Respighi:Pines of Rome 226 226 Eugene Ormandy
3499 3500 String Quartet No. 12 in C Minor, D. 703 “Quar… 344 2 24 Franz Schubert 139200 2283131 0.99 2 Protected AAC audio file 24 Classical 344 Schubert: The Late String Quartets & String Qu… 272 272 Emerson String Quartet
3500 3501 L’orfeo, Act 3, Sinfonia (Orchestra) 345 2 24 Claudio Monteverdi 66639 1189062 0.99 2 Protected AAC audio file 24 Classical 345 Monteverdi: L’Orfeo 273 273 C. Monteverdi, Nigel Rogers – Chiaroscuro; Lon…
3501 3502 Quintet for Horn, Violin, 2 Violas, and Cello … 346 2 24 Wolfgang Amadeus Mozart 221331 3665114 0.99 2 Protected AAC audio file 24 Classical 346 Mozart: Chamber Music 274 274 Nash Ensemble
3502 3503 Koyaanisqatsi 347 2 10 Philip Glass 206005 3305164 0.99 2 Protected AAC audio file 10 Soundtrack 347 Koyaanisqatsi (Soundtrack from the Motion Pict… 275 275 Philip Glass Ensemble
3503 rows × 18 columns
chinook_connection = sqlite3.connect("Chinook_Sqlite.sqlite")
#artista_genero = pd.read_sql("""Select Genre.Name, Artist.Name
#FROM Track
#LEFT OUTER JOIN Genre ON Genre.GenreId = Track.GenreId
#LEFT OUTER JOIN Track ON Track.AlbumId = Album.AlbumId
#LEFT OUTER JOIN Artist ON Artist.ArtistId = Album.ArtistId """, chinook_connection)
#artista_genero
chinook_dataframe.to_csv()
Fwomp! necesitamos guardar esto en un archivo.
tiempos_espera.to_excel("miarchivo.xls")
Podemos ver mas de la interoperabilidad de estas plataformas en la documentación de Pandas y SQL y en general aprender más de SQL en una variedad de recursos en linea.
Ahora probemos a extraer información.
%time centros_educativos = pd.read_excel("14102014 - MINEDUC - CENTROS EDUCATIVOS REPUBLICA DE GUATEMALA.xlsx")
CPU times: user 12.3 s, sys: 25.3 ms, total: 12.3 s
Wall time: 12.4 s
centros_educativos
CODIGO DISTRITO DEPARTAMENTO MUNICIPIO ESTABLECIMIENTO DIRECCION TELEFONO SUPERVISOR DIRECTOR NIVEL SECTOR AREA STATUS MODALIDAD JORNADA PLAN
0 16-14-1255-41 16-001 ALTA VERAPAZ CHAHAL COPB ANEXA A EORM CASERIO EL DESCONSUELO NaN WALTER GEOVANY MACZ CESAREO XOL ICAL PREPRIMARIA BILINGUE OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
1 16-14-1386-45 16-004 ALTA VERAPAZ CHAHAL NUCLEO FAMILIAR EDUCATIVO PARA EL DESARROLLO N… CASERIO SETAL NaN JUAN ANTONIO FIGUEROA CAAL SANTIAGO CHOC CHO BASICO OFICIAL RURAL ABIERTA MONOLINGUE DOBLE DIARIO(REGULAR)
2 16-14-2143-43 16-014 ALTA VERAPAZ CHAHAL EORM CASERIO XALAJA NaN GERMAN PABLO XONA NaN PRIMARIA OFICIAL RURAL CERRADA TEMPORALMENTE BILINGUE MATUTINA DIARIO(REGULAR)
3 16-14-9028-43 16-023 ALTA VERAPAZ CHAHAL EORM ALDEA SEMOX SEMAU NaN ROLANDO OLIVERIO PINTO CABRERA NaN PRIMARIA OFICIAL RURAL CERRADA TEMPORALMENTE MONOLINGUE MATUTINA DIARIO(REGULAR)
4 16-14-9030-43 16-023 ALTA VERAPAZ CHAHAL EORM CASERIO EL ESFUERZO NaN ROLANDO OLIVERIO PINTO CABRERA NaN PRIMARIA OFICIAL RURAL CERRADA TEMPORALMENTE MONOLINGUE MATUTINA DIARIO(REGULAR)
5 16-14-0053-45 16-026 ALTA VERAPAZ CHAHAL INEB DE TELESECUNDARIA ALDEA LAS CONCHAS NaN ROBERTO CHUN TIUL ABELARDO CHOC COC BASICO OFICIAL RURAL ABIERTA MONOLINGUE VESPERTINA DIARIO(REGULAR)
6 16-14-0001-45 16-027 ALTA VERAPAZ CHAHAL INSTITUTO NACIONAL DE EDUCACION BASICA DE TELE… CASERIO SAN JOSE 40483348 EDGAR MANFREDO SANDOVAL ALBERTO YAT MEZ BASICO OFICIAL RURAL ABIERTA MONOLINGUE VESPERTINA DIARIO(REGULAR)
7 16-14-0002-42 16-027 ALTA VERAPAZ CHAHAL EODP COMUNIDAD SEPAC COMUNIDAD SEPAC NaN EDGAR MANFREDO SANDOVAL GUILLERMO CAC AYÚ PARVULOS OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
8 16-14-0003-42 16-027 ALTA VERAPAZ CHAHAL EODP CASERIO SETUTZ CASERIO SETUTZ NaN EDGAR MANFREDO SANDOVAL ENRIQUE ROLANDO COC POP PARVULOS OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
9 16-14-0004-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SANTO DOMINGO COMUNIDAD SANTO DOMINGO NaN EDGAR MANFREDO SANDOVAL MANUÉL ENRIQUE CANTI CHOC PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
10 16-14-0005-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SEPUR SEBAC COMUNIDAD SEPUR SEBAC NaN EDGAR MANFREDO SANDOVAL ELENA ISABEL BO TEC PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
11 16-14-0006-43 16-027 ALTA VERAPAZ CHAHAL EORM CASERÍO EL GUAYABO CASERIO EL GUAYABO NaN EDGAR MANFREDO SANDOVAL MEDARDO CHÉ CHOCOJ PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
12 16-14-0007-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SAN MARCOS RUBEL INUP CASERIO SAN MARCOS RUBEL-INUP NaN EDGAR MANFREDO SANDOVAL AVELINO ASIG TZALAM PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
13 16-14-0008-43 16-027 ALTA VERAPAZ CHAHAL EORM CASERÍO SEJALAUTE CASERIO SEJALAUTE NaN EDGAR MANFREDO SANDOVAL AVELARDO MIZ CHOC PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
14 16-14-0009-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD DE VALLE VERDE COMUNIDAD DE VALLE VERDE NaN EDGAR MANFREDO SANDOVAL JENRRI GREGORIO MOLINA LÓPEZ PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
15 16-14-0011-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SAN JACINTO CHINAYÚ CASERIO SAN JACINTO CHINAYU NaN EDGAR MANFREDO SANDOVAL MARIO ANTONIO CHOCOJ CACAO PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
16 16-14-0012-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SANTA MARÍA CHICOC COMUNIDAD SANTA MARIA CHICOC NaN EDGAR MANFREDO SANDOVAL NORMA LETICIA MOLINA PRADO PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
17 16-14-0013-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD GUADALUPE RUBEL INUP COMUNIDAD GUADALUPE RUBEL INUP NaN EDGAR MANFREDO SANDOVAL BAUDILIO RANDOLFO ASH POP PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
18 16-14-0014-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SEPAC COMUNIDAD SEPAC NaN EDGAR MANFREDO SANDOVAL GUILLERMO CAC AYÚ PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
19 16-14-0015-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SAN LUCAS SECANTÉ COMUNIDAD SAN LUCAS SECANTE NaN EDGAR MANFREDO SANDOVAL ALIDA IRENE CANTORAL PRADO PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
20 16-14-0016-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SANTA MARÍA SELAMUNX COMUNIDAD SANTA MARIA SELAMUNX NaN EDGAR MANFREDO SANDOVAL JULIO CANTI CAC PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
21 16-14-0017-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SANTIAGO SOSELHA COMUNIDAD SANTIAGO SOSELHA NaN EDGAR MANFREDO SANDOVAL EDUARDO IXIM CHOC PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
22 16-14-0018-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SAN MARCOS CHINAYÚ COMUNIDAD SAN MARCOS CHINAYU NaN EDGAR MANFREDO SANDOVAL JOSE SANTOS COY TZALAM PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
23 16-14-0019-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SAILA COMUNIDAD SAILA NaN EDGAR MANFREDO SANDOVAL MANUEL CHÉN BOL PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
24 16-14-0020-43 16-027 ALTA VERAPAZ CHAHAL EORM CASERIO SETAL CASERIO SETAL NaN EDGAR MANFREDO SANDOVAL JUAN MACZ COY PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
25 16-14-0021-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SAN JUAN EL PARAISO COMUNIDAD SAN JUAN EL PARAISO NaN EDGAR MANFREDO SANDOVAL SEBASTIAN POP BOTZOC PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
26 16-14-0022-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD CANTUTU COMUNIDAD CANTUTU NaN EDGAR MANFREDO SANDOVAL RUBÉN ADAN LÓPEZ IXIM PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
27 16-14-0023-43 16-027 ALTA VERAPAZ CHAHAL EORM CASERÍO GASPAR CHINAYÚ CASERIO GASPAR CHINAYU NaN EDGAR MANFREDO SANDOVAL EDUARDO BUTZ CATÚN PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
28 16-14-0024-43 16-027 ALTA VERAPAZ CHAHAL EORM CASERIO SETUTZ CASERIO SETUTZ NaN EDGAR MANFREDO SANDOVAL ENRIQUE ROLANDO COC POP PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
29 16-14-0025-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SAGRADO CHABILCHOCH I COMUNIDAD SAGRADO CAHABILCHOC I NaN EDGAR MANFREDO SANDOVAL SANTIAGO PAQUIUL CHOC PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
54350 19-01-1206-45 19-019 ZACAPA ZACAPA INSTITUTO DE TURISMO Y AVIACION DE ORIENTE 8A. CALLE 9-06 ZONA 2 BARRIO LA REFORMA NaN HUGO WILFREDO VARGAS CHACON NaN BASICO PRIVADO URBANA CERRADA TEMPORALMENTE MONOLINGUE DOBLE FIN DE SEMANA
54351 19-01-1207-46 19-019 ZACAPA ZACAPA INSTITUTO DE TURISMO Y AVIACION DE ORIENTE 8A. CALLE 9-06 ZONA 2 BARRIO LA REFORMA NaN HUGO WILFREDO VARGAS CHACON NaN DIVERSIFICADO PRIVADO URBANA CERRADA TEMPORALMENTE MONOLINGUE DOBLE FIN DE SEMANA
54352 19-01-1208-46 19-019 ZACAPA ZACAPA INSTITUTO DE TURISMO Y AVIACION DE ORIENTE 8A. CALLE 9-06 ZONA 2 BARRIO LA REFORMA NaN HUGO WILFREDO VARGAS CHACON NaN DIVERSIFICADO PRIVADO URBANA CERRADA TEMPORALMENTE MONOLINGUE VESPERTINA DIARIO(REGULAR)
54353 19-01-0418-44 25-000 ZACAPA ZACAPA INSTITUTO GUATEMALTECO DE EDUCACION RADIOFONIC… CASA PARROQUIAL NaN SONIA HAYDEE REYES MONTERROSO NaN PRIMARIA DE ADULTOS PRIVADO URBANA ABIERTA MONOLINGUE MATUTINA A DISTANCIA
54354 19-01-0894-46 25-000 ZACAPA ZACAPA INSTITUTO GUATEMALTECO DE EDUCACION RADIOFONIC… NaN NaN SONIA HAYDEE REYES MONTERROSO NaN DIVERSIFICADO PRIVADO URBANA ABIERTA MONOLINGUE MATUTINA A DISTANCIA
54355 19-01-1107-42 25-001 ZACAPA ZACAPA CENTRO DE ATENCION INFANTIL COLONIA EL MITCH ALDEA LA FRAGUA NaN BRENDA DEL ROSARIO PERMILLA LOPEZ NaN PARVULOS OFICIAL URBANA CERRADA TEMPORALMENTE MONOLINGUE DOBLE DIARIO(REGULAR)
54356 19-01-0094-42 26-018 ZACAPA ZACAPA EODP ALDEA PLAN DEL MORRO ALDEA PLAN DEL MORRO NaN ADICOGUA VIVIANA MARISELA ALFARO ROSSELL DE CABRERA PARVULOS OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54357 19-01-0095-42 26-018 ZACAPA ZACAPA EODP ALDEA BARRIO NUEVO ALDEA BARRIO NUEVO NaN ADICOGUA NaN PARVULOS OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54358 19-01-0097-42 26-018 ZACAPA ZACAPA EODP ALDEA SINANECA ALDEA SINANECA NaN ADICOGUA MARINA ELIZABETH VENTURA CHACÓN PARVULOS OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54359 19-01-0098-42 26-018 ZACAPA ZACAPA EODP CASERÍO EL CANAL CASERIO EL CANAL NaN ADICOGUA ASTRID MAYBELI TOBAR RUÍZ PARVULOS OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54360 19-01-0099-42 26-018 ZACAPA ZACAPA EODP CASERÍO LA CHISPÍA CASERIO LA CHISPIA NaN ADICOGUA NURY AMADILIA FRANCO GÓMEZ PARVULOS OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54361 19-01-0100-42 26-018 ZACAPA ZACAPA EODP CASERÍO CERRO MIRAMUNDO CASERIO CERRO MIRAMUNDO NaN ADICOGUA VERONICA ISABEL TEJEDA CHACÓN PARVULOS OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54362 19-01-0101-42 26-018 ZACAPA ZACAPA EODP CASERIO LA PLANCHA, ALDEA LA FRAGUA NaN ADICOGUA BERLY TRINIDAD GUEVARA RUÍZ PARVULOS OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54363 19-01-0102-42 26-018 ZACAPA ZACAPA EODP ALDEA LOS JOCOTES ALDEA LOS JOCOTES NaN ADICOGUA LOURDES GABRIELA MEJÍA GÓMEZ PARVULOS OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54364 19-01-0104-43 26-018 ZACAPA ZACAPA EORM ALDEA PLAN DEL MORRO ALDEA PLAN DEL MORRO NaN ADICOGUA HENRY MISAEL PÉREZ GARCÍA PRIMARIA OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54365 19-01-0105-43 26-018 ZACAPA ZACAPA EORM ALDEA CIMARRÓN ALDEA CIMARRON NaN ADICOGUA MANUEL DE JESÚS GONZÁLEZ Y GONZÁLEZ PRIMARIA OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54366 19-01-0107-43 26-018 ZACAPA ZACAPA EORM ALDEA SINANECA ALDEA SINANECA NaN ADICOGUA JACKELINE JULISSA RAMIREZ MEJÍA PRIMARIA OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54367 19-01-0108-43 26-018 ZACAPA ZACAPA EORM CASERÍO LA CHISPÍA CASERIO LA CHISPIA NaN ADICOGUA INGRID MAYLÍ RUÍZ PEÑA PRIMARIA OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54368 19-01-0109-43 26-018 ZACAPA ZACAPA EORM CASERÍO EL CANAL CASERIO EL CANAL NaN ADICOGUA DELMY MAYBELI VILLELA OSORIO PRIMARIA OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54369 19-01-0111-43 26-018 ZACAPA ZACAPA EORM ALDEA LOS JOCOTES ALDEA LOS JOCOTES NaN ADICOGUA EVA EVANGELINA LÓPEZ VÁSQUEZ PRIMARIA OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54370 19-01-0112-43 26-018 ZACAPA ZACAPA EORM CASERÍO CERRO MIRAMUNDO CASERIO CERRO MIRAMUNDO NaN ADICOGUA AURA EDIDBETH ZECEÑA URRUTIA PRIMARIA OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54371 19-01-1017-42 27-017 ZACAPA ZACAPA EODP COLONIA JUAN PABLO II 941-5519 719-0762 ELDA LUCRECIA LANDAVERDE LEON EVELYN RAQUEL PAIZ PARVULOS OFICIAL URBANA ABIERTA MONOLINGUE DOBLE DIARIO(REGULAR)
54372 19-01-0082-46 99-001 ZACAPA ZACAPA INSTITUTO PRIVADO MIXTO DE EDUCACION DIVERSIFI… BARRIO LAS FLORES NaN SILVIA EUGENIA VALDEZ MONTERROSO DE CARBALLO NaN DIVERSIFICADO PRIVADO URBANA TEMPORAL TITULOS MONOLINGUE NOCTURNA DIARIO(REGULAR)
54373 19-01-0036-43 NaN ZACAPA ZACAPA EORM ALDEA SINANECA NaN NaN NaN PRIMARIA OFICIAL RURAL CERRADA TEMPORALMENTE MONOLINGUE MATUTINA DIARIO(REGULAR)
54374 19-01-0083-46 NaN ZACAPA ZACAPA INSTITUTO PRIVADO MIXTO DE EDUCACION DIVERSIFI… BARRIO LAS FLORES NaN NaN NaN DIVERSIFICADO PRIVADO URBANA CERRADA TEMPORALMENTE MONOLINGUE VESPERTINA DIARIO(REGULAR)
54375 19-01-0632-42 NaN ZACAPA ZACAPA COLEGIO CRISTIANO MIXTO ‘BETHEL’ 8A. CALLE 02-02 ZONA 2, BARRIO LA ESTACION NaN NaN NaN PARVULOS PRIVADO URBANA CERRADA TEMPORALMENTE MONOLINGUE MATUTINA DIARIO(REGULAR)
54376 19-01-0633-43 NaN ZACAPA ZACAPA COLEGIO CRISTIANO MIXTO ‘BETHEL’ 8A. CALLE 02-02 ZONA 2, BARRIO LA ESTACION 79412091 NaN NaN PRIMARIA PRIVADO URBANA CERRADA TEMPORALMENTE MONOLINGUE MATUTINA DIARIO(REGULAR)
54377 19-01-0700-45 NaN ZACAPA ZACAPA LICEO ZACAPA 4A. CALLE 16-30 ZONA 1 79410233 NaN NaN BASICO PRIVADO URBANA CERRADA TEMPORALMENTE MONOLINGUE MATUTINA DIARIO(REGULAR)
54378 19-01-0814-45 NaN ZACAPA ZACAPA INEB DE TELESECUNDARIA ALDEA MANZANOTES NaN NaN NaN BASICO OFICIAL RURAL CERRADA TEMPORALMENTE MONOLINGUE VESPERTINA DIARIO(REGULAR)
54379 19-01-0815-45 NaN ZACAPA ZACAPA INEB DE TELESECUNDARIA ALDEA LA MAJADA NaN NaN NaN BASICO OFICIAL RURAL CERRADA TEMPORALMENTE MONOLINGUE VESPERTINA SABATINO
54380 rows × 16 columns
# print(centros_educativos["AREA"].value_counts())
centros_educativos = centros_educativos[centros_educativos.AREA != "SIN ESPECIFICAR"]
print(centros_educativos["AREA"].value_counts())
RURAL     36747
URBANA    17632
Name: AREA, dtype: int64
for col in ["DISTRITO", "DEPARTAMENTO", "MUNICIPIO", "NIVEL","SECTOR","AREA","STATUS","MODALIDAD","JORNADA","PLAN"]:
            centros_educativos[col] = centros_educativos[col].astype('category')
#centros_educativos.groupby(["JORNADA","PLAN","AREA"],).count()
centros_educativos.groupby(["JORNADA","PLAN","AREA"]).count()["CODIGO"]
JORNADA     PLAN             AREA  
DOBLE       A DISTANCIA      RURAL        1.0
                             URBANA      45.0
            DIARIO(REGULAR)  RURAL      703.0
                             URBANA     563.0
            DOMINICAL        RURAL       23.0
                             URBANA      31.0
            FIN DE SEMANA    RURAL      325.0
                             URBANA    2242.0
            IRREGULAR        RURAL        1.0
                             URBANA       6.0
            MIXTO            RURAL        NaN
                             URBANA       NaN
            SABATINO         RURAL        6.0
                             URBANA      85.0
INTERMEDIA  A DISTANCIA      RURAL        NaN
                             URBANA       3.0
            DIARIO(REGULAR)  RURAL       21.0
                             URBANA     108.0
            DOMINICAL        RURAL        1.0
                             URBANA       NaN
            FIN DE SEMANA    RURAL        1.0
                             URBANA      13.0
            IRREGULAR        RURAL        NaN
                             URBANA       NaN
            MIXTO            RURAL        NaN
                             URBANA       NaN
            SABATINO         RURAL        NaN
                             URBANA       1.0
MATUTINA    A DISTANCIA      RURAL        1.0
                             URBANA     263.0
                                        ...  
            SABATINO         RURAL        1.0
                             URBANA      51.0
NOCTURNA    A DISTANCIA      RURAL        NaN
                             URBANA       8.0
            DIARIO(REGULAR)  RURAL       88.0
                             URBANA     709.0
            DOMINICAL        RURAL        NaN
                             URBANA       1.0
            FIN DE SEMANA    RURAL        NaN
                             URBANA       3.0
            IRREGULAR        RURAL        NaN
                             URBANA       NaN
            MIXTO            RURAL        NaN
                             URBANA       NaN
            SABATINO         RURAL        NaN
                             URBANA       NaN
VESPERTINA  A DISTANCIA      RURAL        1.0
                             URBANA      26.0
            DIARIO(REGULAR)  RURAL     4884.0
                             URBANA    3887.0
            DOMINICAL        RURAL        NaN
                             URBANA       5.0
            FIN DE SEMANA    RURAL       17.0
                             URBANA      74.0
            IRREGULAR        RURAL        NaN
                             URBANA       NaN
            MIXTO            RURAL        NaN
                             URBANA       1.0
            SABATINO         RURAL        4.0
                             URBANA      34.0
Name: CODIGO, Length: 70, dtype: float64
seaborn.factorplot(
    y="PLAN", 
    col="AREA", 
    hue="JORNADA", 
    row="NIVEL", 
    data=centros_educativos, 
    kind="count", size=4);

#seaborn.tsplot(centros_educativos.groupby(["JORNADA","PLAN","AREA"]).count()["CODIGO"])
# escuelas_heatmap_pivot = centros_educativos.pivot("PLAN", "AREA", "JORNADA")
escuelas_heatmap = centros_educativos.pivot("PLAN", "AREA", "JORNADA")

# Draw a heatmap with the numeric values in each cell
f, ax = plt.subplots(figsize=(9, 6))
sns.heatmap(escuelas_heatmap, annot=True, fmt="d", linewidths=.5, ax=ax,
y="PLAN", col="AREA", hue="JORNADA", row="NIVEL", data=centros_educativos)

¿De qué fueron los Datos y Chiliguaros en #Abrelatam-Condatos17?

Daniel Villatoro - el Agosto 30, 2017 en Experiencias, Noticias

En el contexto de Abrelatam-Condatos17, los eventos de formación de comunidad son extremadamente relevante. El más exitoso de ellos en la región, Datos y Tragos, se realizó una vez más en la capital de Costa Rica el jueves 24 de agosto, organizado por Socialtic y en colaboración con Impact Hb Sna José, Manatí, Open Knowledge y, claro, Escuela de Datos.

Conoce aquí algunos de los proyectos que se presentaron.

⏺Ojo Público – Comic “La guerra por el agua” (Perú)

Este cómic interactivo cuenta la historia del conflicto por el acceso al agua y la proyección del ambiente cuando llegan proyectos mineros de grande escala a pueblos de Perú.
Se nutre de una  base de datos sobre privilegios fiscales en ese país, en diferentes industrias por 10 años.
El cómic guia al lector a traves de historias graficas en donde ve, oye y lee sobre los problemas

⏺Transparencia Presupuestaria – Observatorio del Gasto ( México)

<iframe width=”560″ height=”315″ src=”https://www.youtube.com/embed/xW-OvRSYESo” frameborder=”0″ allowfullscreen></iframe>

Esta plataforma te muestra más de 600 programas de gobierno, los proyectos que se estan ejecutando en físico y en pagos.
A través de mapas muestran todos los proyectos en desarrollo en México

Hicieron un Rally de Datos en la calle en el que las personas podian usar el mapa para seguir los diferentes proyectos en su localidad. Durante el OpenDataDay las personas visualizaron, visitaron y conocieron los proyectos en su comunidad.

Además hicieron un curso online masivo sobre ¿Cómo entender el presupuesto?

⏺DataUY – Dónde reciclo (Uruguay)
Es un mapa que muestra donde estan todos los puntos de reciclaje en Montevideo con información sobre los programas y

Lo revolucionario fue que este proyecto voluntario género interés de la cámara de la industria trabaja con reciclaje patrocinó este proyecto y se interesó en invertir en él.

⏺40 Municipios bajo la lupa – Ojo Con Mi Pisto (Guatemala

Una colección de fichas sobre los datos sobre los integrantes de 40 concejos municipales

Incluye un buscador de denuncias y fichas con el historial de los 500+ funcionarios

Entre los hallazgos de las investigaciones, 8 de cada 10 alcaldes tienen algun tipo de antecedente en la contraloria, servicios de contratacion, sanciones, denuncias y otros problemas en la administración pública.

⏺Indice de Progreso Social — Estudio Manatí (Costa Rica)

El diseño de experiencia de usuario de este estudio costarricense permitio mostrar de una manera practica indicadores sobre como un país suple las necesidades de sus ciudadanos

Entrevistaron a usuarios potenciales de estos indices para construir una plataforma que genera visualizaciones como: Mapas cloropetos, una tabla de puntaje de cada país clasificada por color y poder comparar los datos entre paises.

Socialprogressindex.com

⏺ Japiqay.pe — Asociación civil Japiqay (Perú)
El proyecto se resume en recuperar la memoria sobre las investigaciones de corrupción en los ultimos 40 años.
Desde 1980 (la etapa democrática) esta organización ha recuperado documentos oficiales, certificaciones y otros registros sobre malas prácticas.
Recupera los trabajos de investigación en el Congreso, la Contraloria y el Poder Judicial ademas de nombrar que de los miles de investigados muy pocos han sido procesados o sentenciados y se reciclan facilmente en el sistema de administración pública.
Funciona como un repositorio de pruebas e historial de delitos.

⏺El desafío de data, fiscalidad y desigualdad — Oxfam (Latinoamérica)

Ante el problema de la creciente brecha social, Oxfam ha recopilado más de 60 indicadores en 22 paises de Latinoamerica y el Caribe. Por eso abrieron una convocatoria para explicar y conectar a públicos no especializados con las injusticias fiscales

Hasta el 22 de septiembre aceptan las inscripciones para proyectos comunicacionales que cuenten historias con los datos, comparen un tema o pais y usen la creatividad para abordar estos temas

⏺Dashboard de herramientas – DataSketch (Colombia)

Varias opciones para crear visualizaciones y genera r graficos descargables y embedeables.

Sus herramientas abarcan desde la visualización, el análisis y la limpieza de datos. Además, tiene la posibilidad de mejorar el código, a través de contribuciones

⏺ Indice de municipios —Fundación Conocimiento Abiero (Argentina)

Adaptando el indice global de datos abiertos, en este indice evaluaron varias ciudades que cuentan con portales de datos abiertos.

El ranking aborda temas como trabsporte, compras y contrataciones,

⏺ La tierra esclava – Eldiario.es y Elfaro.net (España y El Salvador)

Este proyecto de investigación revisó los monocultivos en paises como Guatemala, Colombia y Brasil, y su consumo en el mercado mundial.

Muestra visualizaciones sobre el flujo de la comercialización de estas plantaciones y cómo se conectan

Además, produjeron reportajes de investigacion en multimedia que cuentan como la industria de azúcar en Guatemala opera como cartel, como en Honduras la palma africana arrasa con los bosques y otras historias.

⏺ Radiografia Politica — Fundacion Ciudadanía y Desarrollo (Ecuador)

Una plataforma para generar perfiles sobre funcionarios públicos. La información se nutre de los sitios oficiales de gobierno que suele estar dispersa en más de 20 sitios diferentes.

La plataforma permite descargar hojas de calculo con datos sobre su función pública, su trayectoria en el sector privado y la actividad política. Revisa antecedentes judiciales, penales, formación académica y procesos de investigación y contraloría

La plataforma está disponible en código abierto y está disponible para que otros la implementen y mejoren el código.

⏺ La Data (México)

La Data es un medio digital nuevo, especializado en periodismo de datos.

Fue fundado por Morlan, una consultora de visualización y análisis de datos. Su primera historia analiza diversos datos sobre la violencia contra las mujeres en la Universidad Autonoma de México, que incluye desde acoso verbal hasta violaciones a estudiantes, investigadoras y profesoras.

El lanzamiento de este proyecto es el lunes 28 de agosto.

Escuela de Datos: 5 “abrelatames” juntos.

Marcos Ge - el Agosto 19, 2017 en Experiencias, Noticias

Junio de 2013, Uruguay, Montevideo: frente a una naciente comunidad de personas interesadas en el uso de la tecnología para el impacto social, se presentó Escuela de Datos en el primer ABRELATAM de la historia.

Este 2017, del 23 al 25 de agosto se lleva a cabo la quinta edición de esta desconferencia, que busca atar los esfuerzos de las comunidades y desatar los nudos que puedan encontrarse en el camino hacia un uso libre de los datos para el impacto social. En estos años, Escuela de Datos ha generado decenas de encuentros para crear comunidad, talleres, publicado cientos de contenidos y cursos gratuitos.

Muchas de estas acciones han sido ejecutadas por una comunidad en cuyo corazón están las y los fellows, aquí recapitulamos algunos de sus logros, cuya amplificación se debe, en gran medida, a cada ABRELATAM. ¡Conócelxs!

Antonio Cucho

Antonio Cucho Gamboa, fellow por Perú A finales de 2013 y  principios de 2014, fundó la organización Open Data Perú y se postuló en 2014 para el fellowship. Al tener capacidades técnicas como programador y unirse a periodistas co fundó la publicación online de periodismo de investigación Ojo Público.

Su experiencia organizando comunidades de datos abiertos comenzó en el encuentro regional más relevante para los datos abiertos en Latinoamérica: Abrelatam (2014).

Tras terminar su fellowship, Antonio se mudó para integrarse al equipo de periodismo de datos de Univision Noticias, medio estadounidense dirigido a la población hispana en Estados Unidos. Con Univision Data ha desarrollado diferentes trabajos relacionados con la defensa de los derechos de la población de contexto hispanoparlante, como un mapa interactivo para mostrar la población hispana que aún no domina el idioma inglés, describir los resultados de medio siglo de guerra en Colombia. Además, promovió la primera plataforma de factchecking en español (dentro del territorio estadunidense): “El Detector de Mentiras”.

A pesar de radicar fuera de Perú, su trabajo con ese país no ha concluido, lidera el desarrollo y coordina la investigación de la primera plataforma de contrataciones abiertas en  su país de origen. Este es un esfuerzo en conjunto de la comunidad Open Data Perú y la OSC Proética para promover la transparencia en las contrataciones estales, identificando diferentes patrones que permitirán a especialistas realizar una exploración más sencilla dentro de miles de contrataciones que contienen irregularidades en el proceso.

Si quieres saber más de lo que hizo Antonio durante su fellowship, da clic aquí.

Julio López

Durante su Fellowship, en 2015, Julio se concentró en datos de la industria de extracción, a través de su trabajo con Natural Resource Governance Institute.

Julio se encuentra trabajando como consultor de la División de Energía del Banco Interamericano de Desarrollo (BID), donde apoya la implementación de la Iniciativa Energía Sostenible para Todos (SEforAll) en América Latina y el Caribe. Antes de incorporarse al BID, trabajó en la Organización Latinoamericana de Energía (OLADE) como especialista de información energética y previamente coordinó proyectos de investigación en políticas públicas para think tanks y OSCs en América Latina.

En 2015 desarrolló su Fellowship en Escuela de Datos, donde trabajo en fortalecer la comunidad local de datos abiertos en Ecuador y colaboró con un proyecto global sobre datos de proyectos de industrias extractivas. Recientemente es co-fundador de @Datalat, una iniciativa civil sobre el uso de datos y tecnología en Ecuador.

Omar Luna

Tras su fellowship en 2015, Omar Luna dedicó sus esfuerzos en El Salvador a la colaboración con el medio independiente El Faro,  con quienes capacita a estudiantes de periodismo en diversos rubros políticos y de datos con el objetivo de la construcción de dos grandes productos: una base de datos que le sirva a El Faro para crear una visualización de datos de cara a las elecciones de diputados 2018-2021, así como la consolidación del Observatorio de Comunicación Política de la Universidad Centroamericana (UCA).

También colabora con Proyecto Cero, donde Omar lideró la construcción de una base de datos que visibiliza la toma de decisiones clave en la Asamblea Legislativa.. Omar conoció a la coordinadora, Claudia Ortiz,  el año pasado durante el desarrollo del fellow.

Una de las colaboraciones más cercanas y estrechas que tuvo durante y después de mi fellowship ha sido con el equipo de la unidad de datos de El Diario de Hoy (EDH). Su editora periodística, Lilian Martínez, y su editora de visualización, Norma Ramírez, contactaron a Omar para que desarrollara capacitaciones constantes en uso de hojas de cálculo y software de visualización. Con EDH también ha creado visualizaciones sobre temas como embarazo adolescente y personas desaparecidas.

Phi Requiem

En 2014, Phi Requiem dedicó su fellowship a la formación de capacidades entre periodistas y activistas centroamericanos. Hoy su vocación de capacitación continúa. Con la iniciativa Hagamos Data (#HagamosData), se encuentra entrenando un más amplio grupo de personas para el uso de datos: por una parte entrena entrenadores, y por otra entrena a público no especializado. Se encuentra en un proceso de acompañamiento con la organización con el National Democratic Institute (NDI) para el uso de datos.

Phi también colaboró con el equipo que desarrolló Ruido CDMX, la plataforma construida con hardware libre y código abierto para la recolección y visualización de ruido en la Ciudad de México. Actualmente se encuentra desarrollando una segunda fase de este proceso, Ruido en las Ciudades, con software y hardware libres de generaciones más eficientes y accesibles que las de la anterior. El objetivo es acercar la creación de estos recolectores de datos a un grupo muy diverso de la población para generar datos abiertos sobre este fenómeno, de amplio impacto ambiental y de salud.

Si quieres saber más del trabajo de Phi Requiem durante su fellowship, da clic aquí

Camila Salazar

Camila desarrolló su fellowship en 2015.  Ella tiene un grado universitario en periodismo y obtuvo un segundo grado en Economía.

Tras el fellowship, Camila se ha desenvuelto como periodista de datos en la Unidad de Datos del Diario La Nación.  Estos son los proyectos en los que participó en el último año:

  • Aplicación para calcular el salario en el sector público, para la que ejecutó una investigación sobre el sistema de remuneraciones en el sector público.
  • Factchecking en vivo del discurso presidencial.
  • También desarrolla multitud de investigaciones, como esta sobre el sector cooperativo en Costa Rica.
Además de ser periodista en campo, Camila comparte su conocimiento a través de la docencia universitaria, talleres y actividades sobre periodismo de datos. El semestre anterior impartió el curso de Periodismo de Datos en la Universidad de Costa Rica.  Es un curso que forma parte del plan de estudios del Bachillerato en Periodismo.

Si quieres saber más sobre la labor de Camila durante su fellowship, da clic aquí.

Raisa Valda

Dedicó su fellowship a generar comunidades de datos abiertos en toda Bolivia, así como a conectar con organizaciones aliadas para su proyecto de datos contra violencia de género Cuántas Más.

  • Fue seleccionada para ser parte de la Escuela de Incidencia de Ciudadano Inteligente (Chile) para trabajar sobre género y tecnologías.
  • También la invitaron, desde la Embajada de Suecia en Bolivia, a participar en Stockholm Internet Forum 2017(SIF17) on Internet Freedom for Global Development en mayo de este año.
  • Fue invitada a dictar un módulo de docencia junto a la Fundación para el Periodismo de La Paz en su Diplomado en periodismo digital, sobre redes sociales y otras tecnologías en el periodismo, en julio de 2017.
  • Participará en el IX Congreso de la AEB – Estudios de Internet y sociedad en Bolivia, con una ponencia sobre datos abiertos y ciudadanía, en julio de este año.

Raisa está dedicada íntegramente a Cuántas Más. A partir de los datos que obtuvieron en 2016 sobre los casos de feminicidio, hallaron dos que llamaron su atención:

1. en el 78% de los casos se trataban de feminicidios íntimos (esposos,concubinos, novios, ex novios, ex esposos, ex concubinos),
2. en el 34% de los casos, las víctimas tenían menos de 20 años de edad.
Por ello, en el primer trimestre de este año, centraron su trabajo de prevención en el abordaje de violencias dentro las relaciones de noviazgo en la adolescencia con una ruta de talleres (“No es que me pidas así”) piloto por 6 ciudades de Bolivia.
Se trata de talleres piloto para los que Raisa desarrolló una metodología que permite a los adolescentes, entre 15 y 17 años, hablar sobre sus percepciones de violencia y cómo la entiende; y a partir de ello generar mensajes en audiovisual en sus propios códigos lingüísticos (nada solemne, nada políticamente correcto). Este material no se difundirá como una campaña masiva, no es el propósito; sino a través de sus propias redes de manera natural.
Cuántas Más tiene el propósito de centrar su trabajo, para esta gestión, en temas violencia que involucra a jóvenes, sea en las relaciones de noviazgo (basadas en encuestas y estudios realizados por la Coordinadora de la Mujeres) o en su desenvolvimiento en la universidad (basado en un estudio realizado por UNFPA sobre la UMSA).

Ximena Villagrán

Durante y tras su fellowship, Ximena ha sido catedrática titular de Periodismo de Datos en la Universidad del Istmo. Es también consultora para proyectos periodísticos y talleres de periodismo de datos en Honduras, El Salvador y Guatemala para la agencia internacional Internews, con quienes comenzó su colaboración, al igual que Omar, durante el fellowship.

Hoy Ximena está fundando su propia iniciativa de periodismo de datos, El Intercambio, que propone un vínculo íntimo entre crónica y periodismo de datos y busca dotar a los periodistas de un rol más activo en la búsqueda de fondos para el periodismo independiente.

Junto con Omar Luna, desarrolló una extensa currrícula para periodistas de datos en toda Centroamérica. Hoy también es consultora para la nueva unidad de datos del medio guatemalteco Prensa Libre y trabaja en un proyecto de explicación, a través de los datos, con la publicación también guatemalteca Nómada.

Daniel Villatoro

Daniel Villatoro se desempeña hoy como reportero senior en el medio guatemalteco Plaza Pública. Además de escribir crónica y desarrollar investigaciones de datos, tras la fellowship, Daniel incursionó en prácticas artísticas a través de los datos.

Daniel desarrolló una investigación sobre ingresos económicos por hora trabajada y de acuerdo con etnia y género, para concluir rasgos visibles de explotación en las poblaciones femeninas de Guatemala.

Con esta investigación generó mapas y visualizaciones que dieron soporte a una propuesta en acrílico y billetes, para visualizar con elementos cotidianos las opresiones también cotidianas. Su solución formal se expuso durante Nuevas Proporciones.

 “Las gráficas son representaciones, recursos que se manifiestan visualmente para mostra relaciones […] Huyendo de la representación, busco trabajar las gráficas con los objetos mismos en vez de representarlos: algo tan obvio como personificar al dinero con un billete o al tiempo con un reloj”, puede leerse en la justificación de su proyecto.

Daniel Villatoro se ocupa, también desde el periodismo, constantemente con temas de opresión de clase y de etnia, sobre el ingreso de grandes capas de la población. Así ha desarrollado investigaciones con mapas y visualizaciones de datos  como esta, que aborda la insuficiencia del salario mínimo, como en muchos otros, en su país.

Sebastián Oliva

Sebastián se interesó por la computación desde una temprana edad. Cursó estudios universitarios en Ingeniería y Física. Sin embargo, mantuvo siempre un profundo interés por las ciencias sociales y la interacción y aplicaciones interdisciplinarias de las ciencias exactas. Sebastián ha trabajado tanto para empresas de tecnología, como para varios proyectos relacionados con tecnología y sociedad, como la creación de software y hardware libre en su natal Guatemala.

Hizo una pasantía en Google, en la división de nube, trabajando con almacenamiento no relacional y adquiriendo conocimientos en Python. Fue parte de los equipos ganadores de DAL 2014 y finalista del Space Apps Challenge 2014. Su interés por Escuela de Datos se dá naturalmente al alinear el impacto social con capacidades técnicas de análisis, extracción, procesamiento y presentación de datos. Entre sus otros intereses se encuentra la fotografía, principalmente​ documental, y los juegos de estrategia y rol.

Datos abiertos sobre proyectos mineros y petroleros en ConDatos

Julio López - el Agosto 18, 2017 en Expediciones de Datos, Fuentes de datos

Estudios de caso de América Latina

En los últimos años, una cantidad creciente de información sobre los sectores mineros y petroleros se ha estado poniendo a disposición del público. Sin embargo, esta información puede ser difícil de encontrar, sistematizar e interpretar; ya sea para usarla en análisis, investigación, activismo o incluso implementar proyectos con datos.

En este taller en el marco de Condatos en Costa Rica, colaboramos con el Instituto para la Gobernanza de los Recursos Naturales (NRGI) y nos enfocaremos en un tipo concreto de información disponible de distintas fuentes: los pagos de las empresas mineras y petroleras a los gobiernos de los países productores de estos recursos naturales. Estos están desagregados por empresa, por país, por proyecto y por tipo de pago (regalías, impuestos, etc.)

¿Dónde encontramos esta información? ¿Qué significa? ¿Para qué la podemos usar?

Si te interesa saber la respuesta a estas preguntas, analizando casos concretos de proyectos mineros y petroleros en el Perú y en Colombia, ¡participa en el taller!

  • Fecha: Viernes, 25 de agosto, 2017
  • Lugar: Centro Nacional de la Cultura (CENAC), San José, Costa Rica.
  • Horario: 9am – 11am

Sobre los facilitadores:

Claudia Viale

Licenciada en Economía por la Pontificia Universidad Católica del Perú, con una maestría en Gestión de Recursos Naturales y Medio Ambiente de la Universidad Libre de Amsterdam. Es Oficial de Programa del Instituto para la Gobernanza de los Recursos Naturales (NRGI), encargada de coordinar los proyectos de investigación relacionados a las industrias extractivas para la región América Latina. Ha trabajado temas como la distribución de los ingresos fiscales de la minería y los hidrocarburos a gobiernos subnacionales, su gasto e impacto en las economías locales.

Julio López Peña (@jalp_ec)

Economista ecuatoriano, investigador-consultor en el sector de energía, datos abiertos, y recursos naturales. Ha participado en varios proyectos en América Latina con el Banco Interamericano de Desarrollo (BID), la Organización Latinoamericana de Energía (OLADE) y varias ONGs y think tanks. Es fellow de la generación 2015 de Escuela de Datos y co-fundador de Datalat, desde donde ha trabajado con ciudadanos, organizaciones civiles y periodistas en el uso de datos abiertos en Ecuador y la región. Julio estudió una maestría en gestión de energía y recursos de la Universidad Colegio de Lóndres (UCL).

Del Storytelling al StoryMap: espacializando Datos Abiertos en Colombia

invitado - el Agosto 16, 2017 en Experiencias, Guest posts, Tutoriales

Desde Bogotá D.C., Andrés Forero  , especialista en GIS y datos geográficos, nos envía este post como una introducción a una serie tutorial sobre datos geográficos y cómo podemos aprovecharlos desde distintos softwares para su edición y publicación.

Bien sabemos la importancia de los datos en nuestra sociedad hoy en día; grandes empresas almacenan sobre una base de datos información que describe gustos, costumbres y actividades personales. Si tienes una sesión activa desde una cuenta Google o Microsoft y deseas buscar un vuelo que vaya desde Bogotá hasta Ciudad de México, es probable que aparezca en tu pantalla, minutos u horas después, promociones en diferentes aerolíneas para que salgas del país. Si abres Instagram y buscas como etiqueta #Tulúm o #Cartagena, el aplicativo probablemente te sugiera lugares para pasar vacaciones junto a la playa a través de un anuncio.

Los datos gubernamentales no son la excepción. Haz de cuenta que desde el momento en que empezaste a leer este artículo han robado a diez personas en tu ciudad. ¿Qué variables puedes analizar allí?

El mapa anterior muestra algunos delitos reportados en la ciudad de Cali, los cuales pueden ser consultados y descargados directamente desde el Portal de Datos Abiertos de Colombia.

Entender la información geográfica es una iniciativa que debe ir tomando forma y debe inculcarse desde a la sociedad civil hacia los tomadores de decisiones. Las oportunidades y debilidades que presenta un dato geográfico son las mismas que presenta esa tabla que necesitas para procesar en un software estadístico pero que es publicada como PDF.

Cuando pides un UBER, los puntos de partida y de llegada que estableces deben estar ligados a un sistema de coordenadas. La dirección que escribes debe estar estructurada y estandarizada para que pueda identificarse en el aplicativo.

Ahora, haz de cuenta que una persona llama a la policía para reportar el robo de sus pertenencias en Cali; conocer con exactitud el lugar donde sucedió el evento puede resultar en análisis espaciales robustos que permitan establecer la cobertura de patrullas de policía para atender áreas específicas o establecer programas que garanticen seguridad hacia la sociedad civil.

Hacer proyectos de este tipo no son para nada complejos, por el contrario, existen herramientas que facilitan el procesamiento de esta información ya sea desde software libre o software licenciado gratuito para desarrolladores y para usted, amigo datero. ¡Todos somos parte del cambio!

Aquí hay algunos recursos online para que puedas conocer las ventajas y desventajas asociadas con los Sistemas de Información Geográfica: QGIS como software libre brinda la posibilidad de utilizarlo gratuitamente desde cualquier computadora, aquí encuentras cómo puedes utilizarlo. Por otro lado, ArcGIS Online es una alternativa que permite realizar análisis en la nube únicamente creando una cuenta como desarrollador, la cual es gratuita. aquí encuentras cómo puedes utilizarlo.

Integrarlos puede ser útil. Por ejemplo, desde el escritorio puedo establecer cuáles son los campos que veré posteriormente sobre un mapa: ¿Necesito la fecha? ¿Necesito el nombre del delito? ¿Habrá que modificar la simbología? Estos procesamientos que pueden llegar a ser complejos para alguien quien inicia en el mundo SIG puede hacerlo desde QGIS. Teniendo establecido qué información quieres publicar, ArcGIS Online te permitirá visualizar este contenido desde la web y allí hacer análisis únicamente seleccionando qué deseas utilizar.

Imagen 1. Análisis en ArcGIS Online
Fuente: autoría propia.

 

Observemos este mapa

 

Agregando los delitos a la capa de comunas podemos establecer cuál de ellas presenta mayor criminalidad con un criterio de clasificación.

Este análisis es solo una introducción de qué se puede llegar a hacer y cómo podemos empezar a construir soluciones innovadoras bajo un contexto netamente espacial. Bienvenidos al infoactivismo geográfico.

¿Cómo elegir gráficos según las seis W del periodismo?

invitado - el Agosto 9, 2017 en Fuentes de datos, Guest posts

Screen_Shot_2017_08_09_at_1_44_48_PM

Este post es una contribución de Hassel Fallas, periodista costarricense basada en análisis de datos, quien lo escribió originalmente para su sitio La Data Cuenta. Escuela de Datos replica este y otros contenidos de La Data Cuenta con autorización de la autora.

 

 


Elegir el gráfico más apropiado para contar tu historia con datos es una de las decisiones más cuidadosas que como periodista debes enfrentar.

¿Por qué? Simplemente  los gráficos no son accesorios para que un artículo se vea “más lindo”. Si los gráficos no cuentan una historia en sí mismos, sino son claros, comprensibles, usables, capaces de informar y de generar conocimiento- de un vistazo- los convertirás en una pérdida de tiempo y de espacio.

Tampoco los puedes seleccionar basándote en tu gusto personal y criterios estéticos, aconseja Alberto Cairo en su libro El arte funcional.

Una de las mejores formas de elegirlos es aplicando la lógica de las 6 W, las mismas que aprendiste desde el inicio de tu carrera para darle estructura a una noticia.

Esa es la idea de Fréderik Ruys, diseñador y periodista basado en análisis de datos en Holanda, quien creó este sistema que llama Taxonomía del infográfico, una combinación de preguntas básicas y la forma más recomendable de responderlas de manera visual.

Su infografía ha sido de tanta utilidad en mi trabajo como periodista de datos que la traduje al español-muy libremente- para quienes deseen emplearla como material de consulta.

Taxonomi_a_de_visualizacio_n

La puedes descargar en PDF aquí

Si te es útil, ¡compártela!

 

Datos para fiscalizar a municipios en Argentina

invitado - el Agosto 2, 2017 en Uncategorized

En un entorno donde los datos locales se hacen cada vez más necesarios y relevantes, Datos Concepción, organización evangelista sobre datos abiertos en Argentina, lanzó un portal de apertura de datos municipales con visualizaciones interactivas, filtros para bucear en los datos y bases descargables para que puedan ser reutilizadas en nuevas aplicaciones y herramientas.

En esta colaboración, Adrián Pino, coordinador de Datos Concepción y Soledad Arreguez, periodista, investigadora y colaboradora de la misma organización, comparten cinco aprendizajes clave sobre la creación y navegación del portal de datos abiertos.

El proyecto nació hace un año con la meta de montar el primer portal de transparencia de la provincia de Entre Ríos (Argentina) para la Municipalidad de Concepción del Uruguay. La plataforma se lanzó el lunes 4 de Julio de 2017 y ya está en línea en www.concepciontransparente.org.   desde allí es posible el acceso a los gastos del Municipio desde 2009 hasta la actualidad.
La plataforma (en versión beta) permite a los usuarios filtrar y visualizar el régimen de contrataciones y otras modalidades a partir de la información oficial que publica la Municipalidad, incluyendo la cantidad de órdenes de compra, el ranking de obra pública y el monto que percibió cada proveedor.

El coordinador de Datos Concepción, Adrián Pino,  dijo que “el desafío implicó pensar en una herramienta dinámica, simple de entender para el común de los usuarios y con una fuerte apuesta a estructurar los datos de forma clara y ordenada para que sea fácil efectuar búsquedas, seleccionar proveedores y descargar la información”.

Aprendizajes

1. Mostrar los contratistas de la Obra Pública

 

 

 

La enorme sensibilidad que despiertan los hechos de corrupción vinculados a las coimas en las obras Públicas vuelve necesario exhibir un Ranking de Contratos de Obra Pública para dar seguimiento a los principales beneficiarios de este rubro. No hay transparencia posible si no se identifica claramente quiénes son los principales contratistas de la obra pública, cuántos contratos recibieron y por cuánto dinero.

2. Filtros para bucear en los datos

Para promover un gobierno transparente hay que permitir que todas las contrataciones estén disponibles y en línea, y puedan ser exploradas con filtros para comparar. El control cruzado de proveedores y los procesos de auditoría cívica que permite el Portal Concepción Transparente marcan un piso elevado para los intentos de corrupción. La posibilidad de interactuar con los datos es crucial en este tipo de proyectos.

 

 

 

 

 

 

 

 

 

 

 

3. Permitir el análisis a través del tiempo

Si se muestra información a partir de los años disponibles, es posible trabajar con el filtro de fecha, que permite analizar algunos patrones en los datos y gastos de los Municipios.

4. Visualizaciones interactivas.

La sencillez y claridad de las visualizaciones es una necesidad creciente entre los Portales de Transparencia, que tienen la enorme misión de ayudar a los ciudadanos a entender el destino de los dineros públicos.

 

 

 

 

 

 

 

 

5. Datos Abiertos

La disponibilidad para descargar los datos en formatos abiertos es un requisito cada vez más necesario en la promoción de formas de empoderamiento que impulsan los procesos de apertura y transparencia de datos públicos. Con más datos en poder de los usuarios, es más probable que haya mejores controles para evitar el desvío de fondos públicos.

El desafío de escalar

El trabajo de Datos Concepción en el desarrollo de esta herramienta contó con las aportaciones del equipo de Genosha y se estructuró con un esquema que permite ser adaptado a los requerimientos de otros Municipios de Latinoamérica. En esta etapa posterior al lanzamiento estamos mejorando las prestaciones del Portal, agregando funcionalidades y visualizaciones que mejoren la comprensión de los gastos de cada Municipio.

El esfuerzo de nuestro equipo está enfocado en ciudades de hasta 300 mil habitantes, entendiendo que los Municipios de menor cantidad de población son los que requieren más acompañamiento para avanzar en políticas de Transparencia y Apertura de Datos.

En este momento el equipo de Datos Concepción está a la búsqueda de financiamiento adicional que les permita escalar a otros Municipios de Latinoamérica que ya han mostrado interés en replicar este Portal de Transparencia.

Cómo entender el presupuesto, caso de éxito de un MOOC en México

Marcos Ge - el Julio 29, 2017 en Uncategorized

 

Cómo Entender el Presupuesto, el Gasto Público a través de los Datos es un curso masivo en línea ocurrido en México entre marzo y abril de 2017.  Es un ejemplo de la colaboración entre organizaciones civiles como Socialtic e instancias gubernamentales mexicanas como la Secretaría de Hacienda y Crédito Público (SHCP).

En esta entrevista Lorena Rivero, directora del área de monitoreo del desempeño y análisis de la información en la SHCP, relata junto con Sergio Araiza, responsable del área de datos en Socialtic, los logros del curso masivo.

Con apenas tres semanas de registro, reunió a 17 mil 500 estudiantes, de los cuales cerca de la mitad comenzó alguna de las actividades. De estas personas 70 por ciento aprobó el curso, un número inusitado para capacitaciones de esta naturaleza.

La mitad de ellos, además, aprobó con un puntaje mayor a 95. Los estudiantes fueron principalmente servidores públicos (alrededor del 80 por ciento) académicos (12%), integrantes de la iniciativa privada y organizaciones civiles formaron el resto.

A través de este curso y el anterior, uno que SHCP organizó en colaboración con la Universidad Nacional Autónoma de México (UNAM), Rivero ha llegado a la conclusión de que los datos locales son los más relevantes para la comunidad general y, por lo tanto, los más valiosos y los que más apremian cursos como Entender el Presupuesto.

Dada la demanda, se prevé que se abra una nueva edición próximamente.

Limpieza y transformaciones de datos con Python II

invitado - el Julio 26, 2017 en Fuentes de datos, Guest posts, Tutoriales, Uncategorized

Desde Escuela de Datos, Sebastián Oliva, fellow 2017, enseña cómo usar la librería de Pandas, Numpy y Seaborn para Python para hacer manipulaciones, transformaciones y tablas dinámicas o pivotes. En este ejercicio vimos cómo hacer un stack, agrupaciones, e incluso cómo usar un hash para hacer anónimos algunos de nuestros datos sin perder granularidad.
Pues seguir el webinar del 26 de julio paso a paso en el cuaderno que compartimos contigo. También puedes consultar el cuaderno de trabajo de Sebastián aquí.

Estas son las librerías que usaremos y que es requerido importar para nuestro ejercicio.
In [1]:
import pandas as pd
import numpy as np
import seaborn
%pylab notebook

import hashlib
import humanhash

Tablas Pivote

Es muy común la agrupación de información en formato ‘stack’ donde tenemos filas de datos que demuestran una correlación entre dos sets de valores.

Las tablas pivote son una forma de re-ordenar los datos en una estructura tabular donde podemos agrupar los valores convirtiendo las tuplas entre valores numéricos.

En este caso de ejemplo, crearemos un dataset de prueba con la diversidad de restaurantes en varias ciudades centroamericanas. En esta vamos a comenzar a trabajar con dos columnas, una donde describe cada ciudad y la otra con la variedad de cocina disponible en cada una.

In [2]:
data_restaurantes = {
    'ciudades': ['Guatemala','Guatemala','Guatemala','Guatemala','Guatemala','Guatemala','San José','San José','San José','San José','San José','San Salvador','San Salvador','San Salvador'],
    'culinaria': ['Chapina','Chapina','China','Thai','Italiana','Chapina','Italiana','China','Tica','Chapina','Tica','Tica','Italiana','China']
}

restaurantes_dataframe_pares = pd.DataFrame(data_restaurantes)
restaurantes_dataframe_pares
Out[2]:
ciudades culinaria
0 Guatemala Chapina
1 Guatemala Chapina
2 Guatemala China
3 Guatemala Thai
4 Guatemala Italiana
5 Guatemala Chapina
6 San José Italiana
7 San José China
8 San José Tica
9 San José Chapina
10 San José Tica
11 San Salvador Tica
12 San Salvador Italiana
13 San Salvador China

Podemos ver entonces este listado de valores, tupla por tupla. Que tal si queremos contar la presencia de cada tipo de cocina en cada región. Probemos utilizando entonces el comando DataFrame.pivot_table de Pandas.

Este pide unos cuantos argumentos los que podemos ver en la documentación. Unos cuantos son obvios, como el definir las filas y columnas que esperamos de la tabla objetivo. Sin embargo, lo más notable es que ya que los tipos de datos que estamos utilizando no son numéricos, es necesario que definamos una funcion de agrupación que nos permita contar la cantidad de instancias de cada combinación.

In [3]:
def funcion_agrupacion(elemento):
    return True

agrupacion_culinaria = restaurantes_dataframe_pares.pivot_table(
    index=["ciudades"],
    columns="culinaria",
    aggfunc=funcion_agrupacion,
    fill_value=False)
agrupacion_culinaria
Out[3]:
culinaria Chapina China Italiana Thai Tica
ciudades
Guatemala True True True True False
San José True True True False True
San Salvador False True True False True

Hmm, esto ya se ve con la forma que queremos, sin embargo solo nos muestra la presencia o ausencia de algún tipo de cocina. Esto es fácil de explicar ya que definimos nuestra función de agrupación como retornar True si existe presencia a retornar False si No. ¿Qué tal si hacemos una mejor función de agrupación?

In [4]:
def funcion_agrupacion(elemento):
    '''Contemos cuantas instancias de cada tupla existen.'''
    ## El comando len(iterable) cuenta la cantidad de elementos que tiene el objeto iterable que le pasemos
    ## los elementos iterables pueden ser listas normales, Series de NumPy o Pandas, o diccionarios y otros tipos de datos.
    return len(elemento)
agrupacion_culinaria = restaurantes_dataframe_pares.pivot_table(index=["ciudades"], columns="culinaria", aggfunc=lambda x: funcion_agrupacion(x), fill_value=0)
agrupacion_culinaria
Out[4]:
culinaria Chapina China Italiana Thai Tica
ciudades
Guatemala 3 1 1 1 0
San José 1 1 1 0 2
San Salvador 0 1 1 0 1

¡Genial! Ahora ya tenemos agrupadas estas de una forma coherente. Ahora ya podemos seguir manipulando y editando estos datos. Pero, ¿qué tal si hacemos un poco más simple esta llamada? Al final nuestra función de agrupación lo unico que hace es contar la cantidad de tuplas sobre las cuales aplica el pivote. ¿Qué tal si lo hacemos un poco más simple?

In [5]:
agrupacion_culinaria = restaurantes_dataframe_pares.pivot_table(
    index=["ciudades"], 
    columns="culinaria", 
    aggfunc=len, ## Enviamos directamente la función de agrupación. Entre otras funcionas de agrupacíon útiles está np.sum (la función de suma de NumPy) y np.mean (media)
    fill_value=0)
agrupacion_culinaria
Out[5]:
culinaria Chapina China Italiana Thai Tica
ciudades
Guatemala 3 1 1 1 0
San José 1 1 1 0 2
San Salvador 0 1 1 0 1

Claro, la tabla resultante se comporta exactamente igual y tiene todas las propiedades nativas de los DataFrames. ¿Qué tal si limitamos la query a solo los lugares en ciudad de Guatemala?

In [6]:
agrupacion_culinaria.query('ciudades == ["Guatemala"]')
Out[6]:
culinaria Chapina China Italiana Thai Tica
ciudades
Guatemala 3 1 1 1 0
In [7]:
help(restaurantes_dataframe_pares.pivot_table)
Help on method pivot_table in module pandas.core.reshape.pivot:

pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All') method of pandas.core.frame.DataFrame instance
    Create a spreadsheet-style pivot table as a DataFrame. The levels in the
    pivot table will be stored in MultiIndex objects (hierarchical indexes) on
    the index and columns of the result DataFrame
    
    Parameters
    ----------
    data : DataFrame
    values : column to aggregate, optional
    index : column, Grouper, array, or list of the previous
        If an array is passed, it must be the same length as the data. The list
        can contain any of the other types (except list).
        Keys to group by on the pivot table index.  If an array is passed, it
        is being used as the same manner as column values.
    columns : column, Grouper, array, or list of the previous
        If an array is passed, it must be the same length as the data. The list
        can contain any of the other types (except list).
        Keys to group by on the pivot table column.  If an array is passed, it
        is being used as the same manner as column values.
    aggfunc : function or list of functions, default numpy.mean
        If list of functions passed, the resulting pivot table will have
        hierarchical columns whose top level are the function names (inferred
        from the function objects themselves)
    fill_value : scalar, default None
        Value to replace missing values with
    margins : boolean, default False
        Add all row / columns (e.g. for subtotal / grand totals)
    dropna : boolean, default True
        Do not include columns whose entries are all NaN
    margins_name : string, default 'All'
        Name of the row / column that will contain the totals
        when margins is True.
    
    Examples
    --------
    >>> df
       A   B   C      D
    0  foo one small  1
    1  foo one large  2
    2  foo one large  2
    3  foo two small  3
    4  foo two small  3
    5  bar one large  4
    6  bar one small  5
    7  bar two small  6
    8  bar two large  7
    
    >>> table = pivot_table(df, values='D', index=['A', 'B'],
    ...                     columns=['C'], aggfunc=np.sum)
    >>> table
              small  large
    foo  one  1      4
         two  6      NaN
    bar  one  5      4
         two  6      7
    
    Returns
    -------
    table : DataFrame
    
    See also
    --------
    DataFrame.pivot : pivot without aggregation that can handle
        non-numeric data

In [8]:
## Con el argumento Margins, Panda calcula los valores sumados de los totales por agrupación.
agrupacion_culinaria_m = restaurantes_dataframe_pares.pivot_table(
    index=["ciudades"],
    columns="culinaria",
    aggfunc=len,
    fill_value=0,
    margins=True,
    margins_name="Total")
agrupacion_culinaria_m
Out[8]:
culinaria Chapina China Italiana Thai Tica Total
ciudades
Guatemala 3.0 1.0 1.0 1.0 0.0 6.0
San José 1.0 1.0 1.0 0.0 2.0 5.0
San Salvador 0.0 1.0 1.0 0.0 1.0 3.0
Total 4.0 3.0 3.0 1.0 3.0 14.0

Múltiples Valores y Múltiples Indices

¿Qué tal si tenemos datos que tienen una estructura Jerárquica inherente? Podemos utilizar la misma forma de multi indexación que vimos en el seminario pasado, lo importante es que a la hora de la definición del índice, Pandas es capaz de manipularlos e inteligentemente ordenar los niveles acorde.

In [9]:
restaurantes_dataframe_pares['estrellas'] = [5,3,3,5,3,1,2,2,4,3,4,3,2,3]
restaurantes_dataframe_estrellas = restaurantes_dataframe_pares
restaurantes_dataframe_estrellas
Out[9]:
ciudades culinaria estrellas
0 Guatemala Chapina 5
1 Guatemala Chapina 3
2 Guatemala China 3
3 Guatemala Thai 5
4 Guatemala Italiana 3
5 Guatemala Chapina 1
6 San José Italiana 2
7 San José China 2
8 San José Tica 4
9 San José Chapina 3
10 San José Tica 4
11 San Salvador Tica 3
12 San Salvador Italiana 2
13 San Salvador China 3

Pivotando sobre la especialidad culinaria y estrellas, podemos las ciudades con la mayor oferta culinaria, o cuales tienen el mejor promedio de estrellas.

In [10]:
agrupacion_culinaria_promedio_estrellas = restaurantes_dataframe_estrellas.pivot_table(
    index=["ciudades"], 
    values=["culinaria", "estrellas"], 
    aggfunc={"culinaria":len,"estrellas":np.mean},
    fill_value=0)
agrupacion_culinaria_promedio_estrellas
Out[10]:
culinaria estrellas
ciudades
Guatemala 6 3.333333
San José 5 3.000000
San Salvador 3 2.666667

¿Qué tal si queremos ver cuantas estrellas en promedio tienen los restaurantes, por clase de comida, por ciudad?

In [11]:
agrupacion_culinaria_por_estrellas = restaurantes_dataframe_estrellas.pivot_table(
    index=["culinaria"], 
    values=["estrellas"], 
    columns=["estrellas"],
    aggfunc={"estrellas":np.mean},
    fill_value=0)
agrupacion_culinaria_por_estrellas
Out[11]:
estrellas
estrellas 1 2 3 4 5
culinaria
Chapina 1 0 3 0 5
China 0 2 3 0 0
Italiana 0 2 3 0 0
Thai 0 0 0 0 5
Tica 0 0 3 4 0
In [12]:
agrupacion_culinaria_por_estrellas = restaurantes_dataframe_estrellas.pivot_table(
    index=["culinaria"], 
    values=["estrellas"], 
    columns=["estrellas"],
    aggfunc={"estrellas":len},
    fill_value=0)
agrupacion_culinaria_por_estrellas
Out[12]:
estrellas
estrellas 1 2 3 4 5
culinaria
Chapina 1 0 2 0 1
China 0 1 2 0 0
Italiana 0 2 1 0 0
Thai 0 0 0 0 1
Tica 0 0 1 2 0

Hmm… esto no es muy útil, solo nos dice tautológicamente, que los restaurantes de ‘n’ estrellas tienen ‘n’ estrellas. ¿Pueden ver porque el error?

In [13]:
agrupacion_culinaria_por_estrellas = restaurantes_dataframe_estrellas.pivot_table(
    index=["ciudades"], 
    values=["estrellas"], 
    columns=["culinaria"], ## Aqui es obvio ver que lo que queremos es diferenciar por variedad culinaria.
    aggfunc={"estrellas":np.mean},
    fill_value=0)
agrupacion_culinaria_por_estrellas
Out[13]:
estrellas
culinaria Chapina China Italiana Thai Tica
ciudades
Guatemala 3 3 3 5 0
San José 3 2 2 0 4
San Salvador 0 3 2 0 3
In [14]:
agrupacion_culinaria_por_estrellas.plot(kind="bar")
<IPython.core.display.Javascript object>
Out[14]:
<matplotlib.axes._subplots.AxesSubplot at 0x7fc53ffa1a58>

Entonces, recapitulando:

¿De qué nos sirven las tablas pivote?

¿Que clase de operación representan?

¿En que casos podemos usarlas?

Agrupando, parte dos

Ya vimos algunos de los criterios básicos de agrupación en el primer webinar, ahora podemos avanzar un poco, combinando agrupación con pivote.

Tambien podemos usar stack, que es otra forma de agrupación basada en índices.

In [15]:
maga_fitosanitario = pd.read_csv("MAGA - CERTIFICADOS FITOSANITARIOS.csv")
In [16]:
hashlib.md5("Hola".encode("UTF-8")).hexdigest()
Out[16]:
'f688ae26e9cfa3ba6235477831d5122e'
In [17]:
pd.set_option('display.float_format', lambda x: '%.1f' % x)

## Vamos a limpiar un poco de información
def ofusca_nombre(nombre):
    return humanhash.humanize(hashlib.md5(nombre.encode("UTF-8")).hexdigest())

maga_fitosanitario["Solicitante"] = maga_fitosanitario["Solicitante"].map(ofusca_nombre)
maga_fitosanitario["Fecha Autorización"] = maga_fitosanitario["Fecha Autorización"].map(pd.Timestamp)
In [18]:
def clean_q(input_object):
    from re import sub  ## importamos la función sub, que substituye utilizando patrones
    ## https://es.wikipedia.org/wiki/Expresión_regular
    
    ## NaN es un objeto especial que representa un valor numérico invalido, Not A Number.
    if input_object == NaN:
        return 0
    inp = unicode(input_object) # De objeto a un texto
    cleansed_00 = sub(r'\.000', '000', inp) 
    cleansed_nonchar = sub(r'[^0-9]+', '', cleansed_00)
    if cleansed_nonchar == '':
        return 0
    return cleansed_nonchar

maga_fitosanitario["Kg. Netos"] = maga_fitosanitario["Kg. Netos"].map(clean_q).astype(float)
In [36]:
maga_fitosanitario["Kg. Netos"].head()
Out[36]:
0   1360779.0
1    816467.0
2   3483624.0
3   3483624.0
4    151800.0
Name: Kg. Netos, dtype: float64
In [20]:
maga_fitosanitario = pd.read_csv("MAGA - CERTIFICADOS FITOSANITARIOS - LIMPIO.csv")
maga_fitosanitario.head()
Out[20]:
Incidente Fecha Autorización Solicitante Permiso Producto Categoría CIF $ Kg. Netos Aduana País procedencia País origen Otra fuente de origen
0 49 2014-04-04 sodium-pasta-glucose-mexico 142432 CASCARILLA DE ARROZ MATERIA PRIMA PARA CONCENTRADOS 125.0 1360779.0 MELCHOR DE MENCOS Belice Belice NaN
1 50 2014-04-04 sodium-pasta-glucose-mexico 142425 CASCARILLA DE ARROZ MATERIA PRIMA PARA CONCENTRADOS 75.0 816467.0 MELCHOR DE MENCOS Belice Belice NaN
2 275 2014-07-04 robert-vermont-one-robert 142479 CASCARILLA DE ARROZ MATERIA PRIMA PARA CONCENTRADOS 2584.1 3483624.0 PEDRO DE ALVARADO Nicaragua Nicaragua NaN
3 276 2014-07-04 robert-vermont-one-robert 142480 CASCARILLA DE ARROZ MATERIA PRIMA PARA CONCENTRADOS 2584.1 3483624.0 PEDRO DE ALVARADO Nicaragua Nicaragua NaN
4 177 2014-07-04 zebra-missouri-arkansas-island 142478 HARINA DE TRIGO HARINA DE TRIGO 81601.2 151800.0 TECUN UMAN México México NaN
In [21]:
maga_fitosanitario.groupby("Producto").sum().sort_values("CIF $", ascending=False).head(20)
Out[21]:
Permiso CIF $ Kg. Netos
Producto
MAIZ AMARILLO 53491946 183595249.4 2753711966.0
HARINA DE SOYA 18899910 56391529.9 177684115.0
ARROZ EN GRANZA 3201212 24568825.5 59041504.0
HARINA DE TRIGO 76664602 24272107.3 54953080.0
AJONJOLI NATURAL 9215686 15985707.0 20396870.0
ARROZ GRANZA 15088878 13883822.8 57978262.0
ALGODON 9014988 12028250.9 200973442.0
ALGODON SIN CARDAR NI PEINAR 5222374 8151960.6 19619672.0
MADERA DE PINO (SECA) 9285734 6498009.3 11404341.0
ARROZ 8758770 6111828.4 9988554.0
FRIJOL SOYA 1596785 5624212.9 17070365.0
MANZANAS 33723186 5591158.4 20625086.0
SEMOLA DE TRIGO 56157142 4567556.7 8012544.0
FRIJOL DE SOYA 434597 4262725.7 7231349.0
SEMILLA DE MELON 6774325 4132506.5 1113131.0
MAIZ BLANCO 4420695 4036005.2 161351106.0
AVENA PELADA Y ESTABILIZADA 3052102 3316810.3 51045868.0
MALTA DE CEBADA 440964 3160297.3 5316000.0
HARINA DE MAIZ 35816036 3134320.9 5236321.0
ALGODON SIN PEINAR NI CARDAR 1309843 2879479.1 1354471.0
In [22]:
maga_productos_pivot = maga_fitosanitario.pivot_table(
    index=["Categoría", "Producto"], 
    values=["CIF $", "Permiso","Kg. Netos"], 
    aggfunc={"CIF $":np.sum,"Permiso":len, "Kg. Netos": np.sum},
    fill_value=0)
In [23]:
maga_productos_pivot
Out[23]:
CIF $ Kg. Netos Permiso
Categoría Producto
AJONJOLI AJONJOLI DESCORTEZADO 250093.8 94375 1
AJONJOLI NATURAL 10702707.0 15867870 46
ALGODÓN ALGODON 12028250.9 200973442 62
ALGODON (BLANQUEADO) 52969.2 185857 1
ALGODON (EN PACAS) 35604.5 21805 1
ALGODON (PACAS) 48087.7 21830 1
ALGODON (SIN CARDAR NI PEINAR) 1934207.8 858309 10
ALGODON (SIN PEINAR NI CARDAR) 507479.4 238664 2
ALGODON BLANQUEADO 52658.4 175528 1
ALGODON SI CARDAR NI PEINAR 45158.1 19791 1
ALGODON SIN CARDAR NI PEINAR 8151960.6 19619672 36
ALGODON SIN PEINAR NI CARDAR 2879479.1 1354471 9
DESPERDICIO DE HILADOS DE ALGODON 32070.3 2148381 2
PACAS DE ALGODON 371093.7 196171 9
ALMIDON DE MAIZ ALMIDON (GLOBE AA SPV/25 KG) DE MAIZ 12500.0 20000 1
ALMIDON DE MAIZ 487747.5 872125 19
ALMIDON DE MAIZ (CORRUPAC) 13515.0 21250 1
ALMIDON DE MAIZ AA 7075.0 12500 1
ALMIDON DE MAIZ CORRUPAC 59038.5 105000 5
ALPISTE ALPISTE 54856.6 5048035 3
ARBOLES NATURALES SEMILLA DE TECA (TECTONA GRANDIS) 1388.6 60 1
SEMILLAS DE ARBOLES (Lluvia de oro y Papaya) 66.0 1 1
SEMILLAS DE ARBOLES (Lluvia de oro, Papaya y Strelizia) 127.6 22 1
ARROZ ARROZ 6111828.4 9988554 60
ARROZ (PARBOIL) 97606.0 11965890 2
ARROZ EN GRANO 20400.5 36114 4
ARROZ EN GRANZA 21791713.2 52447074 20
ARROZ EN ORO 55507.9 16873826 4
ARROZ ESCALDADO 240050.0 661234 10
ARROZ GRANZA 13883822.8 57978262 104
SUSTRATOS FIBRA DE COCO 78753.3 101682 4
FIBRA DE COCO (SUSTRATO) 117332.5 172140 7
FIBRA DE COCO TRATADA 132302.4 2770913 5
FIBRA DE ESTOPA DE COCO 375.0 6000 1
PEAT MOSS 655093.3 1226466 25
PEAT MOSS (BOLSAS DE ENRAIZADORES) 16425.0 48700 1
PEAT MOSS (SUSTRATO ) 3258.7 114288 1
PEAT MOSS (SUSTRATO DARK VEGETABLE MIX) 7151.8 23026 1
PEAT MOSS (SUSTRATO DE TURBA) 16068.0 71590 1
PEAT MOSS (SUSTRATO) 99434.2 263060 3
PEAT MOSS (TURBA) 213577.5 219207 3
PEAT MOSS SPHAGNUM (SUSTRATO DE TURBA) 15803.5 44000 1
PEAT SPHAGNUM 6905.0 21700 1
PEAT SPHAGNUM (SOD PEAT 0-20 NEUTRALIZED) 6870.5 22800 1
POLVO DE ESTOPA DE COCO 1750.0 8400 1
SUSTRATO ABONO DE TURBA 7795.6 22000 1
SUSTRATO DE COCO (COCOS NUCIFERA) 500.0 1004 1
SUSTRATO PEAT MOSS SPHAGNUM SPP (ABONO DE ORIGEN VEGETAL) 7900.2 25700 1
SUSTRATO SPAGNUM (MUSGO ESPANGINEO SECO) 12740.0 3185 1
TABACO EN RAMA SEMILLA DE TABACO 73396.5 10480 5
SEMILLAS DE TABACO 68060.4 35477 2
TELA DE YUTE SACO DE YUTE 42250.0 18200 1
SACO DE YUTE (40X28″ 460 grms/m2) 21624.0 15640 1
SACO DE YUTE (40×28″ 460 grms/m2) 43248.0 31280 2
SACOS DE YUTE 265198.1 669894 7
SACOS DE YUTE (28X40″ 750GR) 42250.0 18200 1
TELA DE YUTE 392247.7 307970 14
TRIGO EN ESTADO NATURAL SEMILLA DE TRIGO 300.0 20 2
TRIGO 201382.9 506000 24
TRIGO (ROJO SUAVE DE INVIERNO) 517598.6 1600000 2

1227 rows × 3 columns

In [24]:
maga_aduanas_pivot = maga_fitosanitario.pivot_table(
    index=["País origen", "Aduana"], 
    values=["CIF $", "Kg. Netos"],
    aggfunc={"CIF $":np.sum,"Kg. Netos":np.mean},
    fill_value=0)
maga_aduanas_pivot
Out[24]:
CIF $ Kg. Netos
País origen Aduana
ALEMANIA EXPRESS AEREO 102326.9 408.7
PUERTO QUETZAL 1727517.6 3000000.0
SANTO TOMAS DE CASTILLA 10050.2 16000.0
ARGENTINA PEDRO DE ALVARADO 3166.1 306817.0
PUERTO BARRIOS 163440.7 72900.0
PUERTO QUETZAL 187991.7 45965.1
SANTO TOMAS DE CASTILLA 410929.5 42113.6
AUSTRALIA EXPRESS AEREO 94350.0 2775.0
PUERTO QUETZAL 26932.2 21375.0
SANTO TOMAS DE CASTILLA 113750.0 3464.0
TECUN UMAN 5803.1 546201.0
Alemania EXPRESS AEREO 29503.2 48.5
Argentina SANTO TOMAS DE CASTILLA 15510.0 22000.0
BANGLADESH PUERTO QUETZAL 48274.4 16425.0
SANTO TOMAS DE CASTILLA 72000.0 537894.0
BELGICA EXPRESS AEREO 91348.9 1203.0
PUERTO QUETZAL 1855830.6 1500078.0
TECUN UMAN 192549.9 65179.2
BELICE MELCHOR DE MENCOS 547047.4 1097158.3
BOLIVIA PUERTO QUETZAL 91800.0 18000.0
BRASIL EXPRESS AEREO 121048.1 11588.5
PUERTO BARRIOS 245407.8 17108.0
SANTO TOMAS DE CASTILLA 3604767.2 382245.2
BURKINA FASO SANTO TOMAS DE CASTILLA 42888.0 19500.0
Belice MELCHOR DE MENCOS 45400.0 578402.5
CANADÁ EXPRESS AEREO 72.1 458.0
PUERTO BARRIOS 551903.1 51886.2
PUERTO QUETZAL 908538.0 175239.1
SANTO TOMAS DE CASTILLA 1231395.6 94833.4
CHAD PUERTO QUETZAL 35640.0 18000.0
PERÚ EXPRESS AEREO 2572758.1 12905.7
PUERTO QUETZAL 341275.7 14211.7
SANTO TOMAS DE CASTILLA 49007.5 5258.3
POLONIA EXPRESS AEREO 6366.9 30.0
PORTUGAL EXPRESS AEREO 667.3 12.0
Países Bajos EXPRESS AEREO 6890.2 40.0
SANTO TOMAS DE CASTILLA 586587.1 18211.0
Perú EXPRESS AEREO 2428.0 500.0
REINO UNIDO EXPRESS AEREO 225.2 42.0
REPÚBLICA DOMINICANA SANTO TOMAS DE CASTILLA 734869.1 1859816.9
SRI LANKA PUERTO QUETZAL 711008.5 52775.5
SANTO TOMAS DE CASTILLA 665303.2 381409.6
SUDÁFRICA EXPRESS AEREO 310826.5 271127.0
SUDÁN PUERTO QUETZAL 36826.8 12412.5
SUECIA EXPRESS AEREO 72927.0 392008.0
PUERTO QUETZAL 1827487.7 1500000.0
TAILANDIA EXPRESS AEREO 226567.5 16619.1
PUERTO QUETZAL 28765.0 1750.0
TAIWAN EXPRESS AEREO 205971.6 11966.5
VALLE NUEVO 1200.0 70.0
TANZANIA PUERTO QUETZAL 330340.0 20000.0
TURQUÍA EXPRESS AEREO 262.9 145.0
URUGUAY SANTO TOMAS DE CASTILLA 1485896.5 103641.5
UZBEKISTÁN SANTO TOMAS DE CASTILLA 106000.0 100240.0
Uruguay SANTO TOMAS DE CASTILLA 59007.8 108215.0
VENEZUELA PUERTO QUETZAL 13881240.0 254221.7
SANTO TOMAS DE CASTILLA 1185600.0 197600.0
VIETNAM EXPRESS AEREO 163930.0 10129.0
PUERTO QUETZAL 420550.0 19750.0
YEMEN PUERTO QUETZAL 167528.0 24300.0

186 rows × 2 columns

Que tal si indagamos mas en las categorias que se importan de cada país.

In [25]:
maga_aduanas_pivot = maga_fitosanitario.pivot_table(
    index=["País origen", "Aduana", "Categoría"], 
    values=["CIF $"], 
    aggfunc={"CIF $":np.sum},
    fill_value=0)
maga_aduanas_pivot
Out[25]:
CIF $
País origen Aduana Categoría
ALEMANIA EXPRESS AEREO ESQUEJES RIZOMAS BULBOS 72024.6
MATERIA PRIMA PARA ALIMENTOS 19900.5
SEMILLAS DE FLORES 475.8
SEMILLAS DE HORTALIZA 9926.0
PUERTO QUETZAL MALTA 1727517.6
SANTO TOMAS DE CASTILLA MALTA 10050.2
ARGENTINA PEDRO DE ALVARADO MAIZ PARA CONSUMO HUMANO 3166.1
PUERTO BARRIOS FRIJOL NEGRO 139899.7
FRIJOL PINTO 23541.0
PUERTO QUETZAL FRUTAS 60811.9
GRANOS 108570.0
SEMILLAS DE FLORES 18609.9
SANTO TOMAS DE CASTILLA GRANOS 171417.0
MAIZ PARA CONSUMO HUMANO 89333.0
MAIZ PARA ELAB DE CONCENTRADOS 34881.5
SEMILLAS DE FLORES 94778.0
SEMILLAS DE HORTALIZA 20520.0
AUSTRALIA EXPRESS AEREO SEMILLAS DE HORTALIZA 94350.0
PUERTO QUETZAL MADERA CEPILLADA 26932.2
SANTO TOMAS DE CASTILLA SEMILLAS DE HORTALIZA 113750.0
TECUN UMAN MADERA ASERRADA 5803.1
Alemania EXPRESS AEREO ESQUEJES RIZOMAS BULBOS 26028.2
SEMILLAS DE HORTALIZA 3475.0
Argentina SANTO TOMAS DE CASTILLA SEMILLAS DE FLORES 15510.0
BANGLADESH PUERTO QUETZAL TELA DE YUTE 48274.4
SANTO TOMAS DE CASTILLA TELA DE YUTE 72000.0
BELGICA EXPRESS AEREO SEMILLAS DE HORTALIZA 91348.9
PUERTO QUETZAL MALTA 1855830.6
TECUN UMAN ALMIDON DE MAIZ 10500.0
HARINA DE TRIGO 162327.3
SUDÁN PUERTO QUETZAL ESPECIAS 36826.8
SUECIA EXPRESS AEREO SEMILLAS DE HORTALIZA 72927.0
PUERTO QUETZAL MALTA 1827487.7
TAILANDIA EXPRESS AEREO ESQUEJES RIZOMAS BULBOS 10223.5
FLORES 4288.4
SEMILLAS DE FLORES 5.2
SEMILLAS DE FRUTAS 611.3
SEMILLAS DE HORTALIZA 210959.6
SEMOLA DE TRIGO 479.6
PUERTO QUETZAL SEMILLAS DE HORTALIZA 28765.0
TAIWAN EXPRESS AEREO ESQUEJES RIZOMAS BULBOS 1152.0
FLORES 27781.0
SEMILLAS DE FRUTAS 80970.4
SEMILLAS DE HORTALIZA 96068.2
VALLE NUEVO FLORES 1200.0
TANZANIA PUERTO QUETZAL SEMILLAS DE FLORES 330340.0
TURQUÍA EXPRESS AEREO SEMILLAS DE FLORES 223.7
SEMILLAS DE HORTALIZA 39.2
URUGUAY SANTO TOMAS DE CASTILLA ARROZ 463200.0
MADERA ASERRADA 902423.4
MADERA CEPILLADA 120273.1
UZBEKISTÁN SANTO TOMAS DE CASTILLA ARROZ 106000.0
Uruguay SANTO TOMAS DE CASTILLA MADERA CEPILLADA 59007.8
VENEZUELA PUERTO QUETZAL AJONJOLI 8910240.0
HORTALIZAS 4971000.0
SANTO TOMAS DE CASTILLA AJONJOLI 873600.0
HORTALIZAS 312000.0
VIETNAM EXPRESS AEREO SEMILLAS DE HORTALIZA 163930.0
PUERTO QUETZAL ESPECIAS 420550.0
YEMEN PUERTO QUETZAL ESPECIAS 167528.0

569 rows × 1 columns

In [26]:
maga_aduanas_pivot_top10 = maga_aduanas_pivot.sort_values("CIF $", ascending=False).head(10)
In [27]:
maga_aduanas_pivot_top10.plot(kind="barh")
<IPython.core.display.Javascript object>
Out[27]:
<matplotlib.axes._subplots.AxesSubplot at 0x7fc53d5e0ac8>

Tambien es util mostrar la tabla, podemos ponerle un poco de estilo con la funcionalidad de Seaborn + Pandas

In [28]:
cm_paleta_verde = seaborn.light_palette("green", as_cmap=True)
s = maga_aduanas_pivot_top10.style.background_gradient(cmap=cm_paleta_verde)
s
Out[28]:
CIF $
País origen Aduana Categoría
ESTADOS UNIDOS PUERTO QUETZAL MAIZ PARA ELAB DE CONCENTRADOS 1.86755e+08
HARINA DE SOYA 5.61949e+07
ARROZ 3.27899e+07
SANTO TOMAS DE CASTILLA ALGODÓN 2.14909e+07
MEXICO TECUN UMAN HARINA DE TRIGO 1.86481e+07
VENEZUELA PUERTO QUETZAL AJONJOLI 8.91024e+06
ESTADOS UNIDOS PUERTO QUETZAL SOYA 8.52571e+06
FRUTAS 6.72475e+06
CHILE PUERTO QUETZAL MADERA ASERRADA 5.71528e+06
VENEZUELA PUERTO QUETZAL HORTALIZAS 4.971e+06
In [29]:
maga_aduanas_pivot = maga_fitosanitario.pivot_table(
    index=["País origen", "Aduana", "Categoría"], 
    values=["CIF $"], 
    aggfunc={"CIF $":np.sum},
    fill_value=0)
maga_aduanas_pivot
cm_paleta_verde = seaborn.light_palette("green", as_cmap=True)
s = maga_aduanas_pivot_top10.style.background_gradient(cmap=cm_paleta_verde)
s
Out[29]:
CIF $
País origen Aduana Categoría
ESTADOS UNIDOS PUERTO QUETZAL MAIZ PARA ELAB DE CONCENTRADOS 1.86755e+08
HARINA DE SOYA 5.61949e+07
ARROZ 3.27899e+07
SANTO TOMAS DE CASTILLA ALGODÓN 2.14909e+07
MEXICO TECUN UMAN HARINA DE TRIGO 1.86481e+07
VENEZUELA PUERTO QUETZAL AJONJOLI 8.91024e+06
ESTADOS UNIDOS PUERTO QUETZAL SOYA 8.52571e+06
FRUTAS 6.72475e+06
CHILE PUERTO QUETZAL MADERA ASERRADA 5.71528e+06
VENEZUELA PUERTO QUETZAL HORTALIZAS 4.971e+06
In [30]:
maga_fitosanitario
Out[30]:
Incidente Fecha Autorización Solicitante Permiso Producto Categoría CIF $ Kg. Netos Aduana País procedencia País origen Otra fuente de origen
0 49 2014-04-04 sodium-pasta-glucose-mexico 142432 CASCARILLA DE ARROZ MATERIA PRIMA PARA CONCENTRADOS 125.0 1360779.0 MELCHOR DE MENCOS Belice Belice NaN
1 50 2014-04-04 sodium-pasta-glucose-mexico 142425 CASCARILLA DE ARROZ MATERIA PRIMA PARA CONCENTRADOS 75.0 816467.0 MELCHOR DE MENCOS Belice Belice NaN
2 275 2014-07-04 robert-vermont-one-robert 142479 CASCARILLA DE ARROZ MATERIA PRIMA PARA CONCENTRADOS 2584.1 3483624.0 PEDRO DE ALVARADO Nicaragua Nicaragua NaN
3 276 2014-07-04 robert-vermont-one-robert 142480 CASCARILLA DE ARROZ MATERIA PRIMA PARA CONCENTRADOS 2584.1 3483624.0 PEDRO DE ALVARADO Nicaragua Nicaragua NaN
4 177 2014-07-04 zebra-missouri-arkansas-island 142478 HARINA DE TRIGO HARINA DE TRIGO 81601.2 151800.0 TECUN UMAN México México NaN
5 152 2014-07-04 beryllium-aspen-colorado-fish 142468 HARINA DE TRIGO HARINA DE TRIGO 11726.3 20866.0 SAN CRISTOBAL El Salvador El Salvador NaN
6 153 2014-07-04 beryllium-aspen-colorado-fish 142467 HARINA DE TRIGO HARINA DE TRIGO 11726.3 20866.0 SAN CRISTOBAL El Salvador El Salvador NaN
7 155 2014-07-04 beryllium-aspen-colorado-fish 142469 HARINA DE TRIGO HARINA DE TRIGO 11726.3 20866.0 SAN CRISTOBAL El Salvador El Salvador NaN
8 156 2014-07-04 beryllium-aspen-colorado-fish 142470 HARINA DE TRIGO HARINA DE TRIGO 11726.3 20866.0 SAN CRISTOBAL El Salvador El Salvador NaN
9 162 2014-07-04 robert-vermont-one-robert 142474 CASCARILLA DE ARROZ MATERIA PRIMA PARA CONCENTRADOS 2584.1 3483624.0 PEDRO DE ALVARADO Nicaragua Nicaragua NaN
10 164 2014-07-04 robert-vermont-one-robert 142473 CASCARILLA DE ARROZ MATERIA PRIMA PARA CONCENTRADOS 2584.1 3483624.0 PEDRO DE ALVARADO Nicaragua Nicaragua NaN
11 68 2014-07-04 kentucky-stream-crazy-winner 142440 CASCARILLA DE ARROZ MATERIA PRIMA PARA ALIMENTOS 500.0 16000.0 PEDRO DE ALVARADO Nicaragua Nicaragua NaN
12 122 2014-07-04 echo-fillet-red-november 142463 MAIZ AMARILLO MAIZ PARA ELAB DE CONCENTRADOS 11250.0 68182.0 MELCHOR DE MENCOS Belice Belice NaN
13 123 2014-07-04 echo-fillet-red-november 142453 MAIZ AMARILLO MAIZ PARA ELAB DE CONCENTRADOS 11250.0 68182.0 MELCHOR DE MENCOS Belice Belice NaN
14 142 2014-07-04 montana-mockingbird-lactose-paris 142465 ARROZ PARBOIL ARROZ 49995.0 59875.0 SANTO TOMAS DE CASTILLA Estados Unidos Estados Unidos ORIGEN: ESTADO DE TEXAS.
15 467 2014-08-04 blue-alanine-aspen-ink 142545 MAIZ AMARILLO MAIZ PARA ELAB DE CONCENTRADOS 891909.3 3952402.0 PUERTO QUETZAL Estados Unidos Estados Unidos NaN
16 476 2014-08-04 august-alabama-william-black 142562 MAIZ AMARILLO MAIZ PARA ELAB DE CONCENTRADOS 156337.0 290316.0 SANTO TOMAS DE CASTILLA Estados Unidos Estados Unidos ORIGEN: ESTADO DE TEXAS.
17 530 2014-08-04 zebra-missouri-arkansas-island 142565 HARINA DE TRIGO HARINA DE TRIGO 81994.7 151800.0 TECUN UMAN MÓNACO MÓNACO NaN
18 352 2014-08-04 helium-jupiter-april-comet 142496 HARINA DE TRIGO HARINA DE TRIGO 10390.0 2268.0 TECUN UMAN México México NaN
19 353 2014-08-04 helium-jupiter-april-comet 142495 HARINA DE TRIGO HARINA DE TRIGO 10307.5 2268.0 TECUN UMAN México México NaN
20 354 2014-08-04 fifteen-venus-fruit-vermont 142494 HARINA DE TRIGO HARINA DE TRIGO 60564.0 13081.0 TECUN UMAN México México NaN
21 355 2014-08-04 king-one-saturn-nevada 142493 HARINA DE TRIGO HARINA DE TRIGO 61622.0 13081.0 TECUN UMAN México México NaN
22 295 2014-08-04 glucose-mike-magazine-table 142501 ARROZ GRANZA ARROZ 30055.3 71470.0 SAN CRISTOBAL EL SALVADOR ESTADOS UNIDOS ORIGEN: ESTADO DE LOUISIANA.
23 299 2014-08-04 cat-alabama-wisconsin-eleven 142500 ARROZ GRANZA ARROZ 454269.8 1093000.0 PUERTO QUETZAL ESTADOS UNIDOS ESTADOS UNIDOS NaN
24 342 2014-08-04 blossom-wyoming-lithium-stairway 142528 CASCARILLA DE ARROZ ARROZ 970.0 1363636.0 PEDRO DE ALVARADO Nicaragua Nicaragua NaN
25 344 2014-08-04 blossom-wyoming-lithium-stairway 142526 CASCARILLA DE ARROZ ARROZ 970.0 1363636.0 PEDRO DE ALVARADO Nicaragua Nicaragua NaN
26 424 2014-08-04 helium-jupiter-april-comet 142523 HARINA DE TRIGO HARINA DE TRIGO 61094.2 13081.0 TECUN UMAN México México NaN
27 282 2014-08-04 massachusetts-stairway-fifteen-uniform 142498 ARROZ ARROZ 53000.0 100240.0 SANTO TOMAS DE CASTILLA UZBEKISTÁN UZBEKISTÁN NaN
28 448 2014-08-04 island-fish-chicken-purple 142540 HARINA DE TRIGO HARINA DE TRIGO 17990.0 31703.0 PEDRO DE ALVARADO El Salvador El Salvador NaN
29 450 2014-08-04 lion-paris-snake-floor 142550 HARINA DE TRIGO HARINA DE TRIGO 16992.5 31703.0 SAN CRISTOBAL El Salvador El Salvador NaN
7646 16472 2014-10-14 bravo-fish-king-carolina 148721 SEMILLA DE CHILE PIMIENTO Y TOMATE. SEMILLAS DE HORTALIZA 101.0 63.0 EXPRESS AEREO HOLANDA HOLANDA PAIS DE ORIGEN: CHINA Y HOLANDA.
7647 16484 2014-10-14 item-johnny-undress-william 148724 EJOTE FRANCES HORTALIZAS 4533.4 3878.0 SAN CRISTOBAL NICARAGUA NICARAGUA NaN
7648 16485 2014-10-14 cup-vermont-emma-johnny 148726 AJO HORTALIZAS 21332.3 26000.0 PUERTO QUETZAL CHINA CHINA NaN
7649 16486 2014-10-14 cup-vermont-emma-johnny 148725 AVENA EN HOJUELAS AVENA EN HOJUELAS 29357.6 52000.0 PUERTO QUETZAL CHILE CHILE NaN
7650 16487 2014-10-14 avocado-island-oxygen-two 148728 AGUACATE HASS FRUTAS 30438.0 23040.0 TECUN UMAN MEXICO MEXICO NaN
7651 16488 2014-10-14 friend-papa-delaware-bacon 148723 MANDARINA FRUTAS 2500.0 24000.0 LA MESILLA MEXICO MEXICO NaN
7652 16490 2014-10-14 island-earth-july-quebec 148729 GRAÑONES DE MAIZ (MAIZ AMARILLO SIN GERMEN) MAIZ PARA CONSUMO HUMANO 13850.8 19278.0 PUERTO BARRIOS ESTADOS UNIDOS ESTADOS UNIDOS ORIGEN: ESTADO DE ILLINOIS.
7653 16491 2014-10-14 island-earth-july-quebec 148730 GRAÑONES DE MAIZ (MAIZ AMARILLO SIN GERMEN) MAIZ PARA CONSUMO HUMANO 13850.8 19278.0 PUERTO BARRIOS ESTADOS UNIDOS ESTADOS UNIDOS ORIGEN: ESTADO DE ILLINOIS.
7654 16492 2014-10-14 ink-emma-fillet-maryland 148734 MANDARINA FRUTAS 1250.0 12000.0 LA MESILLA MEXICO MEXICO NaN
7655 16493 2014-10-14 ink-emma-fillet-maryland 148733 MANDARINA FRUTAS 2500.0 24000.0 LA MESILLA MEXICO MEXICO NaN
7656 16494 2014-10-14 six-low-bluebird-burger 148732 GLUTEN VITAL DE TRIGO MATERIA PRIMA PARA ALIMENTOS 2886.2 1000.0 TECUN UMAN MEXICO MEXICO NaN
7657 16495 2014-10-14 spaghetti-sad-queen-london 148737 MADERA ASERRADA DE PINO (TRATADA CON CCA) MADERA ASERRADA 19622.2 21602.0 AGUA CALIENTE HONDURAS HONDURAS NaN
7658 16496 2014-10-14 spaghetti-sad-queen-london 148731 MADERA ASERRADA DE PINO (TRATADA CON CCA) MADERA ASERRADA 15313.9 22405.0 AGUA CALIENTE HONDURAS HONDURAS NaN
7659 16500 2014-10-14 robert-berlin-march-pasta 148741 NARANJAS FRUTAS 12500.0 113635.0 ENTRE RIOS HONDURAS HONDURAS NaN
7660 16501 2014-10-14 robert-berlin-march-pasta 148740 NARANJAS FRUTAS 12500.0 113635.0 ENTRE RIOS HONDURAS HONDURAS NaN
7661 16502 2014-10-14 robert-berlin-march-pasta 148738 NARANJAS FRUTAS 15000.0 136362.0 ENTRE RIOS HONDURAS HONDURAS NaN
7662 16503 2014-10-14 robert-berlin-march-pasta 148739 NARANJAS FRUTAS 12500.0 113635.0 ENTRE RIOS HONDURAS HONDURAS NaN
7663 16504 2014-10-14 robert-berlin-march-pasta 148742 NARANJAS FRUTAS 12500.0 113635.0 ENTRE RIOS HONDURAS HONDURAS NaN
7664 16505 2014-10-14 robert-berlin-march-pasta 148743 NARANJAS FRUTAS 12500.0 113635.0 ENTRE RIOS HONDURAS HONDURAS NaN
7665 16506 2014-10-14 juliet-india-fourteen-music 148744 AGUACATE HASS FRUTAS 19000.0 20900.0 TECUN UMAN MEXICO MEXICO NaN
7666 16520 2014-10-14 lion-violet-lactose-robin 148735 SEMILLAS DE CEBOLLA SEMILLAS DE HORTALIZA 100.0 12.0 EXPRESS AEREO ESTADOS UNIDOS ESTADOS UNIDOS ORIGEN: ESTADO DE CALIFORNIA.
7667 16533 2014-10-14 leopard-september-mars-alabama 148745 MADERA DE PINO (SECA) MADERA ASERRADA 145393.9 241260.0 SANTO TOMAS DE CASTILLA BRASIL BRASIL NaN
7668 16534 2014-10-14 iowa-florida-cup-massachusetts 148747 UVAS FRUTAS 31138.0 13500.0 PUERTO QUETZAL ESTADOS UNIDOS ESTADOS UNIDOS ORIGEN: ESTADO DE CALIFORNIA.
7669 16537 2014-10-14 low-vermont-lactose-happy 148748 FRIJOL NEGRO (PARTIDO) FRIJOL NEGRO 50757.4 843696.0 PUERTO QUETZAL MEXICO MEXICO NaN
7670 16538 2014-10-14 alaska-high-steak-florida 148749 UVAS FRUTAS 29380.0 15200.0 PUERTO QUETZAL ESTADOS UNIDOS ESTADOS UNIDOS ORIGEN: ESTADO DE CALIFORNIA.
7671 16539 2014-10-14 alaska-high-steak-florida 148750 CAMOTE FRUTAS 1929.0 284091.0 AGUA CALIENTE HONDURAS HONDURAS NaN
7672 16540 2014-10-14 alaska-high-steak-florida 148751 GUAYABA FRUTAS 4115.4 170455.0 AGUA CALIENTE HONDURAS HONDURAS NaN
7673 16454 2014-10-14 colorado-aspen-romeo-oscar 148722 SEMILLA DE TOMATE SEMILLAS DE HORTALIZA 35.9 595.0 EXPRESS AEREO FRANCIA FRANCIA NaN
7674 11783 2014-10-14 missouri-harry-beer-social 148746 SEMILLA DE PEPINO (VARIEDAD SLICING) SEMILLAS DE HORTALIZA 105.0 399.0 EXPRESS AEREO ESTADOS UNIDOS MEXICO NaN
7675 14742 2014-10-14 charlie-violet-fish-ceiling 148736 SEMILLAS DE MELON, CALABAZA Y SANDIA SEMILLAS DE HORTALIZA 114179.4 681.0 EXPRESS AEREO ISRAEL ISRAEL PAIS DE ORIGEN: ISRAEL, CHILE Y CHINA.

7676 rows × 12 columns

In [31]:
maga_fitosanitario.groupby("Solicitante").sum().sort_values("CIF $", ascending=False).head(10)
Out[31]:
Permiso CIF $ Kg. Netos
Solicitante
papa-cola-cat-utah 2613794 51617483.5 2142316240.0
crazy-december-charlie-leopard 5407306 42385422.8 129173159.0
blue-alanine-aspen-ink 3914255 36726112.8 115987664.0
glucose-network-cardinal-december 1734642 19912544.7 47940184.0
butter-ceiling-uncle-salami 1448580 18986878.8 1276069585.0
nineteen-earth-stairway-nebraska 1738702 16256532.0 66034754.0
fanta-crazy-rugby-salami 8771752 15806525.0 19943562.0
september-red-hamper-ten 3044223 13971536.0 61956905.0
east-cup-summer-mango 2611047 12101661.5 39276980.0
oklahoma-sodium-nevada-four 12670668 9444222.0 100425831.0
In [32]:
maga_fitosanitario.pivot_table(
    index=["Solicitante", "País origen", "Categoría"], 
    values=["CIF $"], 
    aggfunc={"CIF $":np.sum},
    fill_value=0).sort_values("CIF $", ascending=False).head(10)
Out[32]:
CIF $
Solicitante País origen Categoría
papa-cola-cat-utah ESTADOS UNIDOS MAIZ PARA ELAB DE CONCENTRADOS 34161962.8
crazy-december-charlie-leopard ESTADOS UNIDOS MAIZ PARA ELAB DE CONCENTRADOS 28967653.8
blue-alanine-aspen-ink ESTADOS UNIDOS MAIZ PARA ELAB DE CONCENTRADOS 20603138.9
papa-cola-cat-utah ESTADOS UNIDOS HARINA DE SOYA 17455520.7
glucose-network-cardinal-december ESTADOS UNIDOS ARROZ 17135432.4
nineteen-earth-stairway-nebraska ESTADOS UNIDOS MAIZ PARA ELAB DE CONCENTRADOS 16256532.0
butter-ceiling-uncle-salami ESTADOS UNIDOS MAIZ PARA ELAB DE CONCENTRADOS 14778445.5
crazy-december-charlie-leopard ESTADOS UNIDOS HARINA DE SOYA 12628533.6
september-red-hamper-ten ESTADOS UNIDOS MAIZ PARA ELAB DE CONCENTRADOS 10279335.3
fanta-crazy-rugby-salami VENEZUELA AJONJOLI 9783840.0
In [33]:
maga_fitosanitario.pivot_table(
    index=["País procedencia"],
    columns=["Aduana"],
    values=["CIF $"], 
    aggfunc={"CIF $":np.sum},
    fill_value=0).style.background_gradient(cmap=cm_paleta_verde)
Out[33]:
CIF $
Aduana AGUA CALIENTE EL CEIBO EL FLORIDO ENTRE RIOS EXPRESS AEREO FARDOS POSTALES LA ERMITA LA MESILLA MELCHOR DE MENCOS PEDRO DE ALVARADO PUERTO BARRIOS PUERTO QUETZAL SAN CRISTOBAL SANTO TOMAS DE CASTILLA TECUN UMAN VALLE NUEVO ZONA FRANCA DE GUATEMALA
País procedencia
ALEMANIA 0 0 0 0 102327 0 0 0 0 0 0 1.72752e+06 0 1.60688e+06 0 0 0
ARGENTINA 0 0 0 0 0 0 0 0 0 0 163441 187992 0 410929 0 0 0
AUSTRALIA 0 0 0 0 94350 0 0 0 0 0 0 26932.2 0 113750 0 0 0
Alemania 0 0 0 0 29503.2 0 0 0 0 0 0 0 0 0 0 0 0
Argentina 0 0 0 0 0 0 0 0 0 0 0 0 0 15510 0 0 0
BANGLADESH 0 0 0 0 0 0 0 0 0 0 0 48274.4 0 72000 0 0 0
BELGICA 0 0 0 0 0 0 0 0 0 0 0 1.85583e+06 0 0 192550 0 0
BELICE 0 0 0 0 0 0 0 0 547047 0 0 0 0 0 0 0 0
BOLIVIA 0 0 0 0 0 0 0 0 0 0 0 91800 0 0 0 0 0
BRASIL 0 0 0 0 121048 0 0 0 0 0 245408 0 0 3.58179e+06 0 0 0
BURKINA FASO 0 0 0 0 0 0 0 0 0 0 0 0 0 42888 0 0 0
Belice 0 0 0 0 0 0 0 0 45400 0 0 0 0 0 0 0 0
CANADÁ 0 0 0 0 72.11 0 0 0 0 0 551903 1.18703e+06 0 1.2314e+06 0 0 0
CHAD 0 0 0 0 0 0 0 0 0 0 0 77317.2 0 224059 0 0 0
CHILE 0 0 0 0 22150 0 0 0 0 5984.01 0 1.45996e+07 0 1.14601e+06 0 0 0
CHINA 0 0 0 0 35594.8 0 0 0 0 0 0 1.04992e+06 0 0 0 0 0
CHIPRE 0 0 0 0 3532.2 0 0 0 0 0 0 0 0 0 0 0 0
COLOMBIA 0 0 0 0 1.06184e+06 0 0 0 0 0 0 74263.4 0 233124 14780 0 0
COMORAS 0 0 0 0 2264.65 0 0 0 0 0 0 0 0 118725 0 0 0
COREA DEL SUR 0 0 0 0 231.2 0 0 0 0 0 0 0 0 0 0 0 0
COSTA RICA 0 0 0 0 2.51694e+06 0 0 0 0 595022 0 0 17022 0 0 0 0
Canadá 0 0 0 0 0 0 0 0 0 0 11320.3 0 0 22257.6 0 0 0
Chile 0 0 0 0 0 0 0 0 0 0 0 175952 0 0 0 0 0
China 0 0 0 0 0 0 0 0 0 0 0 49415 0 0 0 0 0
Colombia 0 0 0 0 10632.4 0 0 0 0 0 0 0 0 0 0 0 0
Costa Rica 0 0 0 0 304 0 0 0 0 0 0 0 0 0 0 0 0
ECUADOR 0 0 0 0 11121.1 0 0 0 0 0 0 0 0 0 0 0 0
EL SALVADOR 0 0 0 0 3380.89 0 0 0 0 3.15808e+06 0 0 1.75932e+07 0 0 19318.5 0
EMIRATOS ÁRABES UNIDOS 0 0 0 0 0 0 0 0 0 40834.8 15141.7 0 93246 0 0 0 0
ESPAÑA 0 0 0 0 31056.8 0 0 0 0 8929.65 0 0 0 71187.6 0 0 0
ESTADOS UNIDOS 0 0 0 0 6.74779e+06 781.92 0 0 0 452500 4.97125e+06 2.97986e+08 62815.5 3.63083e+07 0 0 0
ESTONIA 0 0 0 0 268577 0 0 0 0 0 0 2.37419e+06 0 618034 0 0 0
El Salvador 0 0 0 0 0 0 0 0 0 50653.3 0 0 159023 0 0 0 0
Estados Unidos 0 36.04 0 0 87632.5 0 0 0 0 0 177068 3.87267e+06 0 922944 0 0 0
Estonia 0 0 0 0 0 0 0 0 0 0 0 0 0 19145.3 0 0 0
FILIPINAS 0 0 0 0 1536 0 0 0 0 0 0 0 0 0 0 0 0
FRANCIA 0 0 0 0 121993 0 0 0 0 0 627655 0 0 1.29225e+06 0 0 0
GHANA 0 0 0 0 0 0 0 0 0 0 0 0 0 105007 0 0 0
GUATEMALA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 95511
HOLANDA 0 0 0 0 6.99672e+06 0 0 0 0 5560 0 0 0 737879 3200 0 0
HONDURAS 1.04949e+06 0 1.11446e+06 1.89727e+06 18000 0 0 0 0 78172.1 0 0 0 0 0 0 0
HUNGRÍA 31815.6 0 0 45528.7 0 0 0 0 0 0 0 0 0 0 0 0 0
Honduras 70359.8 0 0 40300 0 0 0 0 0 0 0 0 0 0 0 0 0
INDIA 0 0 0 0 4650 0 0 0 0 0 0 789181 0 233004 0 0 0
ISRAEL 0 0 0 0 607326 0 0 0 0 0 0 0 0 0 0 0 0
ITALIA 0 0 0 0 24330.3 0 0 0 0 0 0 0 0 0 0 0 0
Israel 0 0 0 0 15891.7 0 0 0 0 0 0 0 0 0 0 0 0
JAPÓN 0 0 0 0 5499.54 0 0 0 0 0 0 43739.8 0 0 0 0 0
KENIA 0 0 0 0 10197.1 0 0 0 0 0 0 0 0 0 0 0 0
LAOS 0 0 0 0 0 0 0 0 0 0 8688.74 0 0 0 0 0 0
LATVIA 0 0 0 0 0 0 0 0 0 0 8693.31 0 0 54261.1 0 0 0
LETONIA 0 0 0 0 0 0 0 0 0 0 0 0 0 15052 0 0 0
LITUANIA 0 0 0 0 0 0 0 0 0 0 0 0 0 149491 0 0 0
MEXICO 0 0 0 0 33359.8 0 0 166788 0 0 0 675200 0 97502.1 2.49166e+07 0 0
MÓNACO 0 0 0 0 0 0 0 0 0 0 0 0 0 0 303410 0 0
México 0 0 0 0 0 0 0 1600 0 0 0 0 0 0 1.0659e+06 0 0
NAMIBIA 0 0 0 0 0 0 0 0 0 1940 0 0 0 0 0 0 0
NICARAGUA 0 0 0 0 1924.52 0 113631 0 0 4.06068e+06 0 0 547838 0 0 0 0
NIGERIA 0 0 0 0 0 0 0 0 0 130254 27383.8 0 19189.1 0 0 0 0
NUEVA ZELANDA 0 0 0 0 0 0 0 0 0 0 0 240022 0 47682 0 0 0
Nicaragua 0 0 0 0 0 0 12091 0 0 122190 0 0 28500.5 0 0 0 0
PANAMÁ 0 0 0 0 1957.53 0 0 0 0 0 0 0 20556 0 0 0 0
PERÚ 0 0 0 0 95392.9 0 0 0 0 0 0 341276 0 47076.6 0 0 0
POLONIA 0 0 0 0 6366.9 0 0 0 0 0 0 0 0 0 0 0 0
PORTUGAL 0 0 0 0 667.32 0 0 0 0 0 0 0 0 0 0 0 0
Países Bajos 0 0 0 0 6890.24 0 0 0 0 0 0 0 0 586587 0 0 0
Perú 0 0 0 0 2428 0 0 0 0 0 0 0 0 0 0 0 0
REINO UNIDO 0 0 0 0 3112.17 0 0 0 0 0 0 0 0 0 0 0 0
REPÚBLICA DOMINICANA 0 0 0 0 0 0 0 0 0 0 0 0 0 734869 0 0 0
SRI LANKA 0 0 0 0 0 0 0 0 0 0 0 711009 0 665303 0 0 0
SUDÁN 0 0 0 0 0 0 0 0 0 0 0 36826.8 0 0 0 0 0
SUECIA 0 0 0 0 0 0 0 0 0 0 0 1.82749e+06 0 0 0 0 0
TAILANDIA 0 0 0 0 133412 0 0 0 0 0 0 28765 0 0 0 0 0
TAIWAN 0 0 0 0 331696 0 0 0 0 0 0 0 0 0 0 0 0
TANZANIA 0 0 0 0 0 0 0 0 0 0 0 330340 0 0 0 0 0
URUGUAY 0 0 0 0 0 0 0 0 0 0 0 0 0 1.4859e+06 0 0 0
UZBEKISTÁN 0 0 0 0 0 0 0 0 0 0 0 0 0 106000 0 0 0
Uruguay 0 0 0 0 0 0 0 0 0 0 0 0 0 59007.8 0 0 0
VENEZUELA 0 0 0 0 0 0 0 0 0 0 0 1.38812e+07 0 1.1856e+06 0 0 0
VIETNAM 0 0 0 0 0 0 0 0 0 0 0 420550 0 0 0 0 0
YEMEN 0 0 0 0 0 0 0 0 0 0 0 167528 0 0 0 0 0

Que tal si queremos obtener el precio por kilogramo de cada producto y en base a eso obtener los productos mas ‘preciosos’.

In [35]:
maga_fitosanitario.to_csv("MAGA - CERTIFICADOS FITOSANITARIOS - LIMPIO.csv")