Tutorial: Limpieza y visualizaciones para encontrar patrones con Python

el agosto 31, 2017 en Tutoriales
Desde Escuela de Datos, Sebastián Oliva, fellow 2017, enseña cómo usar la librería de Pandas para Python para importar distintas bases de datos. En este ejercicio conocemos qué es una base de datos relacional, de qué trata el lenguaje SQL, y en el terreno práctico, cómo hacer algunas visualizaciones en Python para hallar patrones interesantes.
Puedes seguir paso a paso viendo este video-tutorial, siguiendo el cuaderno que publicamos abajo o consultando el cuaderno de trabajo de Sebastián en este link.

Leer y escribir archivos, bases de datos y más

Al realizar una exploración de datos, estos pueden provenir de muchas fuentes, en algunos casos recursos en linea, bases de datos SQL o de otros tipos; en otros puede ser necesario exportar a algun formato para seguir el análisis en otra herramienta. Con las herramientas que ya conocemos (Python, Pandas, etc), es muy conveniente el poder utilizarlas para exportar e importar datos. Vamos a trabajar un poco con unas bases de datos sencillas que nos permitirán ejemplificar la facilidad y algunos posibles asuntos a la hora de manipular datos en distintas fuentas. Una de estas es una base de datos de estudios ambientales desde los inicios de los 90’s hasta el 2014, mientras otra son los centros educativos en Guatemala hasta el 2013

Bases de datos: un Crash Course

Como hemos visto ya en estos tutoriales, Pandas es una libreria muy poderosa para manipular datos; sin embargo tiene también competencia obvia en sistemas de bases de datos, que dependiendo de su oferta ofrecen alguna de la funcionalidad de Pandas, junto con otra que es incomparable. Entre los conceptos fundamentales de bases de datos es reconocer la diferencia entre un DBMS (Database Management System) y una DB en sí. El DBMS es el software que permite acceder y controlar la base de datos; mientras que la DB son nuestros datos. Es comparable a la relación entre un reproductor multimedios y la música en sí, la diferencia mas notable es que practicamente no existe un estandar de bases de datos, mas allá de lo que provee SQL en si. Existe una variedad de modelos de bases de datos, para esta ocasión nos enfocaremos en el más común: SQL y bases de Datos Relacionales

RDBMS (Relational Database Management Systems)

SQL es un lenguaje que permite interactuar con bases de datos relacionales. El «Standard Query Language» es en la realidad, no tan estandar, sin embargo, hay un subconjunto que es compatible conocido como ANSI SQL y sus posteriores revisiones. Los ejemplos de este tutorial estarán en SQLite, una base de datos libre que ofrece alto rendimiento y poco uso de recursos, a contraparte de sus limitaciones como concurrencia limitada y el estar basada en archivos. La estaremos usando por su simplicidad, pero téoricamente podriamos usar casi cualquier otro DBMS. Algo muy notable y de tener en cuenta es que las Bases de datos Relacionales, como su nombre lo dice, están basadas en relaciones. Mucha gente confunde este concepto con el de llaves y uniones entre ellas, sin embargo es mucho mas profundo. En las bases de datos relacionales (y lo siento por si puede parecer un poco confuso): Las relaciones son agrupaciones de datos en las cuales se preserva su identidad, es decir representan algo, del cual queramos llevar registro; De estas agrupaciones, cada entidad o sea filas ó tuplas (que lleva su propia carga matemática), del mismo tipo se materializan en tablas, es decir las relaciones de bases de datos relacionales no se refieren a las relaciones que se pueden crear entre los datos, sinó a la estructura tabular en sí. Podemos tomar una pausa aquí y comenzar con el código. Es conveniente porque podremos ver varias de estas analogías en vivo.
import pandas as pd
import numpy as np
import seaborn
import joypy

import matplotlib
matplotlib.rc("savefig", dpi=300)
%matplotlib notebook
import sqlite3
conexion_estudios_ambientales = sqlite3.connect("estudios_amb.sqlite3")
estudios = pd.read_sql("SELECT * FROM estudios_ambientales", 
                       conexion_estudios_ambientales, 
                       parse_dates=["Fecha_Captura","Fecha_Resolucion","Fecha_Notificacion","Fecha_Dictamen"])
estudios.head()
Periodo Numero_Estudio Nombre_Proyecto Representante_Legal Direccion_Proyecto Fecha_Captura Fecha_Resolucion Fecha_Notificacion Fecha_Dictamen
0 2014 DABI-0682 PATSY ZONA 1 HENRY ALONSO MENESES MORAN 6TA. CALLE 5-13 ZONA 1, GUATEMALA, GUATEMALA 2017-07-18 NaT NaT NaT
1 2014 EAI-5140 VIVIENDA UNIFAMILIAR EL ENCINAL, MUNICIPIO DE … CRISTIAN RICARDO BONILLA ALVARADO FINCA URBANA UBICADA EN LOTE NO. 10 SECTRO E L… 2014-10-30 NaT NaT NaT
2 2014 EAI-5079 «AMPLIACIÓN SISTEMA DE AGUAS PLUVIALES CANTÓN … MANUEL AGUSTO NAVAS Y NAVAS CANTON AMERICA ZONA 3, SANTIAGO SACATEPEQUEZ, … 2014-10-29 NaT NaT NaT
3 2014 EAI-5080 «AMPLIACION SISTEMA DE ALCANTARILLADO SANITARI… MANUEL AGUSTO NAVAS Y NAVAS SECTOR CHICRUZ ZONA 3 ALDEA SANTA MARIA CAUQUE… 2014-10-29 NaT NaT NaT
4 2014 EAI-5081 «MEJORAMIENTO INSTALACIONES DEPORTIVAS Y RECRE… MANUEL AGUSTO NAVAS Y NAVAS SECTOR LA CIENAGA KILOMETRO 32 CARRETERA A SAN… 2014-10-29 NaT NaT NaT
tiempos_espera=pd.concat(
    {
        "Periodo": estudios["Periodo"].map(int).astype(int),
        "TiempoEspera": (estudios["Fecha_Captura"]-estudios["Fecha_Resolucion"]).map(lambda x: x.days)
    },
    axis=1
).dropna()

tiempos_espera
Periodo TiempoEspera
312 2014 -153.0
313 2014 -153.0
369 2014 -181.0
371 2014 -181.0
372 2014 -181.0
373 2014 -172.0
375 2014 -181.0
378 2014 -181.0
379 2014 -181.0
496 2014 231.0
503 2014 203.0
556 2014 228.0
559 2014 228.0
652 2014 257.0
750 2014 -7.0
774 2014 -4.0
825 2014 -3.0
876 2014 -5.0
903 2014 -8.0
917 2014 -6.0
935 2014 -1.0
940 2014 -6.0
941 2014 -6.0
942 2014 -6.0
943 2014 -6.0
944 2014 -6.0
946 2014 -7.0
948 2014 -7.0
950 2014 -6.0
953 2014 -6.0
44420 2000 -236.0
44421 2000 -201.0
44422 2000 -142.0
44424 2000 -344.0
44425 2000 -142.0
44426 2000 -142.0
44427 2000 -35.0
44428 2000 -143.0
44429 2000 -177.0
44430 2000 -173.0
44432 2000 -173.0
44434 2000 -1010.0
44435 2000 -2671.0
44438 2000 -341.0
44440 2000 -1048.0
44442 2000 -173.0
44443 2000 -233.0
44448 2000 -235.0
44451 2000 -2847.0
44456 2000 -327.0
44619 1999 -4442.0
44641 1999 -47.0
44649 1999 207.0
44916 1998 -5189.0
45133 1998 -95.0
45252 1997 -4259.0
45533 1996 -6765.0
45820 1994 -4839.0
45973 1994 -4290.0
45976 1995 -5807.0
34035 rows × 2 columns
tiempos_espera.describe()
Periodo TiempoEspera
count 34035.000000 34035.000000
mean 2009.556750 -96.639929
std 11.527618 391.044888
min 0.000000 -32871.000000
25% 2007.000000 -158.000000
50% 2010.000000 -47.000000
75% 2013.000000 0.000000
max 2206.000000 6926.000000
Ahora ya tenemos los elementos, cada uno de los registros y las fechas en las cuales fueron procesados. Podemos ver que el 50% esperó hasta 47 dias y el promedio es esperar 96 dias.
tiempos_espera.plot()
<matplotlib.axes._subplots.AxesSubplot at 0x7f09f76c7470>
tiempos_espera[tiempos_espera["TiempoEspera"] > 0]
Periodo TiempoEspera
496 2014 231.0
503 2014 203.0
556 2014 228.0
559 2014 228.0
652 2014 257.0
1000 2014 302.0
1012 2014 75.0
1013 2014 75.0
1040 2014 54.0
1041 2014 54.0
1057 2014 48.0
1058 2014 48.0
1107 2014 23.0
1481 2014 232.0
1482 2014 232.0
1483 2014 232.0
1527 2014 232.0
1528 2014 73.0
1575 2014 200.0
1585 2014 141.0
1619 2014 18.0
1621 2014 18.0
1622 2014 140.0
1626 2014 1.0
1733 2014 166.0
1734 2014 135.0
1735 2014 135.0
1737 2014 194.0
1756 2014 135.0
1796 2014 12.0
41194 2004 143.0
41195 2004 214.0
41196 2004 42.0
41233 2004 75.0
41268 2004 157.0
41270 2004 120.0
41273 2004 73.0
41276 2004 179.0
41277 2004 20.0
41279 2004 14.0
41314 2004 47.0
41318 2004 43.0
41319 2004 284.0
41327 2004 42.0
41331 2004 192.0
41332 2004 172.0
41333 2004 66.0
41334 2004 95.0
41335 2004 201.0
41338 2004 115.0
41339 2004 98.0
41340 2004 28.0
41342 2004 49.0
41381 2004 231.0
41387 2004 47.0
41388 2004 47.0
41389 2004 48.0
41390 2003 74.0
43978 1999 337.0
44649 1999 207.0
6849 rows × 2 columns

¿Con que esperaste cuánto?

+6926.000000 !!! Esto es un poco ridiculo. Pero este error está atado a la calidad del dato. Lo que podemos hacer es limpiarlo.
tiempos_espera = tiempos_espera[tiempos_espera["Periodo"] < 2015] 
tiempos_espera = tiempos_espera[tiempos_espera["TiempoEspera"] < 0] # Errores, probablemente año 1900? (IDK)
tiempos_espera = tiempos_espera[tiempos_espera["TiempoEspera"] > -10000] # Errores, probablemente año 1900? (IDK)
# print(tiempos_espera.Periodo.unique()) # Ver que años
tiempos_espera = tiempos_espera.set_index("Periodo")
tiempos_espera.describe()
# tiempos_espera.plot()
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-20-06b73fa6e678> in <module>()
      1 tiempos_espera.describe()
----> 2 tiempos_espera.plot(type="bar")

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/pandas/plotting/_core.py in __call__(self, x, y, kind, ax, subplots, sharex, sharey, layout, figsize, use_index, title, grid, legend, style, logx, logy, loglog, xticks, yticks, xlim, ylim, rot, fontsize, colormap, table, yerr, xerr, secondary_y, sort_columns, **kwds)
   2615                           fontsize=fontsize, colormap=colormap, table=table,
   2616                           yerr=yerr, xerr=xerr, secondary_y=secondary_y,
-> 2617                           sort_columns=sort_columns, **kwds)
   2618     __call__.__doc__ = plot_frame.__doc__
   2619 

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/pandas/plotting/_core.py in plot_frame(data, x, y, kind, ax, subplots, sharex, sharey, layout, figsize, use_index, title, grid, legend, style, logx, logy, loglog, xticks, yticks, xlim, ylim, rot, fontsize, colormap, table, yerr, xerr, secondary_y, sort_columns, **kwds)
   1857                  yerr=yerr, xerr=xerr,
   1858                  secondary_y=secondary_y, sort_columns=sort_columns,
-> 1859                  **kwds)
   1860 
   1861 

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/pandas/plotting/_core.py in _plot(data, x, y, subplots, ax, kind, **kwds)
   1682         plot_obj = klass(data, subplots=subplots, ax=ax, kind=kind, **kwds)
   1683 
-> 1684     plot_obj.generate()
   1685     plot_obj.draw()
   1686     return plot_obj.result

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/pandas/plotting/_core.py in generate(self)
    238         self._compute_plot_data()
    239         self._setup_subplots()
--> 240         self._make_plot()
    241         self._add_table()
    242         self._make_legend()

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/pandas/plotting/_core.py in _make_plot(self)
    938                              stacking_id=stacking_id,
    939                              is_errorbar=is_errorbar,
--> 940                              **kwds)
    941             self._add_legend_handle(newlines[0], label, index=i)
    942 

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/pandas/plotting/_core.py in _plot(cls, ax, x, y, style, column_num, stacking_id, **kwds)
    953             cls._initialize_stacker(ax, stacking_id, len(y))
    954         y_values = cls._get_stacked_values(ax, stacking_id, y, kwds['label'])
--> 955         lines = MPLPlot._plot(ax, x, y_values, style=style, **kwds)
    956         cls._update_stacker(ax, stacking_id, y)
    957         return lines

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/pandas/plotting/_core.py in _plot(cls, ax, x, y, style, is_errorbar, **kwds)
    573             else:
    574                 args = (x, y)
--> 575             return ax.plot(*args, **kwds)
    576 
    577     def _get_index_name(self):

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/matplotlib/__init__.py in inner(ax, *args, **kwargs)
   1896                     warnings.warn(msg % (label_namer, func.__name__),
   1897                                   RuntimeWarning, stacklevel=2)
-> 1898             return func(ax, *args, **kwargs)
   1899         pre_doc = inner.__doc__
   1900         if pre_doc is None:

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/matplotlib/axes/_axes.py in plot(self, *args, **kwargs)
   1404         kwargs = cbook.normalize_kwargs(kwargs, _alias_map)
   1405 
-> 1406         for line in self._get_lines(*args, **kwargs):
   1407             self.add_line(line)
   1408             lines.append(line)

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/matplotlib/axes/_base.py in _grab_next_args(self, *args, **kwargs)
    405                 return
    406             if len(remaining) <= 3:
--> 407                 for seg in self._plot_args(remaining, kwargs):
    408                     yield seg
    409                 return

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/matplotlib/axes/_base.py in _plot_args(self, tup, kwargs)
    393         ncx, ncy = x.shape[1], y.shape[1]
    394         for j in xrange(max(ncx, ncy)):
--> 395             seg = func(x[:, j % ncx], y[:, j % ncy], kw, kwargs)
    396             ret.append(seg)
    397         return ret

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/matplotlib/axes/_base.py in _makeline(self, x, y, kw, kwargs)
    300         default_dict = self._getdefaults(None, kw)
    301         self._setdefaults(default_dict, kw)
--> 302         seg = mlines.Line2D(x, y, **kw)
    303         return seg
    304 

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/matplotlib/lines.py in __init__(self, xdata, ydata, linewidth, linestyle, color, marker, markersize, markeredgewidth, markeredgecolor, markerfacecolor, markerfacecoloralt, fillstyle, antialiased, dash_capstyle, solid_capstyle, dash_joinstyle, solid_joinstyle, pickradius, drawstyle, markevery, **kwargs)
    429         # update kwargs before updating data to give the caller a
    430         # chance to init axes (and hence unit support)
--> 431         self.update(kwargs)
    432         self.pickradius = pickradius
    433         self.ind_offset = 0

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/matplotlib/artist.py in update(self, props)
    883         try:
    884             ret = [_update_property(self, k, v)
--> 885                    for k, v in props.items()]
    886         finally:
    887             self.eventson = store

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/matplotlib/artist.py in <listcomp>(.0)
    883         try:
    884             ret = [_update_property(self, k, v)
--> 885                    for k, v in props.items()]
    886         finally:
    887             self.eventson = store

~/utz/notebooks_dateros/venv/lib/python3.6/site-packages/matplotlib/artist.py in _update_property(self, k, v)
    876                 func = getattr(self, 'set_' + k, None)
    877                 if func is None or not six.callable(func):
--> 878                     raise AttributeError('Unknown property %s' % k)
    879                 return func(v)
    880 

AttributeError: Unknown property type
# verde_obscuro = seaborn.palplot(seaborn.cubehelix_palette(8, start=2, rot=0, dark=0, light=.95, reverse=True))
# %matplotlib inline
fig, axes = joypy.joyplot(tiempos_espera, 
                          by="Periodo", 
                          column="TiempoEspera", 
                          fade=True,
                          #kind="normalized_counts",
                          hist=True, 
                          bins=250,
                          grid=True,
                          range_style="own", 
                          x_range=[-1255,100], 
                          figsize=(4,8),
                          colormap=seaborn.cubehelix_palette(8, start=2, rot=0, dark=0, light=.95, reverse=True, as_cmap=True))
Algunos de los usos mas avanzados de esto te permiten hacer análisis de datos estructurados, como justamente un sistema informatico ya existente usualmente se compone de muchas tablas y relaciones, además de vinculos y estructuras entre ellas. Veamos un ejemplo con otra base de datos. Usaremos una llamada Chinook, una base de datos de ejemplo que contiene datos de una tienda de discos, es un ejemplo un poco «empresarial» pero puede servirnos. Podemos ver el esquema de la base de datos aqui: db chinook
chinook_connection = sqlite3.connect("Chinook_Sqlite.sqlite")
chinook_dataframe = pd.read_sql("""Select *
FROM Track
LEFT OUTER JOIN MediaType ON MediaType.MediaTypeId = Track.MediaTypeId
LEFT OUTER JOIN Genre ON Genre.GenreId =Track.GenreId
LEFT OUTER JOIN Album ON Album.AlbumId = Track.AlbumId
LEFT OUTER JOIN Artist ON Artist.ArtistId = Album.ArtistId""", chinook_connection)
chinook_dataframe
TrackId Name AlbumId MediaTypeId GenreId Composer Milliseconds Bytes UnitPrice MediaTypeId Name GenreId Name AlbumId Title ArtistId ArtistId Name
0 1 For Those About To Rock (We Salute You) 1 1 1 Angus Young, Malcolm Young, Brian Johnson 343719 11170334 0.99 1 MPEG audio file 1 Rock 1 For Those About To Rock We Salute You 1 1 AC/DC
1 2 Balls to the Wall 2 2 1 None 342562 5510424 0.99 2 Protected AAC audio file 1 Rock 2 Balls to the Wall 2 2 Accept
2 3 Fast As a Shark 3 2 1 F. Baltes, S. Kaufman, U. Dirkscneider & W. Ho… 230619 3990994 0.99 2 Protected AAC audio file 1 Rock 3 Restless and Wild 2 2 Accept
3 4 Restless and Wild 3 2 1 F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D… 252051 4331779 0.99 2 Protected AAC audio file 1 Rock 3 Restless and Wild 2 2 Accept
4 5 Princess of the Dawn 3 2 1 Deaffy & R.A. Smith-Diesel 375418 6290521 0.99 2 Protected AAC audio file 1 Rock 3 Restless and Wild 2 2 Accept
5 6 Put The Finger On You 1 1 1 Angus Young, Malcolm Young, Brian Johnson 205662 6713451 0.99 1 MPEG audio file 1 Rock 1 For Those About To Rock We Salute You 1 1 AC/DC
6 7 Let’s Get It Up 1 1 1 Angus Young, Malcolm Young, Brian Johnson 233926 7636561 0.99 1 MPEG audio file 1 Rock 1 For Those About To Rock We Salute You 1 1 AC/DC
7 8 Inject The Venom 1 1 1 Angus Young, Malcolm Young, Brian Johnson 210834 6852860 0.99 1 MPEG audio file 1 Rock 1 For Those About To Rock We Salute You 1 1 AC/DC
8 9 Snowballed 1 1 1 Angus Young, Malcolm Young, Brian Johnson 203102 6599424 0.99 1 MPEG audio file 1 Rock 1 For Those About To Rock We Salute You 1 1 AC/DC
9 10 Evil Walks 1 1 1 Angus Young, Malcolm Young, Brian Johnson 263497 8611245 0.99 1 MPEG audio file 1 Rock 1 For Those About To Rock We Salute You 1 1 AC/DC
10 11 C.O.D. 1 1 1 Angus Young, Malcolm Young, Brian Johnson 199836 6566314 0.99 1 MPEG audio file 1 Rock 1 For Those About To Rock We Salute You 1 1 AC/DC
11 12 Breaking The Rules 1 1 1 Angus Young, Malcolm Young, Brian Johnson 263288 8596840 0.99 1 MPEG audio file 1 Rock 1 For Those About To Rock We Salute You 1 1 AC/DC
12 13 Night Of The Long Knives 1 1 1 Angus Young, Malcolm Young, Brian Johnson 205688 6706347 0.99 1 MPEG audio file 1 Rock 1 For Those About To Rock We Salute You 1 1 AC/DC
13 14 Spellbound 1 1 1 Angus Young, Malcolm Young, Brian Johnson 270863 8817038 0.99 1 MPEG audio file 1 Rock 1 For Those About To Rock We Salute You 1 1 AC/DC
14 15 Go Down 4 1 1 AC/DC 331180 10847611 0.99 1 MPEG audio file 1 Rock 4 Let There Be Rock 1 1 AC/DC
15 16 Dog Eat Dog 4 1 1 AC/DC 215196 7032162 0.99 1 MPEG audio file 1 Rock 4 Let There Be Rock 1 1 AC/DC
16 17 Let There Be Rock 4 1 1 AC/DC 366654 12021261 0.99 1 MPEG audio file 1 Rock 4 Let There Be Rock 1 1 AC/DC
17 18 Bad Boy Boogie 4 1 1 AC/DC 267728 8776140 0.99 1 MPEG audio file 1 Rock 4 Let There Be Rock 1 1 AC/DC
18 19 Problem Child 4 1 1 AC/DC 325041 10617116 0.99 1 MPEG audio file 1 Rock 4 Let There Be Rock 1 1 AC/DC
19 20 Overdose 4 1 1 AC/DC 369319 12066294 0.99 1 MPEG audio file 1 Rock 4 Let There Be Rock 1 1 AC/DC
20 21 Hell Ain’t A Bad Place To Be 4 1 1 AC/DC 254380 8331286 0.99 1 MPEG audio file 1 Rock 4 Let There Be Rock 1 1 AC/DC
21 22 Whole Lotta Rosie 4 1 1 AC/DC 323761 10547154 0.99 1 MPEG audio file 1 Rock 4 Let There Be Rock 1 1 AC/DC
22 23 Walk On Water 5 1 1 Steven Tyler, Joe Perry, Jack Blades, Tommy Shaw 295680 9719579 0.99 1 MPEG audio file 1 Rock 5 Big Ones 3 3 Aerosmith
23 24 Love In An Elevator 5 1 1 Steven Tyler, Joe Perry 321828 10552051 0.99 1 MPEG audio file 1 Rock 5 Big Ones 3 3 Aerosmith
24 25 Rag Doll 5 1 1 Steven Tyler, Joe Perry, Jim Vallance, Holly K… 264698 8675345 0.99 1 MPEG audio file 1 Rock 5 Big Ones 3 3 Aerosmith
25 26 What It Takes 5 1 1 Steven Tyler, Joe Perry, Desmond Child 310622 10144730 0.99 1 MPEG audio file 1 Rock 5 Big Ones 3 3 Aerosmith
26 27 Dude (Looks Like A Lady) 5 1 1 Steven Tyler, Joe Perry, Desmond Child 264855 8679940 0.99 1 MPEG audio file 1 Rock 5 Big Ones 3 3 Aerosmith
27 28 Janie’s Got A Gun 5 1 1 Steven Tyler, Tom Hamilton 330736 10869391 0.99 1 MPEG audio file 1 Rock 5 Big Ones 3 3 Aerosmith
28 29 Cryin’ 5 1 1 Steven Tyler, Joe Perry, Taylor Rhodes 309263 10056995 0.99 1 MPEG audio file 1 Rock 5 Big Ones 3 3 Aerosmith
29 30 Amazing 5 1 1 Steven Tyler, Richie Supa 356519 11616195 0.99 1 MPEG audio file 1 Rock 5 Big Ones 3 3 Aerosmith
3473 3474 October Song 322 2 9 Matt Rowe & Stefan Skarbek 204846 3358125 0.99 2 Protected AAC audio file 9 Pop 322 Frank 252 252 Amy Winehouse
3474 3475 What Is It About Men 322 2 9 Delroy «Chris» Cooper, Donovan Jackson, Earl C… 209573 3426106 0.99 2 Protected AAC audio file 9 Pop 322 Frank 252 252 Amy Winehouse
3475 3476 Help Yourself 322 2 9 Freddy James, Jimmy hogarth & Larry Stock 300884 5029266 0.99 2 Protected AAC audio file 9 Pop 322 Frank 252 252 Amy Winehouse
3476 3477 Amy Amy Amy (Outro) 322 2 9 Astor Campbell, Delroy «Chris» Cooper, Donovan… 663426 10564704 0.99 2 Protected AAC audio file 9 Pop 322 Frank 252 252 Amy Winehouse
3477 3478 Slowness 323 2 23 None 215386 3644793 0.99 2 Protected AAC audio file 23 Alternative 323 Carried to Dust (Bonus Track Version) 253 253 Calexico
3478 3479 Prometheus Overture, Op. 43 324 4 24 Ludwig van Beethoven 339567 10887931 0.99 4 Purchased AAC audio file 24 Classical 324 Beethoven: Symphony No. 6 ‘Pastoral’ Etc. 254 254 Otto Klemperer & Philharmonia Orchestra
3479 3480 Sonata for Solo Violin: IV: Presto 325 4 24 Béla Bartók 299350 9785346 0.99 4 Purchased AAC audio file 24 Classical 325 Bartok: Violin & Viola Concertos 255 255 Yehudi Menuhin
3480 3481 A Midsummer Night’s Dream, Op.61 Incidental Mu… 326 2 24 None 387826 6497867 0.99 2 Protected AAC audio file 24 Classical 326 Mendelssohn: A Midsummer Night’s Dream 256 256 Philharmonia Orchestra & Sir Neville Marriner
3481 3482 Suite No. 3 in D, BWV 1068: III. Gavotte I & II 327 2 24 Johann Sebastian Bach 225933 3847164 0.99 2 Protected AAC audio file 24 Classical 327 Bach: Orchestral Suites Nos. 1 – 4 257 257 Academy of St. Martin in the Fields, Sir Nevil…
3482 3483 Concert pour 4 Parties de V**les, H. 545: I. P… 328 2 24 Marc-Antoine Charpentier 110266 1973559 0.99 2 Protected AAC audio file 24 Classical 328 Charpentier: Divertissements, Airs & Concerts 258 258 Les Arts Florissants & William Christie
3483 3484 Adios nonino 329 2 24 Astor Piazzolla 289388 4781384 0.99 2 Protected AAC audio file 24 Classical 329 South American Getaway 259 259 The 12 Cellists of The Berlin Philharmonic
3484 3485 Symphony No. 3 Op. 36 for Orchestra and Sopran… 330 2 24 Henryk Górecki 567494 9273123 0.99 2 Protected AAC audio file 24 Classical 330 Górecki: Symphony No. 3 260 260 Adrian Leaper & Doreen de Feis
3485 3486 Act IV, Symphony 331 2 24 Henry Purcell 364296 5987695 0.99 2 Protected AAC audio file 24 Classical 331 Purcell: The Fairy Queen 261 261 Roger Norrington, London Classical Players
3486 3487 3 Gymnopédies: No.1 – Lent Et Grave, No.3 – Le… 332 2 24 Erik Satie 385506 6458501 0.99 2 Protected AAC audio file 24 Classical 332 The Ultimate Relexation Album 262 262 Charles Dutoit & L’Orchestre Symphonique de Mo…
3487 3488 Music for the Funeral of Queen Mary: VI. «Thou… 333 2 24 Henry Purcell 142081 2365930 0.99 2 Protected AAC audio file 24 Classical 333 Purcell: Music for the Queen Mary 263 263 Equale Brass Ensemble, John Eliot Gardiner & M…
3488 3489 Symphony No. 2: III. Allegro vivace 334 2 24 Kurt Weill 376510 6129146 0.99 2 Protected AAC audio file 24 Classical 334 Weill: The Seven Deadly Sins 264 264 Kent Nagano and Orchestre de l’Opéra de Lyon
3489 3490 Partita in E Major, BWV 1006A: I. Prelude 335 2 24 Johann Sebastian Bach 285673 4744929 0.99 2 Protected AAC audio file 24 Classical 335 J.S. Bach: Chaconne, Suite in E Minor, Partita… 265 265 Julian Bream
3490 3491 Le Sacre Du Printemps: I.iv. Spring Rounds 336 2 24 Igor Stravinsky 234746 4072205 0.99 2 Protected AAC audio file 24 Classical 336 Prokofiev: Symphony No.5 & Stravinksy: Le Sacr… 248 248 Berliner Philharmoniker & Herbert Von Karajan
3491 3492 Sing Joyfully 314 2 24 William Byrd 133768 2256484 0.99 2 Protected AAC audio file 24 Classical 314 English Renaissance 247 247 The King’s Singers
3492 3493 Metopes, Op. 29: Calypso 337 2 24 Karol Szymanowski 333669 5548755 0.99 2 Protected AAC audio file 24 Classical 337 Szymanowski: Piano Works, Vol. 1 266 266 Martin Roscoe
3493 3494 Symphony No. 2, Op. 16 – «The Four Temperamen… 338 2 24 Carl Nielsen 286998 4834785 0.99 2 Protected AAC audio file 24 Classical 338 Nielsen: The Six Symphonies 267 267 Göteborgs Symfoniker & Neeme Järvi
3494 3495 24 Caprices, Op. 1, No. 24, for Solo Violin, i… 339 2 24 Niccolò Paganini 265541 4371533 0.99 2 Protected AAC audio file 24 Classical 339 Great Recordings of the Century: Paganini’s 24… 268 268 Itzhak Perlman
3495 3496 Étude 1, In C Major – Preludio (Presto) – Liszt 340 4 24 None 51780 2229617 0.99 4 Purchased AAC audio file 24 Classical 340 Liszt – 12 Études D’Execution Transcendante 269 269 Michele Campanella
3496 3497 Erlkonig, D.328 341 2 24 None 261849 4307907 0.99 2 Protected AAC audio file 24 Classical 341 Great Recordings of the Century – Shubert: Sch… 270 270 Gerald Moore
3497 3498 Concerto for Violin, Strings and Continuo in G… 342 4 24 Pietro Antonio Locatelli 493573 16454937 0.99 4 Purchased AAC audio file 24 Classical 342 Locatelli: Concertos for Violin, Strings and C… 271 271 Mela Tenenbaum, Pro Musica Prague & Richard Kapp
3498 3499 Pini Di Roma (Pinien Von Rom) \ I Pini Della V… 343 2 24 None 286741 4718950 0.99 2 Protected AAC audio file 24 Classical 343 Respighi:Pines of Rome 226 226 Eugene Ormandy
3499 3500 String Quartet No. 12 in C Minor, D. 703 «Quar… 344 2 24 Franz Schubert 139200 2283131 0.99 2 Protected AAC audio file 24 Classical 344 Schubert: The Late String Quartets & String Qu… 272 272 Emerson String Quartet
3500 3501 L’orfeo, Act 3, Sinfonia (Orchestra) 345 2 24 Claudio Monteverdi 66639 1189062 0.99 2 Protected AAC audio file 24 Classical 345 Monteverdi: L’Orfeo 273 273 C. Monteverdi, Nigel Rogers – Chiaroscuro; Lon…
3501 3502 Quintet for Horn, Violin, 2 Violas, and Cello … 346 2 24 Wolfgang Amadeus Mozart 221331 3665114 0.99 2 Protected AAC audio file 24 Classical 346 Mozart: Chamber Music 274 274 Nash Ensemble
3502 3503 Koyaanisqatsi 347 2 10 Philip Glass 206005 3305164 0.99 2 Protected AAC audio file 10 Soundtrack 347 Koyaanisqatsi (Soundtrack from the Motion Pict… 275 275 Philip Glass Ensemble
3503 rows × 18 columns
chinook_connection = sqlite3.connect("Chinook_Sqlite.sqlite")
#artista_genero = pd.read_sql("""Select Genre.Name, Artist.Name
#FROM Track
#LEFT OUTER JOIN Genre ON Genre.GenreId = Track.GenreId
#LEFT OUTER JOIN Track ON Track.AlbumId = Album.AlbumId
#LEFT OUTER JOIN Artist ON Artist.ArtistId = Album.ArtistId """, chinook_connection)
#artista_genero
chinook_dataframe.to_csv()
Fwomp! necesitamos guardar esto en un archivo.
tiempos_espera.to_excel("miarchivo.xls")
Podemos ver mas de la interoperabilidad de estas plataformas en la documentación de Pandas y SQL y en general aprender más de SQL en una variedad de recursos en linea.
Ahora probemos a extraer información.
%time centros_educativos = pd.read_excel("14102014 - MINEDUC - CENTROS EDUCATIVOS REPUBLICA DE GUATEMALA.xlsx")
CPU times: user 12.3 s, sys: 25.3 ms, total: 12.3 s
Wall time: 12.4 s
centros_educativos
CODIGO DISTRITO DEPARTAMENTO MUNICIPIO ESTABLECIMIENTO DIRECCION TELEFONO SUPERVISOR DIRECTOR NIVEL SECTOR AREA STATUS MODALIDAD JORNADA PLAN
0 16-14-1255-41 16-001 ALTA VERAPAZ CHAHAL COPB ANEXA A EORM CASERIO EL DESCONSUELO NaN WALTER GEOVANY MACZ CESAREO XOL ICAL PREPRIMARIA BILINGUE OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
1 16-14-1386-45 16-004 ALTA VERAPAZ CHAHAL NUCLEO FAMILIAR EDUCATIVO PARA EL DESARROLLO N… CASERIO SETAL NaN JUAN ANTONIO FIGUEROA CAAL SANTIAGO CHOC CHO BASICO OFICIAL RURAL ABIERTA MONOLINGUE DOBLE DIARIO(REGULAR)
2 16-14-2143-43 16-014 ALTA VERAPAZ CHAHAL EORM CASERIO XALAJA NaN GERMAN PABLO XONA NaN PRIMARIA OFICIAL RURAL CERRADA TEMPORALMENTE BILINGUE MATUTINA DIARIO(REGULAR)
3 16-14-9028-43 16-023 ALTA VERAPAZ CHAHAL EORM ALDEA SEMOX SEMAU NaN ROLANDO OLIVERIO PINTO CABRERA NaN PRIMARIA OFICIAL RURAL CERRADA TEMPORALMENTE MONOLINGUE MATUTINA DIARIO(REGULAR)
4 16-14-9030-43 16-023 ALTA VERAPAZ CHAHAL EORM CASERIO EL ESFUERZO NaN ROLANDO OLIVERIO PINTO CABRERA NaN PRIMARIA OFICIAL RURAL CERRADA TEMPORALMENTE MONOLINGUE MATUTINA DIARIO(REGULAR)
5 16-14-0053-45 16-026 ALTA VERAPAZ CHAHAL INEB DE TELESECUNDARIA ALDEA LAS CONCHAS NaN ROBERTO CHUN TIUL ABELARDO CHOC COC BASICO OFICIAL RURAL ABIERTA MONOLINGUE VESPERTINA DIARIO(REGULAR)
6 16-14-0001-45 16-027 ALTA VERAPAZ CHAHAL INSTITUTO NACIONAL DE EDUCACION BASICA DE TELE… CASERIO SAN JOSE 40483348 EDGAR MANFREDO SANDOVAL ALBERTO YAT MEZ BASICO OFICIAL RURAL ABIERTA MONOLINGUE VESPERTINA DIARIO(REGULAR)
7 16-14-0002-42 16-027 ALTA VERAPAZ CHAHAL EODP COMUNIDAD SEPAC COMUNIDAD SEPAC NaN EDGAR MANFREDO SANDOVAL GUILLERMO CAC AYÚ PARVULOS OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
8 16-14-0003-42 16-027 ALTA VERAPAZ CHAHAL EODP CASERIO SETUTZ CASERIO SETUTZ NaN EDGAR MANFREDO SANDOVAL ENRIQUE ROLANDO COC POP PARVULOS OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
9 16-14-0004-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SANTO DOMINGO COMUNIDAD SANTO DOMINGO NaN EDGAR MANFREDO SANDOVAL MANUÉL ENRIQUE CANTI CHOC PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
10 16-14-0005-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SEPUR SEBAC COMUNIDAD SEPUR SEBAC NaN EDGAR MANFREDO SANDOVAL ELENA ISABEL BO TEC PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
11 16-14-0006-43 16-027 ALTA VERAPAZ CHAHAL EORM CASERÍO EL GUAYABO CASERIO EL GUAYABO NaN EDGAR MANFREDO SANDOVAL MEDARDO CHÉ CHOCOJ PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
12 16-14-0007-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SAN MARCOS RUBEL INUP CASERIO SAN MARCOS RUBEL-INUP NaN EDGAR MANFREDO SANDOVAL AVELINO ASIG TZALAM PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
13 16-14-0008-43 16-027 ALTA VERAPAZ CHAHAL EORM CASERÍO SEJALAUTE CASERIO SEJALAUTE NaN EDGAR MANFREDO SANDOVAL AVELARDO MIZ CHOC PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
14 16-14-0009-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD DE VALLE VERDE COMUNIDAD DE VALLE VERDE NaN EDGAR MANFREDO SANDOVAL JENRRI GREGORIO MOLINA LÓPEZ PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
15 16-14-0011-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SAN JACINTO CHINAYÚ CASERIO SAN JACINTO CHINAYU NaN EDGAR MANFREDO SANDOVAL MARIO ANTONIO CHOCOJ CACAO PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
16 16-14-0012-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SANTA MARÍA CHICOC COMUNIDAD SANTA MARIA CHICOC NaN EDGAR MANFREDO SANDOVAL NORMA LETICIA MOLINA PRADO PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
17 16-14-0013-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD GUADALUPE RUBEL INUP COMUNIDAD GUADALUPE RUBEL INUP NaN EDGAR MANFREDO SANDOVAL BAUDILIO RANDOLFO ASH POP PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
18 16-14-0014-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SEPAC COMUNIDAD SEPAC NaN EDGAR MANFREDO SANDOVAL GUILLERMO CAC AYÚ PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
19 16-14-0015-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SAN LUCAS SECANTÉ COMUNIDAD SAN LUCAS SECANTE NaN EDGAR MANFREDO SANDOVAL ALIDA IRENE CANTORAL PRADO PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
20 16-14-0016-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SANTA MARÍA SELAMUNX COMUNIDAD SANTA MARIA SELAMUNX NaN EDGAR MANFREDO SANDOVAL JULIO CANTI CAC PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
21 16-14-0017-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SANTIAGO SOSELHA COMUNIDAD SANTIAGO SOSELHA NaN EDGAR MANFREDO SANDOVAL EDUARDO IXIM CHOC PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
22 16-14-0018-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SAN MARCOS CHINAYÚ COMUNIDAD SAN MARCOS CHINAYU NaN EDGAR MANFREDO SANDOVAL JOSE SANTOS COY TZALAM PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
23 16-14-0019-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SAILA COMUNIDAD SAILA NaN EDGAR MANFREDO SANDOVAL MANUEL CHÉN BOL PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
24 16-14-0020-43 16-027 ALTA VERAPAZ CHAHAL EORM CASERIO SETAL CASERIO SETAL NaN EDGAR MANFREDO SANDOVAL JUAN MACZ COY PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
25 16-14-0021-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SAN JUAN EL PARAISO COMUNIDAD SAN JUAN EL PARAISO NaN EDGAR MANFREDO SANDOVAL SEBASTIAN POP BOTZOC PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
26 16-14-0022-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD CANTUTU COMUNIDAD CANTUTU NaN EDGAR MANFREDO SANDOVAL RUBÉN ADAN LÓPEZ IXIM PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
27 16-14-0023-43 16-027 ALTA VERAPAZ CHAHAL EORM CASERÍO GASPAR CHINAYÚ CASERIO GASPAR CHINAYU NaN EDGAR MANFREDO SANDOVAL EDUARDO BUTZ CATÚN PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
28 16-14-0024-43 16-027 ALTA VERAPAZ CHAHAL EORM CASERIO SETUTZ CASERIO SETUTZ NaN EDGAR MANFREDO SANDOVAL ENRIQUE ROLANDO COC POP PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
29 16-14-0025-43 16-027 ALTA VERAPAZ CHAHAL EORM COMUNIDAD SAGRADO CHABILCHOCH I COMUNIDAD SAGRADO CAHABILCHOC I NaN EDGAR MANFREDO SANDOVAL SANTIAGO PAQUIUL CHOC PRIMARIA OFICIAL RURAL ABIERTA BILINGUE MATUTINA DIARIO(REGULAR)
54350 19-01-1206-45 19-019 ZACAPA ZACAPA INSTITUTO DE TURISMO Y AVIACION DE ORIENTE 8A. CALLE 9-06 ZONA 2 BARRIO LA REFORMA NaN HUGO WILFREDO VARGAS CHACON NaN BASICO PRIVADO URBANA CERRADA TEMPORALMENTE MONOLINGUE DOBLE FIN DE SEMANA
54351 19-01-1207-46 19-019 ZACAPA ZACAPA INSTITUTO DE TURISMO Y AVIACION DE ORIENTE 8A. CALLE 9-06 ZONA 2 BARRIO LA REFORMA NaN HUGO WILFREDO VARGAS CHACON NaN DIVERSIFICADO PRIVADO URBANA CERRADA TEMPORALMENTE MONOLINGUE DOBLE FIN DE SEMANA
54352 19-01-1208-46 19-019 ZACAPA ZACAPA INSTITUTO DE TURISMO Y AVIACION DE ORIENTE 8A. CALLE 9-06 ZONA 2 BARRIO LA REFORMA NaN HUGO WILFREDO VARGAS CHACON NaN DIVERSIFICADO PRIVADO URBANA CERRADA TEMPORALMENTE MONOLINGUE VESPERTINA DIARIO(REGULAR)
54353 19-01-0418-44 25-000 ZACAPA ZACAPA INSTITUTO GUATEMALTECO DE EDUCACION RADIOFONIC… CASA PARROQUIAL NaN SONIA HAYDEE REYES MONTERROSO NaN PRIMARIA DE ADULTOS PRIVADO URBANA ABIERTA MONOLINGUE MATUTINA A DISTANCIA
54354 19-01-0894-46 25-000 ZACAPA ZACAPA INSTITUTO GUATEMALTECO DE EDUCACION RADIOFONIC… NaN NaN SONIA HAYDEE REYES MONTERROSO NaN DIVERSIFICADO PRIVADO URBANA ABIERTA MONOLINGUE MATUTINA A DISTANCIA
54355 19-01-1107-42 25-001 ZACAPA ZACAPA CENTRO DE ATENCION INFANTIL COLONIA EL MITCH ALDEA LA FRAGUA NaN BRENDA DEL ROSARIO PERMILLA LOPEZ NaN PARVULOS OFICIAL URBANA CERRADA TEMPORALMENTE MONOLINGUE DOBLE DIARIO(REGULAR)
54356 19-01-0094-42 26-018 ZACAPA ZACAPA EODP ALDEA PLAN DEL MORRO ALDEA PLAN DEL MORRO NaN ADICOGUA VIVIANA MARISELA ALFARO ROSSELL DE CABRERA PARVULOS OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54357 19-01-0095-42 26-018 ZACAPA ZACAPA EODP ALDEA BARRIO NUEVO ALDEA BARRIO NUEVO NaN ADICOGUA NaN PARVULOS OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54358 19-01-0097-42 26-018 ZACAPA ZACAPA EODP ALDEA SINANECA ALDEA SINANECA NaN ADICOGUA MARINA ELIZABETH VENTURA CHACÓN PARVULOS OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54359 19-01-0098-42 26-018 ZACAPA ZACAPA EODP CASERÍO EL CANAL CASERIO EL CANAL NaN ADICOGUA ASTRID MAYBELI TOBAR RUÍZ PARVULOS OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54360 19-01-0099-42 26-018 ZACAPA ZACAPA EODP CASERÍO LA CHISPÍA CASERIO LA CHISPIA NaN ADICOGUA NURY AMADILIA FRANCO GÓMEZ PARVULOS OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54361 19-01-0100-42 26-018 ZACAPA ZACAPA EODP CASERÍO CERRO MIRAMUNDO CASERIO CERRO MIRAMUNDO NaN ADICOGUA VERONICA ISABEL TEJEDA CHACÓN PARVULOS OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54362 19-01-0101-42 26-018 ZACAPA ZACAPA EODP CASERIO LA PLANCHA, ALDEA LA FRAGUA NaN ADICOGUA BERLY TRINIDAD GUEVARA RUÍZ PARVULOS OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54363 19-01-0102-42 26-018 ZACAPA ZACAPA EODP ALDEA LOS JOCOTES ALDEA LOS JOCOTES NaN ADICOGUA LOURDES GABRIELA MEJÍA GÓMEZ PARVULOS OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54364 19-01-0104-43 26-018 ZACAPA ZACAPA EORM ALDEA PLAN DEL MORRO ALDEA PLAN DEL MORRO NaN ADICOGUA HENRY MISAEL PÉREZ GARCÍA PRIMARIA OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54365 19-01-0105-43 26-018 ZACAPA ZACAPA EORM ALDEA CIMARRÓN ALDEA CIMARRON NaN ADICOGUA MANUEL DE JESÚS GONZÁLEZ Y GONZÁLEZ PRIMARIA OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54366 19-01-0107-43 26-018 ZACAPA ZACAPA EORM ALDEA SINANECA ALDEA SINANECA NaN ADICOGUA JACKELINE JULISSA RAMIREZ MEJÍA PRIMARIA OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54367 19-01-0108-43 26-018 ZACAPA ZACAPA EORM CASERÍO LA CHISPÍA CASERIO LA CHISPIA NaN ADICOGUA INGRID MAYLÍ RUÍZ PEÑA PRIMARIA OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54368 19-01-0109-43 26-018 ZACAPA ZACAPA EORM CASERÍO EL CANAL CASERIO EL CANAL NaN ADICOGUA DELMY MAYBELI VILLELA OSORIO PRIMARIA OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54369 19-01-0111-43 26-018 ZACAPA ZACAPA EORM ALDEA LOS JOCOTES ALDEA LOS JOCOTES NaN ADICOGUA EVA EVANGELINA LÓPEZ VÁSQUEZ PRIMARIA OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54370 19-01-0112-43 26-018 ZACAPA ZACAPA EORM CASERÍO CERRO MIRAMUNDO CASERIO CERRO MIRAMUNDO NaN ADICOGUA AURA EDIDBETH ZECEÑA URRUTIA PRIMARIA OFICIAL RURAL ABIERTA MONOLINGUE MATUTINA DIARIO(REGULAR)
54371 19-01-1017-42 27-017 ZACAPA ZACAPA EODP COLONIA JUAN PABLO II 941-5519 719-0762 ELDA LUCRECIA LANDAVERDE LEON EVELYN RAQUEL PAIZ PARVULOS OFICIAL URBANA ABIERTA MONOLINGUE DOBLE DIARIO(REGULAR)
54372 19-01-0082-46 99-001 ZACAPA ZACAPA INSTITUTO PRIVADO MIXTO DE EDUCACION DIVERSIFI… BARRIO LAS FLORES NaN SILVIA EUGENIA VALDEZ MONTERROSO DE CARBALLO NaN DIVERSIFICADO PRIVADO URBANA TEMPORAL TITULOS MONOLINGUE NOCTURNA DIARIO(REGULAR)
54373 19-01-0036-43 NaN ZACAPA ZACAPA EORM ALDEA SINANECA NaN NaN NaN PRIMARIA OFICIAL RURAL CERRADA TEMPORALMENTE MONOLINGUE MATUTINA DIARIO(REGULAR)
54374 19-01-0083-46 NaN ZACAPA ZACAPA INSTITUTO PRIVADO MIXTO DE EDUCACION DIVERSIFI… BARRIO LAS FLORES NaN NaN NaN DIVERSIFICADO PRIVADO URBANA CERRADA TEMPORALMENTE MONOLINGUE VESPERTINA DIARIO(REGULAR)
54375 19-01-0632-42 NaN ZACAPA ZACAPA COLEGIO CRISTIANO MIXTO ‘BETHEL’ 8A. CALLE 02-02 ZONA 2, BARRIO LA ESTACION NaN NaN NaN PARVULOS PRIVADO URBANA CERRADA TEMPORALMENTE MONOLINGUE MATUTINA DIARIO(REGULAR)
54376 19-01-0633-43 NaN ZACAPA ZACAPA COLEGIO CRISTIANO MIXTO ‘BETHEL’ 8A. CALLE 02-02 ZONA 2, BARRIO LA ESTACION 79412091 NaN NaN PRIMARIA PRIVADO URBANA CERRADA TEMPORALMENTE MONOLINGUE MATUTINA DIARIO(REGULAR)
54377 19-01-0700-45 NaN ZACAPA ZACAPA LICEO ZACAPA 4A. CALLE 16-30 ZONA 1 79410233 NaN NaN BASICO PRIVADO URBANA CERRADA TEMPORALMENTE MONOLINGUE MATUTINA DIARIO(REGULAR)
54378 19-01-0814-45 NaN ZACAPA ZACAPA INEB DE TELESECUNDARIA ALDEA MANZANOTES NaN NaN NaN BASICO OFICIAL RURAL CERRADA TEMPORALMENTE MONOLINGUE VESPERTINA DIARIO(REGULAR)
54379 19-01-0815-45 NaN ZACAPA ZACAPA INEB DE TELESECUNDARIA ALDEA LA MAJADA NaN NaN NaN BASICO OFICIAL RURAL CERRADA TEMPORALMENTE MONOLINGUE VESPERTINA SABATINO
54380 rows × 16 columns
# print(centros_educativos["AREA"].value_counts())
centros_educativos = centros_educativos[centros_educativos.AREA != "SIN ESPECIFICAR"]
print(centros_educativos["AREA"].value_counts())
RURAL     36747
URBANA    17632
Name: AREA, dtype: int64
for col in ["DISTRITO", "DEPARTAMENTO", "MUNICIPIO", "NIVEL","SECTOR","AREA","STATUS","MODALIDAD","JORNADA","PLAN"]:
            centros_educativos[col] = centros_educativos[col].astype('category')
#centros_educativos.groupby(["JORNADA","PLAN","AREA"],).count()
centros_educativos.groupby(["JORNADA","PLAN","AREA"]).count()["CODIGO"]
JORNADA     PLAN             AREA  
DOBLE       A DISTANCIA      RURAL        1.0
                             URBANA      45.0
            DIARIO(REGULAR)  RURAL      703.0
                             URBANA     563.0
            DOMINICAL        RURAL       23.0
                             URBANA      31.0
            FIN DE SEMANA    RURAL      325.0
                             URBANA    2242.0
            IRREGULAR        RURAL        1.0
                             URBANA       6.0
            MIXTO            RURAL        NaN
                             URBANA       NaN
            SABATINO         RURAL        6.0
                             URBANA      85.0
INTERMEDIA  A DISTANCIA      RURAL        NaN
                             URBANA       3.0
            DIARIO(REGULAR)  RURAL       21.0
                             URBANA     108.0
            DOMINICAL        RURAL        1.0
                             URBANA       NaN
            FIN DE SEMANA    RURAL        1.0
                             URBANA      13.0
            IRREGULAR        RURAL        NaN
                             URBANA       NaN
            MIXTO            RURAL        NaN
                             URBANA       NaN
            SABATINO         RURAL        NaN
                             URBANA       1.0
MATUTINA    A DISTANCIA      RURAL        1.0
                             URBANA     263.0
                                        ...  
            SABATINO         RURAL        1.0
                             URBANA      51.0
NOCTURNA    A DISTANCIA      RURAL        NaN
                             URBANA       8.0
            DIARIO(REGULAR)  RURAL       88.0
                             URBANA     709.0
            DOMINICAL        RURAL        NaN
                             URBANA       1.0
            FIN DE SEMANA    RURAL        NaN
                             URBANA       3.0
            IRREGULAR        RURAL        NaN
                             URBANA       NaN
            MIXTO            RURAL        NaN
                             URBANA       NaN
            SABATINO         RURAL        NaN
                             URBANA       NaN
VESPERTINA  A DISTANCIA      RURAL        1.0
                             URBANA      26.0
            DIARIO(REGULAR)  RURAL     4884.0
                             URBANA    3887.0
            DOMINICAL        RURAL        NaN
                             URBANA       5.0
            FIN DE SEMANA    RURAL       17.0
                             URBANA      74.0
            IRREGULAR        RURAL        NaN
                             URBANA       NaN
            MIXTO            RURAL        NaN
                             URBANA       1.0
            SABATINO         RURAL        4.0
                             URBANA      34.0
Name: CODIGO, Length: 70, dtype: float64
seaborn.factorplot(
    y="PLAN", 
    col="AREA", 
    hue="JORNADA", 
    row="NIVEL", 
    data=centros_educativos, 
    kind="count", size=4);

#seaborn.tsplot(centros_educativos.groupby(["JORNADA","PLAN","AREA"]).count()["CODIGO"])
# escuelas_heatmap_pivot = centros_educativos.pivot("PLAN", "AREA", "JORNADA")
escuelas_heatmap = centros_educativos.pivot("PLAN", "AREA", "JORNADA")

# Draw a heatmap with the numeric values in each cell
f, ax = plt.subplots(figsize=(9, 6))
sns.heatmap(escuelas_heatmap, annot=True, fmt="d", linewidths=.5, ax=ax,
y="PLAN", col="AREA", hue="JORNADA", row="NIVEL", data=centros_educativos)

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *