Estás navegando por el archivo de Gibrán Mena.

Cómo una base de datos en México se adelantó al gobierno para buscar desaparecidos

- el diciembre 5, 2017 en Noticias, Uncategorized

Peronasdesaparecidas.org.mx es el nombre de la interfaz creada por la organización sin fines de lucro Data Cívica, que logró acercar datos cruciales a familias y organizaciones que buscan a personas desparecidas en México. Estos datos, como el nombre propio de las personas en los casos del fuero común (estatal o de provincias), no están actualmente publicados en la base oficial gubernamental, el Registro Nacional de Personas Extraviadas o Desaparecidas (RNPED).

 

Lee el resto de la entrada →

Únete al mapeo y validación de datos por terremoto en México

- el septiembre 14, 2017 en Experiencias

CopyfarleftP2P Subversiones.org

El desastre en México no ha concluido. Los terremotos del 8 y 19 de septiembre dejaron centenares de muertos y millones de damnificados, muchos de los cuales lo perdieron todo.

La comunidad del equipo humanitario de OpenStreetMap (HOT), por sus siglas en inglés, se volcó inmediatamente a la tarea de mapear los daños en caminos y edificaciones, labor que es fundamental para evaluar el daño y continuar haciendo llegar ayuda humanitaria, particularmente a los estados de Chiapas y Oaxaca en ese país.

Aquí puedes consultar la tarea del último terremoto en México, y las tareas de validación y mapeo pendientes. A la cabeza de este esfuerzo está Miriam González, parte de OpenStreetMap México.

Lee el resto de la entrada →

Limpieza y transformaciones de datos con Python II

- el julio 26, 2017 en Fuentes de datos, Guest posts, Tutoriales, Uncategorized

Desde Escuela de Datos, Sebastián Oliva, fellow 2017, enseña cómo usar la librería de Pandas, Numpy y Seaborn para Python para hacer manipulaciones, transformaciones y tablas dinámicas o pivotes. En este ejercicio vimos cómo hacer un stack, agrupaciones, e incluso cómo usar un hash para hacer anónimos algunos de nuestros datos sin perder granularidad.
Pues seguir el webinar del 26 de julio paso a paso en el cuaderno que compartimos contigo. También puedes consultar el cuaderno de trabajo de Sebastián aquí.

Estas son las librerías que usaremos y que es requerido importar para nuestro ejercicio.
In [1]:
import pandas as pd
import numpy as np
import seaborn
%pylab notebook

import hashlib
import humanhash

Tablas Pivote

Es muy común la agrupación de información en formato ‘stack’ donde tenemos filas de datos que demuestran una correlación entre dos sets de valores.

Las tablas pivote son una forma de re-ordenar los datos en una estructura tabular donde podemos agrupar los valores convirtiendo las tuplas entre valores numéricos.

En este caso de ejemplo, crearemos un dataset de prueba con la diversidad de restaurantes en varias ciudades centroamericanas. En esta vamos a comenzar a trabajar con dos columnas, una donde describe cada ciudad y la otra con la variedad de cocina disponible en cada una.

In [2]:
data_restaurantes = {
    'ciudades': ['Guatemala','Guatemala','Guatemala','Guatemala','Guatemala','Guatemala','San José','San José','San José','San José','San José','San Salvador','San Salvador','San Salvador'],
    'culinaria': ['Chapina','Chapina','China','Thai','Italiana','Chapina','Italiana','China','Tica','Chapina','Tica','Tica','Italiana','China']
}

restaurantes_dataframe_pares = pd.DataFrame(data_restaurantes)
restaurantes_dataframe_pares
Out[2]:
ciudades culinaria
0 Guatemala Chapina
1 Guatemala Chapina
2 Guatemala China
3 Guatemala Thai
4 Guatemala Italiana
5 Guatemala Chapina
6 San José Italiana
7 San José China
8 San José Tica
9 San José Chapina
10 San José Tica
11 San Salvador Tica
12 San Salvador Italiana
13 San Salvador China

Podemos ver entonces este listado de valores, tupla por tupla. Que tal si queremos contar la presencia de cada tipo de cocina en cada región. Probemos utilizando entonces el comando DataFrame.pivot_table de Pandas.

Este pide unos cuantos argumentos los que podemos ver en la documentación. Unos cuantos son obvios, como el definir las filas y columnas que esperamos de la tabla objetivo. Sin embargo, lo más notable es que ya que los tipos de datos que estamos utilizando no son numéricos, es necesario que definamos una funcion de agrupación que nos permita contar la cantidad de instancias de cada combinación.

In [3]:
def funcion_agrupacion(elemento):
    return True

agrupacion_culinaria = restaurantes_dataframe_pares.pivot_table(
    index=["ciudades"],
    columns="culinaria",
    aggfunc=funcion_agrupacion,
    fill_value=False)
agrupacion_culinaria
Out[3]:
culinaria Chapina China Italiana Thai Tica
ciudades
Guatemala True True True True False
San José True True True False True
San Salvador False True True False True

Hmm, esto ya se ve con la forma que queremos, sin embargo solo nos muestra la presencia o ausencia de algún tipo de cocina. Esto es fácil de explicar ya que definimos nuestra función de agrupación como retornar True si existe presencia a retornar False si No. ¿Qué tal si hacemos una mejor función de agrupación?

In [4]:
def funcion_agrupacion(elemento):
    '''Contemos cuantas instancias de cada tupla existen.'''
    ## El comando len(iterable) cuenta la cantidad de elementos que tiene el objeto iterable que le pasemos
    ## los elementos iterables pueden ser listas normales, Series de NumPy o Pandas, o diccionarios y otros tipos de datos.
    return len(elemento)
agrupacion_culinaria = restaurantes_dataframe_pares.pivot_table(index=["ciudades"], columns="culinaria", aggfunc=lambda x: funcion_agrupacion(x), fill_value=0)
agrupacion_culinaria
Out[4]:
culinaria Chapina China Italiana Thai Tica
ciudades
Guatemala 3 1 1 1 0
San José 1 1 1 0 2
San Salvador 0 1 1 0 1

¡Genial! Ahora ya tenemos agrupadas estas de una forma coherente. Ahora ya podemos seguir manipulando y editando estos datos. Pero, ¿qué tal si hacemos un poco más simple esta llamada? Al final nuestra función de agrupación lo unico que hace es contar la cantidad de tuplas sobre las cuales aplica el pivote. ¿Qué tal si lo hacemos un poco más simple?

In [5]:
agrupacion_culinaria = restaurantes_dataframe_pares.pivot_table(
    index=["ciudades"], 
    columns="culinaria", 
    aggfunc=len, ## Enviamos directamente la función de agrupación. Entre otras funcionas de agrupacíon útiles está np.sum (la función de suma de NumPy) y np.mean (media)
    fill_value=0)
agrupacion_culinaria
Out[5]:
culinaria Chapina China Italiana Thai Tica
ciudades
Guatemala 3 1 1 1 0
San José 1 1 1 0 2
San Salvador 0 1 1 0 1

Claro, la tabla resultante se comporta exactamente igual y tiene todas las propiedades nativas de los DataFrames. ¿Qué tal si limitamos la query a solo los lugares en ciudad de Guatemala?

In [6]:
agrupacion_culinaria.query('ciudades == ["Guatemala"]')
Out[6]:
culinaria Chapina China Italiana Thai Tica
ciudades
Guatemala 3 1 1 1 0
In [7]:
help(restaurantes_dataframe_pares.pivot_table)
Help on method pivot_table in module pandas.core.reshape.pivot:

pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All') method of pandas.core.frame.DataFrame instance
    Create a spreadsheet-style pivot table as a DataFrame. The levels in the
    pivot table will be stored in MultiIndex objects (hierarchical indexes) on
    the index and columns of the result DataFrame
    
    Parameters
    ----------
    data : DataFrame
    values : column to aggregate, optional
    index : column, Grouper, array, or list of the previous
        If an array is passed, it must be the same length as the data. The list
        can contain any of the other types (except list).
        Keys to group by on the pivot table index.  If an array is passed, it
        is being used as the same manner as column values.
    columns : column, Grouper, array, or list of the previous
        If an array is passed, it must be the same length as the data. The list
        can contain any of the other types (except list).
        Keys to group by on the pivot table column.  If an array is passed, it
        is being used as the same manner as column values.
    aggfunc : function or list of functions, default numpy.mean
        If list of functions passed, the resulting pivot table will have
        hierarchical columns whose top level are the function names (inferred
        from the function objects themselves)
    fill_value : scalar, default None
        Value to replace missing values with
    margins : boolean, default False
        Add all row / columns (e.g. for subtotal / grand totals)
    dropna : boolean, default True
        Do not include columns whose entries are all NaN
    margins_name : string, default 'All'
        Name of the row / column that will contain the totals
        when margins is True.
    
    Examples
    --------
    >>> df
       A   B   C      D
    0  foo one small  1
    1  foo one large  2
    2  foo one large  2
    3  foo two small  3
    4  foo two small  3
    5  bar one large  4
    6  bar one small  5
    7  bar two small  6
    8  bar two large  7
    
    >>> table = pivot_table(df, values='D', index=['A', 'B'],
    ...                     columns=['C'], aggfunc=np.sum)
    >>> table
              small  large
    foo  one  1      4
         two  6      NaN
    bar  one  5      4
         two  6      7
    
    Returns
    -------
    table : DataFrame
    
    See also
    --------
    DataFrame.pivot : pivot without aggregation that can handle
        non-numeric data

In [8]:
## Con el argumento Margins, Panda calcula los valores sumados de los totales por agrupación.
agrupacion_culinaria_m = restaurantes_dataframe_pares.pivot_table(
    index=["ciudades"],
    columns="culinaria",
    aggfunc=len,
    fill_value=0,
    margins=True,
    margins_name="Total")
agrupacion_culinaria_m
Out[8]:
culinaria Chapina China Italiana Thai Tica Total
ciudades
Guatemala 3.0 1.0 1.0 1.0 0.0 6.0
San José 1.0 1.0 1.0 0.0 2.0 5.0
San Salvador 0.0 1.0 1.0 0.0 1.0 3.0
Total 4.0 3.0 3.0 1.0 3.0 14.0

Múltiples Valores y Múltiples Indices

¿Qué tal si tenemos datos que tienen una estructura Jerárquica inherente? Podemos utilizar la misma forma de multi indexación que vimos en el seminario pasado, lo importante es que a la hora de la definición del índice, Pandas es capaz de manipularlos e inteligentemente ordenar los niveles acorde.

In [9]:
restaurantes_dataframe_pares['estrellas'] = [5,3,3,5,3,1,2,2,4,3,4,3,2,3]
restaurantes_dataframe_estrellas = restaurantes_dataframe_pares
restaurantes_dataframe_estrellas
Out[9]:
ciudades culinaria estrellas
0 Guatemala Chapina 5
1 Guatemala Chapina 3
2 Guatemala China 3
3 Guatemala Thai 5
4 Guatemala Italiana 3
5 Guatemala Chapina 1
6 San José Italiana 2
7 San José China 2
8 San José Tica 4
9 San José Chapina 3
10 San José Tica 4
11 San Salvador Tica 3
12 San Salvador Italiana 2
13 San Salvador China 3

Pivotando sobre la especialidad culinaria y estrellas, podemos las ciudades con la mayor oferta culinaria, o cuales tienen el mejor promedio de estrellas.

In [10]:
agrupacion_culinaria_promedio_estrellas = restaurantes_dataframe_estrellas.pivot_table(
    index=["ciudades"], 
    values=["culinaria", "estrellas"], 
    aggfunc={"culinaria":len,"estrellas":np.mean},
    fill_value=0)
agrupacion_culinaria_promedio_estrellas
Out[10]:
culinaria estrellas
ciudades
Guatemala 6 3.333333
San José 5 3.000000
San Salvador 3 2.666667

¿Qué tal si queremos ver cuantas estrellas en promedio tienen los restaurantes, por clase de comida, por ciudad?

In [11]:
agrupacion_culinaria_por_estrellas = restaurantes_dataframe_estrellas.pivot_table(
    index=["culinaria"], 
    values=["estrellas"], 
    columns=["estrellas"],
    aggfunc={"estrellas":np.mean},
    fill_value=0)
agrupacion_culinaria_por_estrellas
Out[11]:
estrellas
estrellas 1 2 3 4 5
culinaria
Chapina 1 0 3 0 5
China 0 2 3 0 0
Italiana 0 2 3 0 0
Thai 0 0 0 0 5
Tica 0 0 3 4 0
In [12]:
agrupacion_culinaria_por_estrellas = restaurantes_dataframe_estrellas.pivot_table(
    index=["culinaria"], 
    values=["estrellas"], 
    columns=["estrellas"],
    aggfunc={"estrellas":len},
    fill_value=0)
agrupacion_culinaria_por_estrellas
Out[12]:
estrellas
estrellas 1 2 3 4 5
culinaria
Chapina 1 0 2 0 1
China 0 1 2 0 0
Italiana 0 2 1 0 0
Thai 0 0 0 0 1
Tica 0 0 1 2 0

Hmm… esto no es muy útil, solo nos dice tautológicamente, que los restaurantes de ‘n’ estrellas tienen ‘n’ estrellas. ¿Pueden ver porque el error?

In [13]:
agrupacion_culinaria_por_estrellas = restaurantes_dataframe_estrellas.pivot_table(
    index=["ciudades"], 
    values=["estrellas"], 
    columns=["culinaria"], ## Aqui es obvio ver que lo que queremos es diferenciar por variedad culinaria.
    aggfunc={"estrellas":np.mean},
    fill_value=0)
agrupacion_culinaria_por_estrellas
Out[13]:
estrellas
culinaria Chapina China Italiana Thai Tica
ciudades
Guatemala 3 3 3 5 0
San José 3 2 2 0 4
San Salvador 0 3 2 0 3
In [14]:
agrupacion_culinaria_por_estrellas.plot(kind="bar")
<IPython.core.display.Javascript object>
Out[14]:
<matplotlib.axes._subplots.AxesSubplot at 0x7fc53ffa1a58>

Entonces, recapitulando:

¿De qué nos sirven las tablas pivote?

¿Que clase de operación representan?

¿En que casos podemos usarlas?

Agrupando, parte dos

Ya vimos algunos de los criterios básicos de agrupación en el primer webinar, ahora podemos avanzar un poco, combinando agrupación con pivote.

Tambien podemos usar stack, que es otra forma de agrupación basada en índices.

In [15]:
maga_fitosanitario = pd.read_csv("MAGA - CERTIFICADOS FITOSANITARIOS.csv")
In [16]:
hashlib.md5("Hola".encode("UTF-8")).hexdigest()
Out[16]:
'f688ae26e9cfa3ba6235477831d5122e'
In [17]:
pd.set_option('display.float_format', lambda x: '%.1f' % x)

## Vamos a limpiar un poco de información
def ofusca_nombre(nombre):
    return humanhash.humanize(hashlib.md5(nombre.encode("UTF-8")).hexdigest())

maga_fitosanitario["Solicitante"] = maga_fitosanitario["Solicitante"].map(ofusca_nombre)
maga_fitosanitario["Fecha Autorización"] = maga_fitosanitario["Fecha Autorización"].map(pd.Timestamp)
In [18]:
def clean_q(input_object):
    from re import sub  ## importamos la función sub, que substituye utilizando patrones
    ## https://es.wikipedia.org/wiki/Expresión_regular
    
    ## NaN es un objeto especial que representa un valor numérico invalido, Not A Number.
    if input_object == NaN:
        return 0
    inp = unicode(input_object) # De objeto a un texto
    cleansed_00 = sub(r'\.000', '000', inp) 
    cleansed_nonchar = sub(r'[^0-9]+', '', cleansed_00)
    if cleansed_nonchar == '':
        return 0
    return cleansed_nonchar

maga_fitosanitario["Kg. Netos"] = maga_fitosanitario["Kg. Netos"].map(clean_q).astype(float)
In [36]:
maga_fitosanitario["Kg. Netos"].head()
Out[36]:
0   1360779.0
1    816467.0
2   3483624.0
3   3483624.0
4    151800.0
Name: Kg. Netos, dtype: float64
In [20]:
maga_fitosanitario = pd.read_csv("MAGA - CERTIFICADOS FITOSANITARIOS - LIMPIO.csv")
maga_fitosanitario.head()
Out[20]:
Incidente Fecha Autorización Solicitante Permiso Producto Categoría CIF $ Kg. Netos Aduana País procedencia País origen Otra fuente de origen
0 49 2014-04-04 sodium-pasta-glucose-mexico 142432 CASCARILLA DE ARROZ MATERIA PRIMA PARA CONCENTRADOS 125.0 1360779.0 MELCHOR DE MENCOS Belice Belice NaN
1 50 2014-04-04 sodium-pasta-glucose-mexico 142425 CASCARILLA DE ARROZ MATERIA PRIMA PARA CONCENTRADOS 75.0 816467.0 MELCHOR DE MENCOS Belice Belice NaN
2 275 2014-07-04 robert-vermont-one-robert 142479 CASCARILLA DE ARROZ MATERIA PRIMA PARA CONCENTRADOS 2584.1 3483624.0 PEDRO DE ALVARADO Nicaragua Nicaragua NaN
3 276 2014-07-04 robert-vermont-one-robert 142480 CASCARILLA DE ARROZ MATERIA PRIMA PARA CONCENTRADOS 2584.1 3483624.0 PEDRO DE ALVARADO Nicaragua Nicaragua NaN
4 177 2014-07-04 zebra-missouri-arkansas-island 142478 HARINA DE TRIGO HARINA DE TRIGO 81601.2 151800.0 TECUN UMAN México México NaN
In [21]:
maga_fitosanitario.groupby("Producto").sum().sort_values("CIF $", ascending=False).head(20)
Out[21]:
Permiso CIF $ Kg. Netos
Producto
MAIZ AMARILLO 53491946 183595249.4 2753711966.0
HARINA DE SOYA 18899910 56391529.9 177684115.0
ARROZ EN GRANZA 3201212 24568825.5 59041504.0
HARINA DE TRIGO 76664602 24272107.3 54953080.0
AJONJOLI NATURAL 9215686 15985707.0 20396870.0
ARROZ GRANZA 15088878 13883822.8 57978262.0
ALGODON 9014988 12028250.9 200973442.0
ALGODON SIN CARDAR NI PEINAR 5222374 8151960.6 19619672.0
MADERA DE PINO (SECA) 9285734 6498009.3 11404341.0
ARROZ 8758770 6111828.4 9988554.0
FRIJOL SOYA 1596785 5624212.9 17070365.0
MANZANAS 33723186 5591158.4 20625086.0
SEMOLA DE TRIGO 56157142 4567556.7 8012544.0
FRIJOL DE SOYA 434597 4262725.7 7231349.0
SEMILLA DE MELON 6774325 4132506.5 1113131.0
MAIZ BLANCO 4420695 4036005.2 161351106.0
AVENA PELADA Y ESTABILIZADA 3052102 3316810.3 51045868.0
MALTA DE CEBADA 440964 3160297.3 5316000.0
HARINA DE MAIZ 35816036 3134320.9 5236321.0
ALGODON SIN PEINAR NI CARDAR 1309843 2879479.1 1354471.0
In [22]:
maga_productos_pivot = maga_fitosanitario.pivot_table(
    index=["Categoría", "Producto"], 
    values=["CIF $", "Permiso","Kg. Netos"], 
    aggfunc={"CIF $":np.sum,"Permiso":len, "Kg. Netos": np.sum},
    fill_value=0)
In [23]:
maga_productos_pivot
Out[23]:
CIF $ Kg. Netos Permiso
Categoría Producto
AJONJOLI AJONJOLI DESCORTEZADO 250093.8 94375 1
AJONJOLI NATURAL 10702707.0 15867870 46
ALGODÓN ALGODON 12028250.9 200973442 62
ALGODON (BLANQUEADO) 52969.2 185857 1
ALGODON (EN PACAS) 35604.5 21805 1
ALGODON (PACAS) 48087.7 21830 1
ALGODON (SIN CARDAR NI PEINAR) 1934207.8 858309 10
ALGODON (SIN PEINAR NI CARDAR) 507479.4 238664 2
ALGODON BLANQUEADO 52658.4 175528 1
ALGODON SI CARDAR NI PEINAR 45158.1 19791 1
ALGODON SIN CARDAR NI PEINAR 8151960.6 19619672 36
ALGODON SIN PEINAR NI CARDAR 2879479.1 1354471 9
DESPERDICIO DE HILADOS DE ALGODON 32070.3 2148381 2
PACAS DE ALGODON 371093.7 196171 9
ALMIDON DE MAIZ ALMIDON (GLOBE AA SPV/25 KG) DE MAIZ 12500.0 20000 1
ALMIDON DE MAIZ 487747.5 872125 19
ALMIDON DE MAIZ (CORRUPAC) 13515.0 21250 1
ALMIDON DE MAIZ AA 7075.0 12500 1
ALMIDON DE MAIZ CORRUPAC 59038.5 105000 5
ALPISTE ALPISTE 54856.6 5048035 3
ARBOLES NATURALES SEMILLA DE TECA (TECTONA GRANDIS) 1388.6 60 1
SEMILLAS DE ARBOLES (Lluvia de oro y Papaya) 66.0 1 1
SEMILLAS DE ARBOLES (Lluvia de oro, Papaya y Strelizia) 127.6 22 1
ARROZ ARROZ 6111828.4 9988554 60
ARROZ (PARBOIL) 97606.0 11965890 2
ARROZ EN GRANO 20400.5 36114 4
ARROZ EN GRANZA 21791713.2 52447074 20
ARROZ EN ORO 55507.9 16873826 4
ARROZ ESCALDADO 240050.0 661234 10
ARROZ GRANZA 13883822.8 57978262 104
SUSTRATOS FIBRA DE COCO 78753.3 101682 4
FIBRA DE COCO (SUSTRATO) 117332.5 172140 7
FIBRA DE COCO TRATADA 132302.4 2770913 5
FIBRA DE ESTOPA DE COCO 375.0 6000 1
PEAT MOSS 655093.3 1226466 25
PEAT MOSS (BOLSAS DE ENRAIZADORES) 16425.0 48700 1
PEAT MOSS (SUSTRATO ) 3258.7 114288 1
PEAT MOSS (SUSTRATO DARK VEGETABLE MIX) 7151.8 23026 1
PEAT MOSS (SUSTRATO DE TURBA) 16068.0 71590 1
PEAT MOSS (SUSTRATO) 99434.2 263060 3
PEAT MOSS (TURBA) 213577.5 219207 3
PEAT MOSS SPHAGNUM (SUSTRATO DE TURBA) 15803.5 44000 1
PEAT SPHAGNUM 6905.0 21700 1
PEAT SPHAGNUM (SOD PEAT 0-20 NEUTRALIZED) 6870.5 22800 1
POLVO DE ESTOPA DE COCO 1750.0 8400 1
SUSTRATO ABONO DE TURBA 7795.6 22000 1
SUSTRATO DE COCO (COCOS NUCIFERA) 500.0 1004 1
SUSTRATO PEAT MOSS SPHAGNUM SPP (ABONO DE ORIGEN VEGETAL) 7900.2 25700 1
SUSTRATO SPAGNUM (MUSGO ESPANGINEO SECO) 12740.0 3185 1
TABACO EN RAMA SEMILLA DE TABACO 73396.5 10480 5
SEMILLAS DE TABACO 68060.4 35477 2
TELA DE YUTE SACO DE YUTE 42250.0 18200 1
SACO DE YUTE (40X28″ 460 grms/m2) 21624.0 15640 1
SACO DE YUTE (40×28″ 460 grms/m2) 43248.0 31280 2
SACOS DE YUTE 265198.1 669894 7
SACOS DE YUTE (28X40″ 750GR) 42250.0 18200 1
TELA DE YUTE 392247.7 307970 14
TRIGO EN ESTADO NATURAL SEMILLA DE TRIGO 300.0 20 2
TRIGO 201382.9 506000 24
TRIGO (ROJO SUAVE DE INVIERNO) 517598.6 1600000 2

1227 rows × 3 columns

In [24]:
maga_aduanas_pivot = maga_fitosanitario.pivot_table(
    index=["País origen", "Aduana"], 
    values=["CIF $", "Kg. Netos"],
    aggfunc={"CIF $":np.sum,"Kg. Netos":np.mean},
    fill_value=0)
maga_aduanas_pivot
Out[24]:
CIF $ Kg. Netos
País origen Aduana
ALEMANIA EXPRESS AEREO 102326.9 408.7
PUERTO QUETZAL 1727517.6 3000000.0
SANTO TOMAS DE CASTILLA 10050.2 16000.0
ARGENTINA PEDRO DE ALVARADO 3166.1 306817.0
PUERTO BARRIOS 163440.7 72900.0
PUERTO QUETZAL 187991.7 45965.1
SANTO TOMAS DE CASTILLA 410929.5 42113.6
AUSTRALIA EXPRESS AEREO 94350.0 2775.0
PUERTO QUETZAL 26932.2 21375.0
SANTO TOMAS DE CASTILLA 113750.0 3464.0
TECUN UMAN 5803.1 546201.0
Alemania EXPRESS AEREO 29503.2 48.5
Argentina SANTO TOMAS DE CASTILLA 15510.0 22000.0
BANGLADESH PUERTO QUETZAL 48274.4 16425.0
SANTO TOMAS DE CASTILLA 72000.0 537894.0
BELGICA EXPRESS AEREO 91348.9 1203.0
PUERTO QUETZAL 1855830.6 1500078.0
TECUN UMAN 192549.9 65179.2
BELICE MELCHOR DE MENCOS 547047.4 1097158.3
BOLIVIA PUERTO QUETZAL 91800.0 18000.0
BRASIL EXPRESS AEREO 121048.1 11588.5
PUERTO BARRIOS 245407.8 17108.0
SANTO TOMAS DE CASTILLA 3604767.2 382245.2
BURKINA FASO SANTO TOMAS DE CASTILLA 42888.0 19500.0
Belice MELCHOR DE MENCOS 45400.0 578402.5
CANADÁ EXPRESS AEREO 72.1 458.0
PUERTO BARRIOS 551903.1 51886.2
PUERTO QUETZAL 908538.0 175239.1
SANTO TOMAS DE CASTILLA 1231395.6 94833.4
CHAD PUERTO QUETZAL 35640.0 18000.0
PERÚ EXPRESS AEREO 2572758.1 12905.7
PUERTO QUETZAL 341275.7 14211.7
SANTO TOMAS DE CASTILLA 49007.5 5258.3
POLONIA EXPRESS AEREO 6366.9 30.0
PORTUGAL EXPRESS AEREO 667.3 12.0
Países Bajos EXPRESS AEREO 6890.2 40.0
SANTO TOMAS DE CASTILLA 586587.1 18211.0
Perú EXPRESS AEREO 2428.0 500.0
REINO UNIDO EXPRESS AEREO 225.2 42.0
REPÚBLICA DOMINICANA SANTO TOMAS DE CASTILLA 734869.1 1859816.9
SRI LANKA PUERTO QUETZAL 711008.5 52775.5
SANTO TOMAS DE CASTILLA 665303.2 381409.6
SUDÁFRICA EXPRESS AEREO 310826.5 271127.0
SUDÁN PUERTO QUETZAL 36826.8 12412.5
SUECIA EXPRESS AEREO 72927.0 392008.0
PUERTO QUETZAL 1827487.7 1500000.0
TAILANDIA EXPRESS AEREO 226567.5 16619.1
PUERTO QUETZAL 28765.0 1750.0
TAIWAN EXPRESS AEREO 205971.6 11966.5
VALLE NUEVO 1200.0 70.0
TANZANIA PUERTO QUETZAL 330340.0 20000.0
TURQUÍA EXPRESS AEREO 262.9 145.0
URUGUAY SANTO TOMAS DE CASTILLA 1485896.5 103641.5
UZBEKISTÁN SANTO TOMAS DE CASTILLA 106000.0 100240.0
Uruguay SANTO TOMAS DE CASTILLA 59007.8 108215.0
VENEZUELA PUERTO QUETZAL 13881240.0 254221.7
SANTO TOMAS DE CASTILLA 1185600.0 197600.0
VIETNAM EXPRESS AEREO 163930.0 10129.0
PUERTO QUETZAL 420550.0 19750.0
YEMEN PUERTO QUETZAL 167528.0 24300.0

186 rows × 2 columns

Que tal si indagamos mas en las categorias que se importan de cada país.

In [25]:
maga_aduanas_pivot = maga_fitosanitario.pivot_table(
    index=["País origen", "Aduana", "Categoría"], 
    values=["CIF $"], 
    aggfunc={"CIF $":np.sum},
    fill_value=0)
maga_aduanas_pivot
Out[25]:
CIF $
País origen Aduana Categoría
ALEMANIA EXPRESS AEREO ESQUEJES RIZOMAS BULBOS 72024.6
MATERIA PRIMA PARA ALIMENTOS 19900.5
SEMILLAS DE FLORES 475.8
SEMILLAS DE HORTALIZA 9926.0
PUERTO QUETZAL MALTA 1727517.6
SANTO TOMAS DE CASTILLA MALTA 10050.2
ARGENTINA PEDRO DE ALVARADO MAIZ PARA CONSUMO HUMANO 3166.1
PUERTO BARRIOS FRIJOL NEGRO 139899.7
FRIJOL PINTO 23541.0
PUERTO QUETZAL FRUTAS 60811.9
GRANOS 108570.0
SEMILLAS DE FLORES 18609.9
SANTO TOMAS DE CASTILLA GRANOS 171417.0
MAIZ PARA CONSUMO HUMANO 89333.0
MAIZ PARA ELAB DE CONCENTRADOS 34881.5
SEMILLAS DE FLORES 94778.0
SEMILLAS DE HORTALIZA 20520.0
AUSTRALIA EXPRESS AEREO SEMILLAS DE HORTALIZA 94350.0
PUERTO QUETZAL MADERA CEPILLADA 26932.2
SANTO TOMAS DE CASTILLA SEMILLAS DE HORTALIZA 113750.0
TECUN UMAN MADERA ASERRADA 5803.1
Alemania EXPRESS AEREO ESQUEJES RIZOMAS BULBOS 26028.2
SEMILLAS DE HORTALIZA 3475.0
Argentina SANTO TOMAS DE CASTILLA SEMILLAS DE FLORES 15510.0
BANGLADESH PUERTO QUETZAL TELA DE YUTE 48274.4
SANTO TOMAS DE CASTILLA TELA DE YUTE 72000.0
BELGICA EXPRESS AEREO SEMILLAS DE HORTALIZA 91348.9
PUERTO QUETZAL MALTA 1855830.6
TECUN UMAN ALMIDON DE MAIZ 10500.0
HARINA DE TRIGO 162327.3
SUDÁN PUERTO QUETZAL ESPECIAS 36826.8
SUECIA EXPRESS AEREO SEMILLAS DE HORTALIZA 72927.0
PUERTO QUETZAL MALTA 1827487.7
TAILANDIA EXPRESS AEREO ESQUEJES RIZOMAS BULBOS 10223.5
FLORES 4288.4
SEMILLAS DE FLORES 5.2
SEMILLAS DE FRUTAS 611.3
SEMILLAS DE HORTALIZA 210959.6
SEMOLA DE TRIGO 479.6
PUERTO QUETZAL SEMILLAS DE HORTALIZA 28765.0
TAIWAN EXPRESS AEREO ESQUEJES RIZOMAS BULBOS 1152.0
FLORES 27781.0
SEMILLAS DE FRUTAS 80970.4
SEMILLAS DE HORTALIZA 96068.2
VALLE NUEVO FLORES 1200.0
TANZANIA PUERTO QUETZAL SEMILLAS DE FLORES 330340.0
TURQUÍA EXPRESS AEREO SEMILLAS DE FLORES 223.7
SEMILLAS DE HORTALIZA 39.2
URUGUAY SANTO TOMAS DE CASTILLA ARROZ 463200.0
MADERA ASERRADA 902423.4
MADERA CEPILLADA 120273.1
UZBEKISTÁN SANTO TOMAS DE CASTILLA ARROZ 106000.0
Uruguay SANTO TOMAS DE CASTILLA MADERA CEPILLADA 59007.8
VENEZUELA PUERTO QUETZAL AJONJOLI 8910240.0
HORTALIZAS 4971000.0
SANTO TOMAS DE CASTILLA AJONJOLI 873600.0
HORTALIZAS 312000.0
VIETNAM EXPRESS AEREO SEMILLAS DE HORTALIZA 163930.0
PUERTO QUETZAL ESPECIAS 420550.0
YEMEN PUERTO QUETZAL ESPECIAS 167528.0

569 rows × 1 columns

In [26]:
maga_aduanas_pivot_top10 = maga_aduanas_pivot.sort_values("CIF $", ascending=False).head(10)
In [27]:
maga_aduanas_pivot_top10.plot(kind="barh")
<IPython.core.display.Javascript object>
Out[27]:
<matplotlib.axes._subplots.AxesSubplot at 0x7fc53d5e0ac8>

Tambien es util mostrar la tabla, podemos ponerle un poco de estilo con la funcionalidad de Seaborn + Pandas

In [28]:
cm_paleta_verde = seaborn.light_palette("green", as_cmap=True)
s = maga_aduanas_pivot_top10.style.background_gradient(cmap=cm_paleta_verde)
s
Out[28]:
CIF $
País origen Aduana Categoría
ESTADOS UNIDOS PUERTO QUETZAL MAIZ PARA ELAB DE CONCENTRADOS 1.86755e+08
HARINA DE SOYA 5.61949e+07
ARROZ 3.27899e+07
SANTO TOMAS DE CASTILLA ALGODÓN 2.14909e+07
MEXICO TECUN UMAN HARINA DE TRIGO 1.86481e+07
VENEZUELA PUERTO QUETZAL AJONJOLI 8.91024e+06
ESTADOS UNIDOS PUERTO QUETZAL SOYA 8.52571e+06
FRUTAS 6.72475e+06
CHILE PUERTO QUETZAL MADERA ASERRADA 5.71528e+06
VENEZUELA PUERTO QUETZAL HORTALIZAS 4.971e+06
In [29]:
maga_aduanas_pivot = maga_fitosanitario.pivot_table(
    index=["País origen", "Aduana", "Categoría"], 
    values=["CIF $"], 
    aggfunc={"CIF $":np.sum},
    fill_value=0)
maga_aduanas_pivot
cm_paleta_verde = seaborn.light_palette("green", as_cmap=True)
s = maga_aduanas_pivot_top10.style.background_gradient(cmap=cm_paleta_verde)
s
Out[29]:
CIF $
País origen Aduana Categoría
ESTADOS UNIDOS PUERTO QUETZAL MAIZ PARA ELAB DE CONCENTRADOS 1.86755e+08
HARINA DE SOYA 5.61949e+07
ARROZ 3.27899e+07
SANTO TOMAS DE CASTILLA ALGODÓN 2.14909e+07
MEXICO TECUN UMAN HARINA DE TRIGO 1.86481e+07
VENEZUELA PUERTO QUETZAL AJONJOLI 8.91024e+06
ESTADOS UNIDOS PUERTO QUETZAL SOYA 8.52571e+06
FRUTAS 6.72475e+06
CHILE PUERTO QUETZAL MADERA ASERRADA 5.71528e+06
VENEZUELA PUERTO QUETZAL HORTALIZAS 4.971e+06
In [30]:
maga_fitosanitario
Out[30]:
Incidente Fecha Autorización Solicitante Permiso Producto Categoría CIF $ Kg. Netos Aduana País procedencia País origen Otra fuente de origen
0 49 2014-04-04 sodium-pasta-glucose-mexico 142432 CASCARILLA DE ARROZ MATERIA PRIMA PARA CONCENTRADOS 125.0 1360779.0 MELCHOR DE MENCOS Belice Belice NaN
1 50 2014-04-04 sodium-pasta-glucose-mexico 142425 CASCARILLA DE ARROZ MATERIA PRIMA PARA CONCENTRADOS 75.0 816467.0 MELCHOR DE MENCOS Belice Belice NaN
2 275 2014-07-04 robert-vermont-one-robert 142479 CASCARILLA DE ARROZ MATERIA PRIMA PARA CONCENTRADOS 2584.1 3483624.0 PEDRO DE ALVARADO Nicaragua Nicaragua NaN
3 276 2014-07-04 robert-vermont-one-robert 142480 CASCARILLA DE ARROZ MATERIA PRIMA PARA CONCENTRADOS 2584.1 3483624.0 PEDRO DE ALVARADO Nicaragua Nicaragua NaN
4 177 2014-07-04 zebra-missouri-arkansas-island 142478 HARINA DE TRIGO HARINA DE TRIGO 81601.2 151800.0 TECUN UMAN México México NaN
5 152 2014-07-04 beryllium-aspen-colorado-fish 142468 HARINA DE TRIGO HARINA DE TRIGO 11726.3 20866.0 SAN CRISTOBAL El Salvador El Salvador NaN
6 153 2014-07-04 beryllium-aspen-colorado-fish 142467 HARINA DE TRIGO HARINA DE TRIGO 11726.3 20866.0 SAN CRISTOBAL El Salvador El Salvador NaN
7 155 2014-07-04 beryllium-aspen-colorado-fish 142469 HARINA DE TRIGO HARINA DE TRIGO 11726.3 20866.0 SAN CRISTOBAL El Salvador El Salvador NaN
8 156 2014-07-04 beryllium-aspen-colorado-fish 142470 HARINA DE TRIGO HARINA DE TRIGO 11726.3 20866.0 SAN CRISTOBAL El Salvador El Salvador NaN
9 162 2014-07-04 robert-vermont-one-robert 142474 CASCARILLA DE ARROZ MATERIA PRIMA PARA CONCENTRADOS 2584.1 3483624.0 PEDRO DE ALVARADO Nicaragua Nicaragua NaN
10 164 2014-07-04 robert-vermont-one-robert 142473 CASCARILLA DE ARROZ MATERIA PRIMA PARA CONCENTRADOS 2584.1 3483624.0 PEDRO DE ALVARADO Nicaragua Nicaragua NaN
11 68 2014-07-04 kentucky-stream-crazy-winner 142440 CASCARILLA DE ARROZ MATERIA PRIMA PARA ALIMENTOS 500.0 16000.0 PEDRO DE ALVARADO Nicaragua Nicaragua NaN
12 122 2014-07-04 echo-fillet-red-november 142463 MAIZ AMARILLO MAIZ PARA ELAB DE CONCENTRADOS 11250.0 68182.0 MELCHOR DE MENCOS Belice Belice NaN
13 123 2014-07-04 echo-fillet-red-november 142453 MAIZ AMARILLO MAIZ PARA ELAB DE CONCENTRADOS 11250.0 68182.0 MELCHOR DE MENCOS Belice Belice NaN
14 142 2014-07-04 montana-mockingbird-lactose-paris 142465 ARROZ PARBOIL ARROZ 49995.0 59875.0 SANTO TOMAS DE CASTILLA Estados Unidos Estados Unidos ORIGEN: ESTADO DE TEXAS.
15 467 2014-08-04 blue-alanine-aspen-ink 142545 MAIZ AMARILLO MAIZ PARA ELAB DE CONCENTRADOS 891909.3 3952402.0 PUERTO QUETZAL Estados Unidos Estados Unidos NaN
16 476 2014-08-04 august-alabama-william-black 142562 MAIZ AMARILLO MAIZ PARA ELAB DE CONCENTRADOS 156337.0 290316.0 SANTO TOMAS DE CASTILLA Estados Unidos Estados Unidos ORIGEN: ESTADO DE TEXAS.
17 530 2014-08-04 zebra-missouri-arkansas-island 142565 HARINA DE TRIGO HARINA DE TRIGO 81994.7 151800.0 TECUN UMAN MÓNACO MÓNACO NaN
18 352 2014-08-04 helium-jupiter-april-comet 142496 HARINA DE TRIGO HARINA DE TRIGO 10390.0 2268.0 TECUN UMAN México México NaN
19 353 2014-08-04 helium-jupiter-april-comet 142495 HARINA DE TRIGO HARINA DE TRIGO 10307.5 2268.0 TECUN UMAN México México NaN
20 354 2014-08-04 fifteen-venus-fruit-vermont 142494 HARINA DE TRIGO HARINA DE TRIGO 60564.0 13081.0 TECUN UMAN México México NaN
21 355 2014-08-04 king-one-saturn-nevada 142493 HARINA DE TRIGO HARINA DE TRIGO 61622.0 13081.0 TECUN UMAN México México NaN
22 295 2014-08-04 glucose-mike-magazine-table 142501 ARROZ GRANZA ARROZ 30055.3 71470.0 SAN CRISTOBAL EL SALVADOR ESTADOS UNIDOS ORIGEN: ESTADO DE LOUISIANA.
23 299 2014-08-04 cat-alabama-wisconsin-eleven 142500 ARROZ GRANZA ARROZ 454269.8 1093000.0 PUERTO QUETZAL ESTADOS UNIDOS ESTADOS UNIDOS NaN
24 342 2014-08-04 blossom-wyoming-lithium-stairway 142528 CASCARILLA DE ARROZ ARROZ 970.0 1363636.0 PEDRO DE ALVARADO Nicaragua Nicaragua NaN
25 344 2014-08-04 blossom-wyoming-lithium-stairway 142526 CASCARILLA DE ARROZ ARROZ 970.0 1363636.0 PEDRO DE ALVARADO Nicaragua Nicaragua NaN
26 424 2014-08-04 helium-jupiter-april-comet 142523 HARINA DE TRIGO HARINA DE TRIGO 61094.2 13081.0 TECUN UMAN México México NaN
27 282 2014-08-04 massachusetts-stairway-fifteen-uniform 142498 ARROZ ARROZ 53000.0 100240.0 SANTO TOMAS DE CASTILLA UZBEKISTÁN UZBEKISTÁN NaN
28 448 2014-08-04 island-fish-chicken-purple 142540 HARINA DE TRIGO HARINA DE TRIGO 17990.0 31703.0 PEDRO DE ALVARADO El Salvador El Salvador NaN
29 450 2014-08-04 lion-paris-snake-floor 142550 HARINA DE TRIGO HARINA DE TRIGO 16992.5 31703.0 SAN CRISTOBAL El Salvador El Salvador NaN
7646 16472 2014-10-14 bravo-fish-king-carolina 148721 SEMILLA DE CHILE PIMIENTO Y TOMATE. SEMILLAS DE HORTALIZA 101.0 63.0 EXPRESS AEREO HOLANDA HOLANDA PAIS DE ORIGEN: CHINA Y HOLANDA.
7647 16484 2014-10-14 item-johnny-undress-william 148724 EJOTE FRANCES HORTALIZAS 4533.4 3878.0 SAN CRISTOBAL NICARAGUA NICARAGUA NaN
7648 16485 2014-10-14 cup-vermont-emma-johnny 148726 AJO HORTALIZAS 21332.3 26000.0 PUERTO QUETZAL CHINA CHINA NaN
7649 16486 2014-10-14 cup-vermont-emma-johnny 148725 AVENA EN HOJUELAS AVENA EN HOJUELAS 29357.6 52000.0 PUERTO QUETZAL CHILE CHILE NaN
7650 16487 2014-10-14 avocado-island-oxygen-two 148728 AGUACATE HASS FRUTAS 30438.0 23040.0 TECUN UMAN MEXICO MEXICO NaN
7651 16488 2014-10-14 friend-papa-delaware-bacon 148723 MANDARINA FRUTAS 2500.0 24000.0 LA MESILLA MEXICO MEXICO NaN
7652 16490 2014-10-14 island-earth-july-quebec 148729 GRAÑONES DE MAIZ (MAIZ AMARILLO SIN GERMEN) MAIZ PARA CONSUMO HUMANO 13850.8 19278.0 PUERTO BARRIOS ESTADOS UNIDOS ESTADOS UNIDOS ORIGEN: ESTADO DE ILLINOIS.
7653 16491 2014-10-14 island-earth-july-quebec 148730 GRAÑONES DE MAIZ (MAIZ AMARILLO SIN GERMEN) MAIZ PARA CONSUMO HUMANO 13850.8 19278.0 PUERTO BARRIOS ESTADOS UNIDOS ESTADOS UNIDOS ORIGEN: ESTADO DE ILLINOIS.
7654 16492 2014-10-14 ink-emma-fillet-maryland 148734 MANDARINA FRUTAS 1250.0 12000.0 LA MESILLA MEXICO MEXICO NaN
7655 16493 2014-10-14 ink-emma-fillet-maryland 148733 MANDARINA FRUTAS 2500.0 24000.0 LA MESILLA MEXICO MEXICO NaN
7656 16494 2014-10-14 six-low-bluebird-burger 148732 GLUTEN VITAL DE TRIGO MATERIA PRIMA PARA ALIMENTOS 2886.2 1000.0 TECUN UMAN MEXICO MEXICO NaN
7657 16495 2014-10-14 spaghetti-sad-queen-london 148737 MADERA ASERRADA DE PINO (TRATADA CON CCA) MADERA ASERRADA 19622.2 21602.0 AGUA CALIENTE HONDURAS HONDURAS NaN
7658 16496 2014-10-14 spaghetti-sad-queen-london 148731 MADERA ASERRADA DE PINO (TRATADA CON CCA) MADERA ASERRADA 15313.9 22405.0 AGUA CALIENTE HONDURAS HONDURAS NaN
7659 16500 2014-10-14 robert-berlin-march-pasta 148741 NARANJAS FRUTAS 12500.0 113635.0 ENTRE RIOS HONDURAS HONDURAS NaN
7660 16501 2014-10-14 robert-berlin-march-pasta 148740 NARANJAS FRUTAS 12500.0 113635.0 ENTRE RIOS HONDURAS HONDURAS NaN
7661 16502 2014-10-14 robert-berlin-march-pasta 148738 NARANJAS FRUTAS 15000.0 136362.0 ENTRE RIOS HONDURAS HONDURAS NaN
7662 16503 2014-10-14 robert-berlin-march-pasta 148739 NARANJAS FRUTAS 12500.0 113635.0 ENTRE RIOS HONDURAS HONDURAS NaN
7663 16504 2014-10-14 robert-berlin-march-pasta 148742 NARANJAS FRUTAS 12500.0 113635.0 ENTRE RIOS HONDURAS HONDURAS NaN
7664 16505 2014-10-14 robert-berlin-march-pasta 148743 NARANJAS FRUTAS 12500.0 113635.0 ENTRE RIOS HONDURAS HONDURAS NaN
7665 16506 2014-10-14 juliet-india-fourteen-music 148744 AGUACATE HASS FRUTAS 19000.0 20900.0 TECUN UMAN MEXICO MEXICO NaN
7666 16520 2014-10-14 lion-violet-lactose-robin 148735 SEMILLAS DE CEBOLLA SEMILLAS DE HORTALIZA 100.0 12.0 EXPRESS AEREO ESTADOS UNIDOS ESTADOS UNIDOS ORIGEN: ESTADO DE CALIFORNIA.
7667 16533 2014-10-14 leopard-september-mars-alabama 148745 MADERA DE PINO (SECA) MADERA ASERRADA 145393.9 241260.0 SANTO TOMAS DE CASTILLA BRASIL BRASIL NaN
7668 16534 2014-10-14 iowa-florida-cup-massachusetts 148747 UVAS FRUTAS 31138.0 13500.0 PUERTO QUETZAL ESTADOS UNIDOS ESTADOS UNIDOS ORIGEN: ESTADO DE CALIFORNIA.
7669 16537 2014-10-14 low-vermont-lactose-happy 148748 FRIJOL NEGRO (PARTIDO) FRIJOL NEGRO 50757.4 843696.0 PUERTO QUETZAL MEXICO MEXICO NaN
7670 16538 2014-10-14 alaska-high-steak-florida 148749 UVAS FRUTAS 29380.0 15200.0 PUERTO QUETZAL ESTADOS UNIDOS ESTADOS UNIDOS ORIGEN: ESTADO DE CALIFORNIA.
7671 16539 2014-10-14 alaska-high-steak-florida 148750 CAMOTE FRUTAS 1929.0 284091.0 AGUA CALIENTE HONDURAS HONDURAS NaN
7672 16540 2014-10-14 alaska-high-steak-florida 148751 GUAYABA FRUTAS 4115.4 170455.0 AGUA CALIENTE HONDURAS HONDURAS NaN
7673 16454 2014-10-14 colorado-aspen-romeo-oscar 148722 SEMILLA DE TOMATE SEMILLAS DE HORTALIZA 35.9 595.0 EXPRESS AEREO FRANCIA FRANCIA NaN
7674 11783 2014-10-14 missouri-harry-beer-social 148746 SEMILLA DE PEPINO (VARIEDAD SLICING) SEMILLAS DE HORTALIZA 105.0 399.0 EXPRESS AEREO ESTADOS UNIDOS MEXICO NaN
7675 14742 2014-10-14 charlie-violet-fish-ceiling 148736 SEMILLAS DE MELON, CALABAZA Y SANDIA SEMILLAS DE HORTALIZA 114179.4 681.0 EXPRESS AEREO ISRAEL ISRAEL PAIS DE ORIGEN: ISRAEL, CHILE Y CHINA.

7676 rows × 12 columns

In [31]:
maga_fitosanitario.groupby("Solicitante").sum().sort_values("CIF $", ascending=False).head(10)
Out[31]:
Permiso CIF $ Kg. Netos
Solicitante
papa-cola-cat-utah 2613794 51617483.5 2142316240.0
crazy-december-charlie-leopard 5407306 42385422.8 129173159.0
blue-alanine-aspen-ink 3914255 36726112.8 115987664.0
glucose-network-cardinal-december 1734642 19912544.7 47940184.0
butter-ceiling-uncle-salami 1448580 18986878.8 1276069585.0
nineteen-earth-stairway-nebraska 1738702 16256532.0 66034754.0
fanta-crazy-rugby-salami 8771752 15806525.0 19943562.0
september-red-hamper-ten 3044223 13971536.0 61956905.0
east-cup-summer-mango 2611047 12101661.5 39276980.0
oklahoma-sodium-nevada-four 12670668 9444222.0 100425831.0
In [32]:
maga_fitosanitario.pivot_table(
    index=["Solicitante", "País origen", "Categoría"], 
    values=["CIF $"], 
    aggfunc={"CIF $":np.sum},
    fill_value=0).sort_values("CIF $", ascending=False).head(10)
Out[32]:
CIF $
Solicitante País origen Categoría
papa-cola-cat-utah ESTADOS UNIDOS MAIZ PARA ELAB DE CONCENTRADOS 34161962.8
crazy-december-charlie-leopard ESTADOS UNIDOS MAIZ PARA ELAB DE CONCENTRADOS 28967653.8
blue-alanine-aspen-ink ESTADOS UNIDOS MAIZ PARA ELAB DE CONCENTRADOS 20603138.9
papa-cola-cat-utah ESTADOS UNIDOS HARINA DE SOYA 17455520.7
glucose-network-cardinal-december ESTADOS UNIDOS ARROZ 17135432.4
nineteen-earth-stairway-nebraska ESTADOS UNIDOS MAIZ PARA ELAB DE CONCENTRADOS 16256532.0
butter-ceiling-uncle-salami ESTADOS UNIDOS MAIZ PARA ELAB DE CONCENTRADOS 14778445.5
crazy-december-charlie-leopard ESTADOS UNIDOS HARINA DE SOYA 12628533.6
september-red-hamper-ten ESTADOS UNIDOS MAIZ PARA ELAB DE CONCENTRADOS 10279335.3
fanta-crazy-rugby-salami VENEZUELA AJONJOLI 9783840.0
In [33]:
maga_fitosanitario.pivot_table(
    index=["País procedencia"],
    columns=["Aduana"],
    values=["CIF $"], 
    aggfunc={"CIF $":np.sum},
    fill_value=0).style.background_gradient(cmap=cm_paleta_verde)
Out[33]:
CIF $
Aduana AGUA CALIENTE EL CEIBO EL FLORIDO ENTRE RIOS EXPRESS AEREO FARDOS POSTALES LA ERMITA LA MESILLA MELCHOR DE MENCOS PEDRO DE ALVARADO PUERTO BARRIOS PUERTO QUETZAL SAN CRISTOBAL SANTO TOMAS DE CASTILLA TECUN UMAN VALLE NUEVO ZONA FRANCA DE GUATEMALA
País procedencia
ALEMANIA 0 0 0 0 102327 0 0 0 0 0 0 1.72752e+06 0 1.60688e+06 0 0 0
ARGENTINA 0 0 0 0 0 0 0 0 0 0 163441 187992 0 410929 0 0 0
AUSTRALIA 0 0 0 0 94350 0 0 0 0 0 0 26932.2 0 113750 0 0 0
Alemania 0 0 0 0 29503.2 0 0 0 0 0 0 0 0 0 0 0 0
Argentina 0 0 0 0 0 0 0 0 0 0 0 0 0 15510 0 0 0
BANGLADESH 0 0 0 0 0 0 0 0 0 0 0 48274.4 0 72000 0 0 0
BELGICA 0 0 0 0 0 0 0 0 0 0 0 1.85583e+06 0 0 192550 0 0
BELICE 0 0 0 0 0 0 0 0 547047 0 0 0 0 0 0 0 0
BOLIVIA 0 0 0 0 0 0 0 0 0 0 0 91800 0 0 0 0 0
BRASIL 0 0 0 0 121048 0 0 0 0 0 245408 0 0 3.58179e+06 0 0 0
BURKINA FASO 0 0 0 0 0 0 0 0 0 0 0 0 0 42888 0 0 0
Belice 0 0 0 0 0 0 0 0 45400 0 0 0 0 0 0 0 0
CANADÁ 0 0 0 0 72.11 0 0 0 0 0 551903 1.18703e+06 0 1.2314e+06 0 0 0
CHAD 0 0 0 0 0 0 0 0 0 0 0 77317.2 0 224059 0 0 0
CHILE 0 0 0 0 22150 0 0 0 0 5984.01 0 1.45996e+07 0 1.14601e+06 0 0 0
CHINA 0 0 0 0 35594.8 0 0 0 0 0 0 1.04992e+06 0 0 0 0 0
CHIPRE 0 0 0 0 3532.2 0 0 0 0 0 0 0 0 0 0 0 0
COLOMBIA 0 0 0 0 1.06184e+06 0 0 0 0 0 0 74263.4 0 233124 14780 0 0
COMORAS 0 0 0 0 2264.65 0 0 0 0 0 0 0 0 118725 0 0 0
COREA DEL SUR 0 0 0 0 231.2 0 0 0 0 0 0 0 0 0 0 0 0
COSTA RICA 0 0 0 0 2.51694e+06 0 0 0 0 595022 0 0 17022 0 0 0 0
Canadá 0 0 0 0 0 0 0 0 0 0 11320.3 0 0 22257.6 0 0 0
Chile 0 0 0 0 0 0 0 0 0 0 0 175952 0 0 0 0 0
China 0 0 0 0 0 0 0 0 0 0 0 49415 0 0 0 0 0
Colombia 0 0 0 0 10632.4 0 0 0 0 0 0 0 0 0 0 0 0
Costa Rica 0 0 0 0 304 0 0 0 0 0 0 0 0 0 0 0 0
ECUADOR 0 0 0 0 11121.1 0 0 0 0 0 0 0 0 0 0 0 0
EL SALVADOR 0 0 0 0 3380.89 0 0 0 0 3.15808e+06 0 0 1.75932e+07 0 0 19318.5 0
EMIRATOS ÁRABES UNIDOS 0 0 0 0 0 0 0 0 0 40834.8 15141.7 0 93246 0 0 0 0
ESPAÑA 0 0 0 0 31056.8 0 0 0 0 8929.65 0 0 0 71187.6 0 0 0
ESTADOS UNIDOS 0 0 0 0 6.74779e+06 781.92 0 0 0 452500 4.97125e+06 2.97986e+08 62815.5 3.63083e+07 0 0 0
ESTONIA 0 0 0 0 268577 0 0 0 0 0 0 2.37419e+06 0 618034 0 0 0
El Salvador 0 0 0 0 0 0 0 0 0 50653.3 0 0 159023 0 0 0 0
Estados Unidos 0 36.04 0 0 87632.5 0 0 0 0 0 177068 3.87267e+06 0 922944 0 0 0
Estonia 0 0 0 0 0 0 0 0 0 0 0 0 0 19145.3 0 0 0
FILIPINAS 0 0 0 0 1536 0 0 0 0 0 0 0 0 0 0 0 0
FRANCIA 0 0 0 0 121993 0 0 0 0 0 627655 0 0 1.29225e+06 0 0 0
GHANA 0 0 0 0 0 0 0 0 0 0 0 0 0 105007 0 0 0
GUATEMALA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 95511
HOLANDA 0 0 0 0 6.99672e+06 0 0 0 0 5560 0 0 0 737879 3200 0 0
HONDURAS 1.04949e+06 0 1.11446e+06 1.89727e+06 18000 0 0 0 0 78172.1 0 0 0 0 0 0 0
HUNGRÍA 31815.6 0 0 45528.7 0 0 0 0 0 0 0 0 0 0 0 0 0
Honduras 70359.8 0 0 40300 0 0 0 0 0 0 0 0 0 0 0 0 0
INDIA 0 0 0 0 4650 0 0 0 0 0 0 789181 0 233004 0 0 0
ISRAEL 0 0 0 0 607326 0 0 0 0 0 0 0 0 0 0 0 0
ITALIA 0 0 0 0 24330.3 0 0 0 0 0 0 0 0 0 0 0 0
Israel 0 0 0 0 15891.7 0 0 0 0 0 0 0 0 0 0 0 0
JAPÓN 0 0 0 0 5499.54 0 0 0 0 0 0 43739.8 0 0 0 0 0
KENIA 0 0 0 0 10197.1 0 0 0 0 0 0 0 0 0 0 0 0
LAOS 0 0 0 0 0 0 0 0 0 0 8688.74 0 0 0 0 0 0
LATVIA 0 0 0 0 0 0 0 0 0 0 8693.31 0 0 54261.1 0 0 0
LETONIA 0 0 0 0 0 0 0 0 0 0 0 0 0 15052 0 0 0
LITUANIA 0 0 0 0 0 0 0 0 0 0 0 0 0 149491 0 0 0
MEXICO 0 0 0 0 33359.8 0 0 166788 0 0 0 675200 0 97502.1 2.49166e+07 0 0
MÓNACO 0 0 0 0 0 0 0 0 0 0 0 0 0 0 303410 0 0
México 0 0 0 0 0 0 0 1600 0 0 0 0 0 0 1.0659e+06 0 0
NAMIBIA 0 0 0 0 0 0 0 0 0 1940 0 0 0 0 0 0 0
NICARAGUA 0 0 0 0 1924.52 0 113631 0 0 4.06068e+06 0 0 547838 0 0 0 0
NIGERIA 0 0 0 0 0 0 0 0 0 130254 27383.8 0 19189.1 0 0 0 0
NUEVA ZELANDA 0 0 0 0 0 0 0 0 0 0 0 240022 0 47682 0 0 0
Nicaragua 0 0 0 0 0 0 12091 0 0 122190 0 0 28500.5 0 0 0 0
PANAMÁ 0 0 0 0 1957.53 0 0 0 0 0 0 0 20556 0 0 0 0
PERÚ 0 0 0 0 95392.9 0 0 0 0 0 0 341276 0 47076.6 0 0 0
POLONIA 0 0 0 0 6366.9 0 0 0 0 0 0 0 0 0 0 0 0
PORTUGAL 0 0 0 0 667.32 0 0 0 0 0 0 0 0 0 0 0 0
Países Bajos 0 0 0 0 6890.24 0 0 0 0 0 0 0 0 586587 0 0 0
Perú 0 0 0 0 2428 0 0 0 0 0 0 0 0 0 0 0 0
REINO UNIDO 0 0 0 0 3112.17 0 0 0 0 0 0 0 0 0 0 0 0
REPÚBLICA DOMINICANA 0 0 0 0 0 0 0 0 0 0 0 0 0 734869 0 0 0
SRI LANKA 0 0 0 0 0 0 0 0 0 0 0 711009 0 665303 0 0 0
SUDÁN 0 0 0 0 0 0 0 0 0 0 0 36826.8 0 0 0 0 0
SUECIA 0 0 0 0 0 0 0 0 0 0 0 1.82749e+06 0 0 0 0 0
TAILANDIA 0 0 0 0 133412 0 0 0 0 0 0 28765 0 0 0 0 0
TAIWAN 0 0 0 0 331696 0 0 0 0 0 0 0 0 0 0 0 0
TANZANIA 0 0 0 0 0 0 0 0 0 0 0 330340 0 0 0 0 0
URUGUAY 0 0 0 0 0 0 0 0 0 0 0 0 0 1.4859e+06 0 0 0
UZBEKISTÁN 0 0 0 0 0 0 0 0 0 0 0 0 0 106000 0 0 0
Uruguay 0 0 0 0 0 0 0 0 0 0 0 0 0 59007.8 0 0 0
VENEZUELA 0 0 0 0 0 0 0 0 0 0 0 1.38812e+07 0 1.1856e+06 0 0 0
VIETNAM 0 0 0 0 0 0 0 0 0 0 0 420550 0 0 0 0 0
YEMEN 0 0 0 0 0 0 0 0 0 0 0 167528 0 0 0 0 0

Que tal si queremos obtener el precio por kilogramo de cada producto y en base a eso obtener los productos mas ‘preciosos’.

In [35]:
maga_fitosanitario.to_csv("MAGA - CERTIFICADOS FITOSANITARIOS - LIMPIO.csv")

Introducción a Pandas y Jupyter Notebook de Python

- el junio 28, 2017 en DAL, Fuentes de datos, Tutoriales, Uncategorized

Ese tutorial y documentación detallados en Jupyter Notebook fueron escritos por Sebastián Oliva, fellow 2017 de Escuela de Datos por Guatemala. En el webinar lanzado el 28 de junio puedes seguir paso a paso este ejercicio de limpieza y análisis de datos.

Introducción

Este es el primero de varios tutoriales introductorios al procesamiento y limpieza de datos. En este estaremos usando como ambiente de trabajo a Jupyter, que permite crear documentos con código y prosa, además de almacenar resultados de las operaciones ejecutadas (cálculos, graficas, etc). Jupyter permite interactuar con varios lenguajes de programación, en este, usaremos Python, un lenguaje de programación bastante simple y poderoso, con acceso a una gran variedad de librerias para procesamiento de datos. Entre estas, está Pandas, una biblioteca que nos da acceso a estructuras de datos muy poderosas para manipular datos.

¡Comenzemos entonces!

Instalación

Para poder ejecutar este Notebook, necesitas tener instalado Python 3, el cual corre en todos los sistemas operativos actuales, sin embargo, para instalar las dependencias: Pandas y Jupyter.

Modo Sencillo

Recomiendo utilizar la distribución Anaconda https://www.continuum.io/downloads en su versión para Python 3, esta incluye instalado Jupyter, Pandas, Numpy y Scipy, y mucho otro software útil. Sigue las instrucciones en la documentación de Anaconda para configurar un ambiente de desarollo con Jupyter.
https://docs.continuum.io/anaconda/navigator/getting-started.html

Una vez instalado, prueba a seguir los paso de https://www.tutorialpython.com/modulos-python/ o tu tutorial de Python Favorito.

«It’s a Unix System, I know This!» – Modo Avanzado

Te recomiendo utilizar Python 3.6 o superior, instalar la version mas reciente posible de virtualenv y pip. Usa Git para obtener el codigo, crea un nuevo entorno de desarollo y ahi instala las dependencias necesarias.

~/$ cd notebooks
~/notebooks/$ git clone https://github.com/tian2992/notebooks_dateros.git
~/notebooks/$ cd notebooks_dateros/
~/notebooks/notebooks_dateros/$ 
~/notebooks/notebooks_dateros/$ virtualenv venv/
~/notebooks/notebooks_dateros/$ source venv/bin/activate
~/notebooks/notebooks_dateros/$ pip install -r requirements.txt
~/notebooks/notebooks_dateros/$ cd 01-Intro
~/notebooks/notebooks_dateros/$ 7z e municipal_guatemala_2008-2011.7z
~/notebooks/notebooks_dateros/$ jupyter-notebook

Primeros pasos

In [5]:
## En Jupyter Notebooks existen varios tipos de celdas, las celdas de código, como esta:
print(1+1)
print(5+4)
6+4
2
9
Out[5]:
10

Y las celdas de texto, que se escriben en Markdown y son hechas para humanos. Pueden incluir negritas, itálicas Entre otros tipos de estilos. Tambien pueden incluirse imagenes o incluso interactivos.

In [6]:
%pylab inline
import seaborn as sns
import pandas as pd
pd.set_option('precision', 5)
Populating the interactive namespace from numpy and matplotlib

Con estos comandos, cargamos a nuestro entorno de trabajo las librerias necesarias.

Usemos la funcion de pandas read_csv para cargar los datos. Esto crea un DataFrame, una unidad de datos en Pandas, que nos da mucha funcionalidad y tiene bastantes propiedades convenientes para el análisis. Probablemente esta operación tome un tiempo asi que sigamos avanzando, cuando esté lista, verás que el numero de la celda habrá sido actualizado.

In [7]:
muni_data = pd.read_csv("GUATEMALA MUNICIPAL 2008-2011.csv", 
                        sep=";")
/home/tian/OPENDATA/MUNICIPALIDADES/venv/lib/python3.6/site-packages/IPython/core/interactiveshell.py:2698: DtypeWarning: Columns (19) have mixed types. Specify dtype option on import or set low_memory=False.
  interactivity=interactivity, compiler=compiler, result=result)
In [11]:
muni_data.head()
Out[11]:
ANNO ADMINISTRACIÓN MUNICIPIO DEPTO MUN FUNC1 FUNC2 FUNC3 ECON1 ECON2 ORIGEN2 ORIGEN3 PROGRAMA1 PROGRAMA2 PROYECTO1 PROYECTO2 APROBADO RETRASADO EJECUTADO PAGADO
0 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.137,400.00 Q.137,400.00 Q.137,400.00
1 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.- Q.- Q.-
2 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 22 Ingresos Ordinarios De Aporte Constitucional No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.- Q.- Q.-
3 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica Q.240,000.00 Q.49,588.00 Q.49,588.00 Q.49,588.00
4 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 42 Préstamos Internos No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.- Q.- Q.-

5 rows × 21 columns

DataFrames y más

Aqui podemos ver el dataframe que creamos.
En Pandas, los DataFrames son unidades básicas, junto con las Series.

Veamos una serie muy sencilla antes de pasar a evaluar muni_data, el DataFrame que acabamos de crear. Crearemos una serie de numeros aleatorios, y usaremos funciones estadisticas para analizarlo.

In [10]:
serie_prueba_s = pd.Series(np.random.randn(5), name='prueba')

print(serie_prueba_s)

print(serie_prueba_s.describe())

serie_prueba_s.plot()
0   -0.50246
1    0.90772
2    1.37897
3    2.56289
4    0.07101
Name: prueba, dtype: float64
count    5.00000
mean     0.88363
std      1.18822
min     -0.50246
25%      0.07101
50%      0.90772
75%      1.37897
max      2.56289
Name: prueba, dtype: float64
Out[10]:
<matplotlib.axes._subplots.AxesSubplot at 0x7f0764326780>

Con esto podemos ver ya unas propiedades muy interesantes. Las series están basadas en el concepto estadistico, pero incluyen un título (del eje), un índice (el cual identifica a los elementos) y el dato en sí, que puede ser numerico (float), string unicode (texto) u otro tipo de dato.

Las series estan basadas tambien en conceptos de vectores, asi que se pueden realizar operaciones vectoriales en las cuales implicitamente se alinean los indíces, esto es muy util por ejemplo para restar dos columnas, sin importar el tamaño de ambas, automaticamente Pandas unirá inteligentemente ambas series. Puedes tambien obtener elementos de las series por su valor de índice, o por un rango, usando la notación usual en Python. Como nota final, las Series comparten mucho del comportamiento de los NumPy Arrays, haciendolos instantaneamente compatibles con muchas librerias y recursos. https://pandas.pydata.org/pandas-docs/stable/dsintro.html#series

In [13]:
serie_prueba_d = pd.Series(np.random.randn(5), name='prueba 2')

print(serie_prueba_d)

print(serie_prueba_d[0:3]) # Solo los elementos del 0 al 3

# Esto funciona porque ambas series tienen indices en común.
# Si sumamos dos con tamaños distintos, los espacios vacios son marcados como NaN
serie_prueba_y = serie_prueba_d + (serie_prueba_s * 2)
print(serie_prueba_y)
print("La suma de la serie y es: {suma}".format(suma=serie_prueba_y.sum()))
0   -0.88087
1    0.78036
2    1.91407
3   -0.28563
4    0.13854
Name: prueba 2, dtype: float64
0   -0.88087
1    0.78036
2    1.91407
Name: prueba 2, dtype: float64
0   -1.88578
1    2.59579
2    4.67201
3    4.84014
4    0.28056
dtype: float64
La suma de la serie y es: 10.502719345870334

Pasemos ahora a DataFrames, como nuestro muni_data DataFrame. Los DataFrames son estructuras bi-dimensionales de datos. Son muy usadas porque proveen una abstracción similar a una hoja de calculo o a una tabla de SQL. Los DataFrame tienen índices (etiquetas de fila) y columnas, ambos ejes deben encajar, y el resto será llenado de datos no validos.

Por ejemplo podemos unir ambas series y crear un DataFrame nuevo, usando un diccionario de Python, por ejemplo. Tambien podemos graficar los resultados.

In [14]:
prueba_dict = {
                        "col1": serie_prueba_s,
                        "col2": serie_prueba_d,
                        "col3": [1, 2, 3, 4, 0]
             }
prueba_data_frame = pd.DataFrame(prueba_dict)
print(prueba_data_frame)
# La operacion .sum() ahora retorna un DataFrame, pero Pandas sabe no combinar peras con manzanas.
print("La suma de cada columna es: \n{suma}".format(suma=prueba_data_frame.sum())) 
prueba_data_frame.plot()
      col1     col2  col3
0 -0.50246 -0.88087     1
1  0.90772  0.78036     2
2  1.37897  1.91407     3
3  2.56289 -0.28563     4
4  0.07101  0.13854     0
La suma de cada columna es: 
col1     4.41813
col2     1.66646
col3    10.00000
dtype: float64
Out[14]:
<matplotlib.axes._subplots.AxesSubplot at 0x7f076e7ec518>

Veamos ahora ya, nuestro DataFrame creado con los datos, muni_data.

In [61]:
#muni_data
Out[61]:
ANNO ADMINISTRACIÓN MUNICIPIO DEPTO MUN FUNC1 FUNC2 FUNC3 ECON1 ECON2 ORIGEN2 ORIGEN3 PROGRAMA1 PROGRAMA2 PROYECTO1 PROYECTO2 APROBADO RETRASADO EJECUTADO PAGADO
0 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.137,400.00 Q.137,400.00 Q.137,400.00
1 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.- Q.- Q.-
2 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 22 Ingresos Ordinarios De Aporte Constitucional No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.- Q.- Q.-
3 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica Q.240,000.00 Q.49,588.00 Q.49,588.00 Q.49,588.00
4 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 42 Préstamos Internos No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.- Q.- Q.-
5 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 42 Préstamos Internos No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.16,000.00 Q.16,000.00 Q.16,000.00
6 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 015 – Complementos Específicos Al Personal Per… 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.1,750.00 Q.1,500.00 Q.1,500.00
7 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 015 – Complementos Específicos Al Personal Per… 22 Ingresos Ordinarios De Aporte Constitucional No Aplica No Aplica No Aplica No Aplica No Aplica Q.26,000.00 Q.2,750.00 Q.2,750.00 Q.2,750.00
8 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 015 – Complementos Específicos Al Personal Per… 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.250.00 Q.250.00 Q.250.00
9 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 015 – Complementos Específicos Al Personal Per… 42 Préstamos Internos No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.- Q.- Q.-
10 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 015 – Complementos Específicos Al Personal Per… 42 Préstamos Internos No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.250.00 Q.250.00 Q.250.00
11 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 029 – Otras Remuneraciones De Personal Temporal 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.44,740.00 Q.44,740.00 Q.44,740.00
12 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 029 – Otras Remuneraciones De Personal Temporal 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.58,250.00 Q.58,250.00 Q.58,250.00
13 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 029 – Otras Remuneraciones De Personal Temporal 42 Préstamos Internos No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.- Q.- Q.-
14 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 029 – Otras Remuneraciones De Personal Temporal 42 Préstamos Internos No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.12,650.00 Q.12,650.00 Q.12,650.00
15 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 031 – Jornales 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.- Q.- Q.-
16 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 015 – Complementos Específicos Al Personal Per… 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.15,700.00 Q.17,900.00 Q.15,900.00
17 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 015 – Complementos Específicos Al Personal Per… 22 Ingresos Ordinarios De Aporte Constitucional No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.11,750.00 Q.10,995.53 Q.10,995.53
18 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 015 – Complementos Específicos Al Personal Per… 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica Q.21,000.00 Q.5,500.00 Q.5,500.00 Q.5,500.00
19 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 015 – Complementos Específicos Al Personal Per… 42 Préstamos Internos No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.- Q.- Q.-
20 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 015 – Complementos Específicos Al Personal Per… 42 Préstamos Internos No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.2,000.00 Q.2,250.00 Q.2,250.00
21 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 196 – Servicios De Atención Y Protocolo 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.15,000.00 Q.14,908.12 Q.14,908.12
22 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 199 – Otros Servicios No Personales 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica Q.6,000.00 Q.11,969.50 Q.11,958.50 Q.11,958.50
23 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 211 – Alimentos Para Personas 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica Q.3,000.00 Q.- Q.- Q.-
24 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 211 – Alimentos Para Personas 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.28,000.00 Q.27,992.74 Q.27,992.74
25 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 211 – Alimentos Para Personas 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.5,000.00 Q.4,994.45 Q.4,994.45
26 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 3 – SERVICIOS SOCIALES 306-AGUA Y SANEAMIENTO Sin Division 21 Gastos Corrientes 415 – Vacaciones Pagadas Por Retiro 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica Q.1,500.00 Q.1,500.00 Q.- Q.-
27 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica Q.24,000.00 Q.24,000.00 Q.1,000.00 Q.1,000.00
28 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 015 – Complementos Específicos Al Personal Per… 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica Q.3,713.37 Q.3,713.37 Q.125.00 Q.125.00
29 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 051 – Aporte Patronal Al Igss 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica Q.3,000.00 Q.3,000.00 Q.- Q.-
674105 2011 Municipal ZACAPA ZACAPA ZACAPA 07 – URBANIZACION Y SERVICIOS COMUNITARIOS 0706 – Urbanización y servicios comunitarios n… 070601-Urbanización y servicios comunitarios n… 22 Gastos de Capital 286 – Herramientas Menores No Aplica No Aplica 19 – MEJORAMIENTO DE INFRAESTRUCTURA 0 – SIN SUB PROGRAMA 4 – MEJORAMIENTO MATERIALES DE CONSTRUCCION ME… 1 – MEJORAMIENTO MATERIALES DE CONSTRUCCION ME… Q.2,500.00 Q.649.00 NaN Q.649.00
674106 2011 Municipal ZACAPA ZACAPA ZACAPA 07 – URBANIZACION Y SERVICIOS COMUNITARIOS 0706 – Urbanización y servicios comunitarios n… 070601-Urbanización y servicios comunitarios n… 22 Gastos de Capital 154 – Arrendamiento De Maquinaria Y Equipo De … No Aplica No Aplica 19 – MEJORAMIENTO DE INFRAESTRUCTURA 0 – SIN SUB PROGRAMA 5 – AMPLIACION MURO PERIMETRAL CEMENTERIO MUNI… 1 – AMPLIACION MURO PERIMETRAL CEMENTERIO MUNI… Q.150,000.00 Q.- NaN Q.-
674107 2011 Municipal ZACAPA ZACAPA ZACAPA 07 – URBANIZACION Y SERVICIOS COMUNITARIOS 0706 – Urbanización y servicios comunitarios n… 070601-Urbanización y servicios comunitarios n… 22 Gastos de Capital 154 – Arrendamiento De Maquinaria Y Equipo De … No Aplica No Aplica 19 – MEJORAMIENTO DE INFRAESTRUCTURA 0 – SIN SUB PROGRAMA 5 – AMPLIACION MURO PERIMETRAL CEMENTERIO MUNI… 1 – AMPLIACION MURO PERIMETRAL CEMENTERIO MUNI… Q.150,000.00 Q.- NaN Q.-
674108 2011 Municipal ZACAPA ZACAPA ZACAPA 07 – URBANIZACION Y SERVICIOS COMUNITARIOS 0706 – Urbanización y servicios comunitarios n… 070601-Urbanización y servicios comunitarios n… 22 Gastos de Capital 189 – Otros Estudios Y/O Servicios No Aplica No Aplica 19 – MEJORAMIENTO DE INFRAESTRUCTURA 0 – SIN SUB PROGRAMA 6 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA 1 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA Q.60,000.00 Q.- NaN Q.-
674109 2011 Municipal ZACAPA ZACAPA ZACAPA 07 – URBANIZACION Y SERVICIOS COMUNITARIOS 0706 – Urbanización y servicios comunitarios n… 070601-Urbanización y servicios comunitarios n… 22 Gastos de Capital 189 – Otros Estudios Y/O Servicios No Aplica No Aplica 19 – MEJORAMIENTO DE INFRAESTRUCTURA 0 – SIN SUB PROGRAMA 6 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA 1 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA Q.60,000.00 Q.- NaN Q.-
674110 2011 Municipal ZACAPA ZACAPA ZACAPA 07 – URBANIZACION Y SERVICIOS COMUNITARIOS 0706 – Urbanización y servicios comunitarios n… 070601-Urbanización y servicios comunitarios n… 22 Gastos de Capital 214 – Productos Agroforestales, Madera, Corcho… No Aplica No Aplica 19 – MEJORAMIENTO DE INFRAESTRUCTURA 0 – SIN SUB PROGRAMA 6 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA 1 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA Q.10,000.00 Q.- NaN Q.-
674111 2011 Municipal ZACAPA ZACAPA ZACAPA 07 – URBANIZACION Y SERVICIOS COMUNITARIOS 0706 – Urbanización y servicios comunitarios n… 070601-Urbanización y servicios comunitarios n… 22 Gastos de Capital 214 – Productos Agroforestales, Madera, Corcho… No Aplica No Aplica 19 – MEJORAMIENTO DE INFRAESTRUCTURA 0 – SIN SUB PROGRAMA 6 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA 1 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA Q.10,000.00 Q.- NaN Q.-
674112 2011 Municipal ZACAPA ZACAPA ZACAPA 07 – URBANIZACION Y SERVICIOS COMUNITARIOS 0706 – Urbanización y servicios comunitarios n… 070601-Urbanización y servicios comunitarios n… 22 Gastos de Capital 223 – Piedra, Arcilla Y Arena No Aplica No Aplica 19 – MEJORAMIENTO DE INFRAESTRUCTURA 0 – SIN SUB PROGRAMA 6 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA 1 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA Q.5,000.00 Q.- NaN Q.-
674113 2011 Municipal ZACAPA ZACAPA ZACAPA 07 – URBANIZACION Y SERVICIOS COMUNITARIOS 0706 – Urbanización y servicios comunitarios n… 070601-Urbanización y servicios comunitarios n… 22 Gastos de Capital 224 – Pómez, Cal Y Yeso No Aplica No Aplica 19 – MEJORAMIENTO DE INFRAESTRUCTURA 0 – SIN SUB PROGRAMA 6 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA 1 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA Q.3,000.00 Q.- NaN Q.-
674114 2011 Municipal ZACAPA ZACAPA ZACAPA 07 – URBANIZACION Y SERVICIOS COMUNITARIOS 0706 – Urbanización y servicios comunitarios n… 070601-Urbanización y servicios comunitarios n… 22 Gastos de Capital 267 – Tintes, Pinturas Y Colorantes No Aplica No Aplica 19 – MEJORAMIENTO DE INFRAESTRUCTURA 0 – SIN SUB PROGRAMA 6 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA 1 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA Q.4,000.00 Q.- NaN Q.-
674115 2011 Municipal ZACAPA ZACAPA ZACAPA 07 – URBANIZACION Y SERVICIOS COMUNITARIOS 0706 – Urbanización y servicios comunitarios n… 070601-Urbanización y servicios comunitarios n… 22 Gastos de Capital 268 – Productos Plásticos, Nylon, Vinil Y P.V.C. No Aplica No Aplica 19 – MEJORAMIENTO DE INFRAESTRUCTURA 0 – SIN SUB PROGRAMA 6 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA 1 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA Q.20,000.00 Q.- NaN Q.-
674116 2011 Municipal ZACAPA ZACAPA ZACAPA 07 – URBANIZACION Y SERVICIOS COMUNITARIOS 0706 – Urbanización y servicios comunitarios n… 070601-Urbanización y servicios comunitarios n… 22 Gastos de Capital 268 – Productos Plásticos, Nylon, Vinil Y P.V.C. No Aplica No Aplica 19 – MEJORAMIENTO DE INFRAESTRUCTURA 0 – SIN SUB PROGRAMA 6 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA 1 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA Q.20,000.00 Q.- NaN Q.-
674117 2011 Municipal ZACAPA ZACAPA ZACAPA 07 – URBANIZACION Y SERVICIOS COMUNITARIOS 0706 – Urbanización y servicios comunitarios n… 070601-Urbanización y servicios comunitarios n… 22 Gastos de Capital 272 – Productos De Vidrio No Aplica No Aplica 19 – MEJORAMIENTO DE INFRAESTRUCTURA 0 – SIN SUB PROGRAMA 6 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA 1 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA Q.5,000.00 Q.- NaN Q.-
674118 2011 Municipal ZACAPA ZACAPA ZACAPA 07 – URBANIZACION Y SERVICIOS COMUNITARIOS 0706 – Urbanización y servicios comunitarios n… 070601-Urbanización y servicios comunitarios n… 22 Gastos de Capital 273 – Productos De Loza Y Porcelana No Aplica No Aplica 19 – MEJORAMIENTO DE INFRAESTRUCTURA 0 – SIN SUB PROGRAMA 6 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA 1 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA Q.15,000.00 Q.- NaN Q.-
674119 2011 Municipal ZACAPA ZACAPA ZACAPA 07 – URBANIZACION Y SERVICIOS COMUNITARIOS 0706 – Urbanización y servicios comunitarios n… 070601-Urbanización y servicios comunitarios n… 22 Gastos de Capital 274 – Cemento No Aplica No Aplica 19 – MEJORAMIENTO DE INFRAESTRUCTURA 0 – SIN SUB PROGRAMA 6 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA 1 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA Q.5,500.00 Q.- NaN Q.-
674120 2011 Municipal ZACAPA ZACAPA ZACAPA 07 – URBANIZACION Y SERVICIOS COMUNITARIOS 0706 – Urbanización y servicios comunitarios n… 070601-Urbanización y servicios comunitarios n… 22 Gastos de Capital 275 – Productos De Cemento, Pómez, Asbesto Y Yeso No Aplica No Aplica 19 – MEJORAMIENTO DE INFRAESTRUCTURA 0 – SIN SUB PROGRAMA 6 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA 1 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA Q.33,500.00 Q.- NaN Q.-
674121 2011 Municipal ZACAPA ZACAPA ZACAPA 07 – URBANIZACION Y SERVICIOS COMUNITARIOS 0706 – Urbanización y servicios comunitarios n… 070601-Urbanización y servicios comunitarios n… 22 Gastos de Capital 275 – Productos De Cemento, Pómez, Asbesto Y Yeso No Aplica No Aplica 19 – MEJORAMIENTO DE INFRAESTRUCTURA 0 – SIN SUB PROGRAMA 6 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA 1 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA Q.34,000.00 Q.- NaN Q.-
674122 2011 Municipal ZACAPA ZACAPA ZACAPA 07 – URBANIZACION Y SERVICIOS COMUNITARIOS 0706 – Urbanización y servicios comunitarios n… 070601-Urbanización y servicios comunitarios n… 22 Gastos de Capital 281 – Productos Siderúrgicos No Aplica No Aplica 19 – MEJORAMIENTO DE INFRAESTRUCTURA 0 – SIN SUB PROGRAMA 6 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA 1 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA Q.5,000.00 Q.- NaN Q.-
674123 2011 Municipal ZACAPA ZACAPA ZACAPA 07 – URBANIZACION Y SERVICIOS COMUNITARIOS 0706 – Urbanización y servicios comunitarios n… 070601-Urbanización y servicios comunitarios n… 22 Gastos de Capital 284 – Estructuras Metálicas Acabadas No Aplica No Aplica 19 – MEJORAMIENTO DE INFRAESTRUCTURA 0 – SIN SUB PROGRAMA 6 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA 1 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA Q.25,000.00 Q.- NaN Q.-
674124 2011 Municipal ZACAPA ZACAPA ZACAPA 07 – URBANIZACION Y SERVICIOS COMUNITARIOS 0706 – Urbanización y servicios comunitarios n… 070601-Urbanización y servicios comunitarios n… 22 Gastos de Capital 297 – Útiles, Accesorios Y Materiales Eléctricos No Aplica No Aplica 19 – MEJORAMIENTO DE INFRAESTRUCTURA 0 – SIN SUB PROGRAMA 6 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA 1 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA Q.15,000.00 Q.- NaN Q.-
674125 2011 Municipal ZACAPA ZACAPA ZACAPA 07 – URBANIZACION Y SERVICIOS COMUNITARIOS 0706 – Urbanización y servicios comunitarios n… 070601-Urbanización y servicios comunitarios n… 22 Gastos de Capital 297 – Útiles, Accesorios Y Materiales Eléctricos No Aplica No Aplica 19 – MEJORAMIENTO DE INFRAESTRUCTURA 0 – SIN SUB PROGRAMA 6 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA 1 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA Q.15,000.00 Q.- NaN Q.-
674126 2011 Municipal ZACAPA ZACAPA ZACAPA 07 – URBANIZACION Y SERVICIOS COMUNITARIOS 0706 – Urbanización y servicios comunitarios n… 070601-Urbanización y servicios comunitarios n… 22 Gastos de Capital 329 – Otras Maquinarias Y Equipos No Aplica No Aplica 19 – MEJORAMIENTO DE INFRAESTRUCTURA 0 – SIN SUB PROGRAMA 6 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA 1 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA Q.21,000.00 Q.- NaN Q.-
674127 2011 Municipal ZACAPA ZACAPA ZACAPA 07 – URBANIZACION Y SERVICIOS COMUNITARIOS 0706 – Urbanización y servicios comunitarios n… 070601-Urbanización y servicios comunitarios n… 22 Gastos de Capital 329 – Otras Maquinarias Y Equipos No Aplica No Aplica 19 – MEJORAMIENTO DE INFRAESTRUCTURA 0 – SIN SUB PROGRAMA 6 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA 1 – MEJORAMIENTO EDIFICIO(S) MUNICIPAL, ZACAPA Q.34,000.00 Q.- NaN Q.-
674128 2011 Municipal ZACAPA ZACAPA ZACAPA 12 – TRANSACCIONES DE LA DEUDA PUBLICA 1201 – Intereses y comisiones de la deuda pública 120101-Intereses y comisiones de la deuda pública 23 Aplicaciones Financieras 731 – Intereses Por Préstamos Del Sector Privado No Aplica No Aplica 99 – DEUDA MUNICICPAL 0 – SIN SUB PROGRAMA 0 – SIN PPROYECTO 1 – AMORTIZACION PRESTAMO VIVIBANCO Q.- Q.204,049.00 NaN Q.204,049.00
674129 2011 Municipal ZACAPA ZACAPA ZACAPA 12 – TRANSACCIONES DE LA DEUDA PUBLICA 1201 – Intereses y comisiones de la deuda pública 120101-Intereses y comisiones de la deuda pública 23 Aplicaciones Financieras 731 – Intereses Por Préstamos Del Sector Privado No Aplica No Aplica 99 – DEUDA MUNICICPAL 0 – SIN SUB PROGRAMA 0 – SIN PPROYECTO 1 – AMORTIZACION PRESTAMO VIVIBANCO Q.3,695,000.00 Q.3,743,544.00 NaN Q.3,717,234.12
674130 2011 Municipal ZACAPA ZACAPA ZACAPA 12 – TRANSACCIONES DE LA DEUDA PUBLICA 1201 – Intereses y comisiones de la deuda pública 120101-Intereses y comisiones de la deuda pública 23 Aplicaciones Financieras 751 – Amortización De Préstamos a Largo Plazo … No Aplica No Aplica 99 – DEUDA MUNICICPAL 0 – SIN SUB PROGRAMA 0 – SIN PPROYECTO 1 – AMORTIZACION PRESTAMO VIVIBANCO Q.812,000.00 Q.812,100.00 NaN Q.812,037.53
674131 2011 Municipal ZACAPA ZACAPA ZACAPA 12 – TRANSACCIONES DE LA DEUDA PUBLICA 1202 – Amortizaciones de deuda pública 120201-Amortizaciones de deuda pública 23 Aplicaciones Financieras 769 – Disminución De Otras Cuentas A Pagar A L… No Aplica No Aplica 99 – DEUDA MUNICICPAL 0 – SIN SUB PROGRAMA 0 – SIN PPROYECTO 2 – PAGO CONVENIO PLAN DE PRESTACIONES Q.165,000.00 Q.357,352.00 NaN Q.357,351.15
674132 2011 Municipal ZACAPA ZACAPA ZACAPA 12 – TRANSACCIONES DE LA DEUDA PUBLICA 1202 – Amortizaciones de deuda pública 120201-Amortizaciones de deuda pública 23 Aplicaciones Financieras 769 – Disminución De Otras Cuentas A Pagar A L… No Aplica No Aplica 99 – DEUDA MUNICICPAL 0 – SIN SUB PROGRAMA 0 – SIN PPROYECTO 2 – PAGO CONVENIO PLAN DE PRESTACIONES Q.- Q.114,305.00 NaN Q.114,304.65
674133 2011 Municipal ZACAPA ZACAPA ZACAPA 12 – TRANSACCIONES DE LA DEUDA PUBLICA 1202 – Amortizaciones de deuda pública 120201-Amortizaciones de deuda pública 23 Aplicaciones Financieras 769 – Disminución De Otras Cuentas A Pagar A L… No Aplica No Aplica 99 – DEUDA MUNICICPAL 0 – SIN SUB PROGRAMA 0 – SIN PPROYECTO 3 – INTRODUCCION ENERGIA ELECTRICA ALDEA GUACA… Q.15,000.00 Q.15,000.00 NaN Q.15,000.00
674134 2011 Municipal ZACAPA ZACAPA ZACAPA 12 – TRANSACCIONES DE LA DEUDA PUBLICA 1202 – Amortizaciones de deuda pública 120201-Amortizaciones de deuda pública 23 Aplicaciones Financieras 769 – Disminución De Otras Cuentas A Pagar A L… No Aplica No Aplica 99 – DEUDA MUNICICPAL 0 – SIN SUB PROGRAMA 0 – SIN PPROYECTO 4 – AMORTIZACION DEUDA DEL PROYECTO AMPLIACION… Q.- Q.18,534.00 NaN Q.18,533.57

674135 rows × 21 columns

In [15]:
# Una grafica bastante inutil, ¿porque?

muni_data.plot()
Out[15]:
<matplotlib.axes._subplots.AxesSubplot at 0x7f076e6ab7f0>
In [16]:
# Veamos los datos, limitamos a solo los primeros 5 filas.

muni_data.head(5)
Out[16]:
ANNO ADMINISTRACIÓN MUNICIPIO DEPTO MUN FUNC1 FUNC2 FUNC3 ECON1 ECON2 ORIGEN2 ORIGEN3 PROGRAMA1 PROGRAMA2 PROYECTO1 PROYECTO2 APROBADO RETRASADO EJECUTADO PAGADO
0 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.137,400.00 Q.137,400.00 Q.137,400.00
1 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.- Q.- Q.-
2 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 22 Ingresos Ordinarios De Aporte Constitucional No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.- Q.- Q.-
3 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica Q.240,000.00 Q.49,588.00 Q.49,588.00 Q.49,588.00
4 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 42 Préstamos Internos No Aplica No Aplica No Aplica No Aplica No Aplica Q.- Q.- Q.- Q.-

5 rows × 21 columns

In [17]:
## La columna 'APROBADO' se ve un poco sospechosa.
## Python toma a los numeros como números, no con una Q ni un punto (si no lo tiene) ni comas innecesarias. 
## Veamos mas a detalle.

muni_data['APROBADO'].head()
Out[17]:
0            Q.-   
1            Q.-   
2            Q.-   
3     Q.240,000.00 
4            Q.-   
Name: APROBADO, dtype: object
In [110]:
# Vamos a ignorar esto por un momento, pero los números de verdad son de tipo float

Veamos cuantas columnas son, podemos explorar un poco mas asi.

In [65]:
muni_data.columns
Out[65]:
Index(['ANNO', 'ADMINISTRACIÓN', 'MUNICIPIO', 'DEPTO', 'MUN', 'FUNC1', 'FUNC2',
       'FUNC3', 'ECON1', 'ECON2', 'ORIGEN1', 'ORIGEN2', 'ORIGEN3', 'PROGRAMA1',
       'PROGRAMA2', 'PROYECTO1', 'PROYECTO2', 'APROBADO', 'RETRASADO',
       'EJECUTADO', 'PAGADO'],
      dtype='object')
In [19]:
muni_data['MUNICIPIO'].unique()[:5] # Listame 5 municipios
Out[19]:
array(['SACATEPEQUEZ', 'GUATEMALA', 'JUTIAPA', 'SAN MARCOS', 'ZACAPA'], dtype=object)
In [67]:
print("Funcion 1: \n {func1} \n Funcion 2: \n {func2} \n Funcion 3: \n{func3}".format(
        func1=muni_data["FUNC1"].unique(), 
        func2=muni_data["FUNC2"].unique(),
        func3=muni_data["FUNC3"].unique()
        )
     )
Funcion 1: 
 ['1 - ADMINISTRACION GENERAL' '3 - SERVICIOS SOCIALES'
 '2 - DEFENSA Y SEGURIDAD INTERNA' 'Sin Finalidad'
 '4 - SERVICIOS ECONOMICOS' '5 - DEUDA PUBLICA'
 '6 - OTROS NO CLASIFICABLES' '01 - SERVICIOS PUBLICOS GENERALES'
 '08 - SALUD' '07 - URBANIZACION Y SERVICIOS COMUNITARIOS'
 '05 - ASUNTOS ECONOMICOS' '06 - PROTECCION AMBIENTAL' '10 - EDUCACION'
 '12 - TRANSACCIONES DE LA DEUDA PUBLICA'
 '03 - ORDEN PUBLICO Y SEGURIDAD CIUDADANA'
 '09 - ACTIVIDADES DEPORTIVAS, RECREATIVAS, CULTURA Y RELIGION'
 '11 - PROTECCION SOCIAL' '04 - ATENCION A DESASTRES Y GESTION DE RIESGOS'
 '02 - DEFENSA'] 
 Funcion 2: 
 ['109 - OTRAS ACTIVIDADES DE ADMINISTRACION' '306-AGUA Y SANEAMIENTO'
 '309-MEDIO AMBIENTE' '303-EDUCACION' '202-SEGURIDAD INTERNA'
 '304-CULTURA Y DEPORTES' '301-SALUD Y ASISTENCIA SOCIAL' 'Sin Funcion'
 '404-TRANSPORTE' '405-INDUSTRIA  Y  COMERCIO'
 '409-OTRAS ACTIVIDADES DE SERVICIOS ECONOMICOS'
 '106-ADMINISTRACION FISCAL' '406-TURISMO'
 '310-OTRAS ACTIVIDADES DE SERVICIOS SOCIALES' '402-ENERGIA'
 '403-COMUNICACIONES' '302-TRABAJO Y PREVISION SOCIAL'
 '107-AUDITORIA Y CONTROL' '501-INTERESES, COMISIONES Y OTROS GASTOS'
 '201-DEFENSA' '601-AMORTIZACION DE DEUDA' '407-AGROPECUARIO'
 '101-LEGISLATIVA' '307-VIVIENDA' '308-DESARROLLO URBANO Y RURAL'
 '401-MINERIA E HIDROCARBUROS' '408-FINANCIERAS Y SEGUROS'
 '602-DISMINUCION DE OTROS PASIVOS' '603-OTROS GASTOS'
 '103-DIRECCION GUBERNAMENTAL' '108-SERVICIOS GENERALES'
 '104-RELACIONES INTERIORES' '102-JUDICIAL' '305-CIENCIA Y TECNOLOGIA'
 '105-RELACIONES EXTERIORES'
 '0101 - Administracion legislative, ejecutiva y asuntos exteriores'
 '0803 - Servicios hospitalarios' '0703 - Abastecimiento de agua'
 '0502 - Agricultura, produccion pecuaria, silvicultura, caza y pesca'
 '0505 - Transporte' '0602 - Ordenación de aguas residuales'
 '0702 - Desarrollo comunitario' '1002 - Educación media'
 '1001 - Educación preprimaria y primaria'
 '0805 - Investigación y desarrollo relacionados con la Salud'
 '0503 - Combustibles y energia'
 '1201 - Intereses y comisiones de la deuda pública'
 '1202 - Amortizaciones de deuda pública'
 '0102 - Administracion fiscal, monetaria y servicios de fiscalizacion'
 '0501 - Asuntos económicos y comerciales en general'
 '0104 - Servicios generales' '0107 - Servicios públicos generales n.c.d'
 '0302 - Administración de justicia'
 '0301 - Servicios de policía y seguridad ciudadana'
 '0901 - Servicios deportivos y de recreación '
 '0906 - Actividades deportivas, recreativas, cultura y religión n.c.d. (SC)'
 '0705 - Investigación y desarrollo relacionados con urbanización y servicios comunitarios'
 '0106 - Investigación y desarrollo relacionados con los servicios públicos generales'
 '0606 - Protección ambiental n.c.d' '0601 - Ordenación de desechos'
 '1104 - Familia e hijos' '0704 - Alumbrado público' '1102 - Edad avanzada'
 '0902 - Servicios culturales (SI)' '0806 - Salud n.c.d'
 '0804 - Servicios de salud pública' '0701 - Urbanizacion'
 '0507 - Otras actividades economicas y financieras'
 '0303 - Defensoría pública penal y de los derechos humanos'
 '1005 - Educación no atribuible a ningún nivel escolarizado'
 '0105 - Investigación básica'
 '0604 - Protección de la diversidad biológica y del paisaje'
 '0404 - Atención a Desastres  y Gestión de Riesgos n.c.d'
 '0401 - Servicios de prevención y control de incendios, y servicios de rescate y auxilio'
 '1007 - Investigación y desarrollo relacionados con la educación'
 '1008 - Educación n.c.d' '0603 - Reducción de la contaminación'
 '0402 - Gestión prospectiva de riesgos a desastres'
 '0706 - Urbanización y servicios comunitarios n.c.d' '1106 - Vivienda'
 '0504 - Mineria, manufacturas y construccion' '0201 - Defensa militar'
 '0802 - Servicios para paciente externos'
 '1003 - Educación postmedia básica y diversificada no universitaria o superior'
 '0903 - Servicios de radio y televisión y servicios editoriales (SC)'
 '0605 - Investigación y desarrollo relacionados con la protección ambiental'
 '1004 - Educación universitaria o superior'
 '0103 - Ayuda economica exterior' '1109 - Protección social n.c.d'
 '0506 - Comunicaciones' '0801 - Productos, utiles y equipos medicos'
 '0509 - Asuntos económicos n.c.d'
 '0307 - Orden público y seguridad ciudadana  n.c.d' '0202 - Defensa civil'
 '0904 - Servicios religiosos y otros servicios comunitarios (SC)'
 '1006 - Servicios auxiliares de la educación '
 '0905 - Investigación y desarrollo relacionados con el esparcimiento, cultura y  religión'
 '1107 - Otros riesgos de exclusión social'
 '1101 - Enfermedad, funcionamiento corporal y discapacidad'
 '0403 - Investigación y desarrollo relacionados con la  Atención a Desastres  y Gestión de Riesgos'
 '1103 - Sobrevivientes (pensionados)' '0205 - Defensa n.c.d.'
 '0508 - Investigación y desarrollo relacionados con asuntos económicos'
 '1105 - Desempleo'
 '0306 - Investigación y desarrollo relacionados con el orden público y seguridad ciudadana'
 '0304 - Administración de asuntos penitenciarios'] 
 Funcion 3: 
['Sin Division' '010102-Ejecutiva'
 '080303-Servicios médicos y de centros de maternidad'
 '070301-Abastecimiento de agua' '050204-Producción pecuaria (SC)'
 '050501-Transporte por carretera' '060201-Ordenación de aguas residuales'
 '070201-Desarrollo comunitario' '100201-Educación básica'
 '100102-Educación primaria' '100103-Alfabetización'
 '080501-Investigación y desarrollo relacionados con la Salud'
 '050306-Electricidad' '120101-Intereses y comisiones de la deuda pública'
 '120201-Amortizaciones de deuda pública' '010101-Legislativa'
 '010201-Asuntos fiscales' '050103-Asuntos laborales generales'
 '010402-Servicios generales de planificación'
 '010203-Servicios de fiscalización' '010404-Otros servicios generales'
 '010701-Servicios públicos generales n.c.d' '050202-Silvicultura'
 '050101-Asuntos económicos y comerciales en general'
 '030201-Administración de justicia'
 '030101-Servicios de policía y seguridad ciudadana'
 '100101-Educación preprimaria' '100202-Educación diversificada'
 '090101-Servicios deportivos (SI)'
 '090601-Actividades deportivas, recreativas, cultura y religión n.c.d. (SC)'
 '070501-Investigación y desarrollo relacionados con urbanización y servicios comunitarios'
 '010601-Investigación y desarrollo relacionados con los servicios públicos generales'
 '060601-Protección ambiental n.c.d' '060101-Ordenación de desechos'
 '110401-Familia e hijos' '070401-Alumbrado público' '110201-Edad avanzada'
 '090201-Servicios culturales (SI)' '050302-Petróleo y gas natural'
 '080601-Salud n.c.d' '080401-Servicios de salud pública'
 '090102-Servicios de recreación (SI)' '070101-Urbanizacion'
 '010401-Administración general del recurso humano'
 '050701-Comercio, distribución, almacenamiento y depósito'
 '030301-Defensoría pública penal'
 '100501-Educación no atribuible a ningún nivel escolarizado'
 '010501-Investigación básica'
 '050505-Transporte por oleoductos y gasoductos' '050201-Agricultura'
 '060401-Protección de la diversidad biológica y del paisaje'
 '080301-Servicios hospitalarios generales'
 '040401-Atención a Desastres  y Gestión de Riesgos n.c.d'
 '040101-Servicios de prevención y control de incendios, y servicios de rescate y auxilio'
 '100701-Investigación y desarrollo relacionados con la educación'
 '100801-Educación n.c.d' '010202-Asuntos monetarios'
 '060301-Reducción de la contaminación'
 '040201-Gestión prospectiva de riesgos a desastres'
 '070601-Urbanización y servicios comunitarios n.c.d' '110601-Vivienda'
 '050402-Manufacturas' '020101-Defensa militar'
 '010403-Servicios generales de estadística'
 '080201-Servicios médicos generales'
 '100301-Educación postmedia básica y diversificada no universitaria o superior'
 '090301-Servicios de radio y televisión y servicios editoriales (SC)'
 '060501-Investigación y desarrollo relacionados con la protección ambiental'
 '100401-Primera etapa de la educación universitaria o superior'
 '010301-Ayuda económica a los países en desarrollo y en transición'
 '050506-Otros sistemas de transporte'
 '040202-Gestión correctiva o compensatoria de desastres'
 '110901-Protección social n.c.d' '050601-Comunicaciones'
 '080101-Productos farmacéuticos' '010103-Asuntos exteriores'
 '080302- Servicios hospitalarios especializados' '050403-Construcción'
 '050102-Supervisión financiera' '050901-Asuntos económicos n.c.d'
 '030701-Orden público y seguridad ciudadana  n.c.d' '020201-Defensa civil'
 '050707-Proyectos de desarrollo polivalentes'
 '090401-Servicios religiosos y otros servicios comunitarios (SC)'
 '080202-Servicios médicos especializados' '080204-Servicios paramédicos'
 '100601-Servicios auxiliares de la educación preprimaria y primaria'
 '080103-Aparatos y equipos terapéuticos'
 '090501-Investigación y desarrollo relacionados con el esparcimiento, cultura y  religión'
 '080102-Otros productos médicos'
 '050401-Extracción de recursos minerales excepto los combustibles minerales'
 '110701-Otros riesgos de exclusión social'
 '100603-Servicios auxiliares de la educación postmedia básica y diversificada no universitaria o superior'
 '050502-Transporte por agua'
 '050301-Carbón y otros combustibles minerales sólidos' '110101-Enfermedad'
 '080203-Servicios odontológicos'
 '040301-Investigación y desarrollo relacionados con la  Atención a Desastres  y Gestión de Riesgos'
 '110901-Investigación y desarrollo relacionados con la Protección Social'
 '100402-Segunda etapa de la educación universitaria o superior'
 '050203-Caza y pesca' '050303-Combustibles nucleares'
 '050307-Energía no eléctrica' '050704-Intermediación financiera'
 '110301-Sobrevivientes (pensionados)' '050305-Otros combustibles'
 '020501-Defensa n.c.d.'
 '080304-Servicios de salud y residencias a personas de la tercera edad y residencias de convalecencia'
 '050702-Hoteles y restaurantes' '050703-Turismo'
 '050801-Investigación y desarrollo relacionados con asuntos económicos, comerciales y laborales en general'
 '030302-Defensoría de los derechos humanos' '110501-Desempleo'
 '050805-Investigación y desarrollo relacionados con el transporte'
 '050803-Investigación y desarrollo relacionados con combustibles y energía'
 '110102-Funcionamiento corporal y discapacidad' '050706-Seguros y fianzas'
 '050504-Transporte aéreo'
 '030601-Investigación y desarrollo relacionados con el orden público y seguridad ciudadana'
 '050503-Transporte por ferrocarril'
 '030401-Administración de asuntos penitenciarios'
 '100602-Servicios auxiliares de la educación media'
 '100604-Servicios auxiliares de la educación universitaria o superior'
 '010302-Ayuda económica prestada a través de organismos internacionales'
 '050802-Investigación y desarrollo relacionados con agricultura, producción pecuaria, silvicultura, caza y p']

Vamos a explorar un poco con indices y etiquetas:

In [27]:
index_geo_data = muni_data.set_index("DEPTO","MUNICIPIO").sort_index()
In [30]:
index_geo_data.loc[
                    ["GUATEMALA","ESCUINTLA","SACATEPEQUEZ"],
                    ['FUNC1','FUNC2','FUNC3','APROBADO','EJECUTADO']
                  ].head()
Out[30]:
FUNC1 FUNC2 FUNC3 APROBADO EJECUTADO
DEPTO
GUATEMALA 01 – SERVICIOS PUBLICOS GENERALES 0101 – Administracion legislative, ejecutiva y… 010102-Ejecutiva Q.34,180.00 NaN
GUATEMALA 01 – SERVICIOS PUBLICOS GENERALES 0101 – Administracion legislative, ejecutiva y… 010102-Ejecutiva Q.42,000.00 NaN
GUATEMALA 01 – SERVICIOS PUBLICOS GENERALES 0101 – Administracion legislative, ejecutiva y… 010102-Ejecutiva Q.42,000.00 NaN
GUATEMALA 01 – SERVICIOS PUBLICOS GENERALES 0101 – Administracion legislative, ejecutiva y… 010102-Ejecutiva Q.320,000.00 NaN
GUATEMALA 01 – SERVICIOS PUBLICOS GENERALES 0101 – Administracion legislative, ejecutiva y… 010102-Ejecutiva Q.1,000.00 NaN

Ahora que podemos realizar selección basica, pensamos, que podemos hacer con estos datos, y nos enfrentamos a un problema…

In [31]:
muni_data['APROBADO'][3] * 2
Out[31]:
' Q.240,000.00  Q.240,000.00 '

¡Rayos! porque no puedo manipular estos datos así como los otros, y es porque son de tipo texto y no números.

In [71]:
# muni_data['APROBADO'].sum() ## No correr, falla...

Necesitamos crear una funcion para limpiar estos tipos de dato que son texto, para poderlos convertir a numeros de tipo punto flotante (decimales).

In [33]:
## Esto es una funcion en Python, con def definimos el nombre de esta funcion, 'clean_q'
## esta recibe un objeto de entrada.

def clean_q(input_object):
    from re import sub  ## importamos la función sub, que substituye utilizando patrones
    ## https://es.wikipedia.org/wiki/Expresión_regular
    
    ## NaN es un objeto especial que representa un valor numérico invalido, Not A Number.
    if input_object == NaN:
        return 0
    inp = unicode(input_object) # De objeto a un texto
    cleansed_q = sub(r'Q\.','', inp) # Remueve Q., el slash evita que . sea interpretado como un caracter especial
    cleansed_00 = sub(r'\.00', '', cleansed_q) # Igual aqui
    cleansed_comma = sub(',', '', cleansed_00)
    cleansed_dash = sub('-', '', cleansed_comma)
    cleansed_nonchar = sub(r'[^0-9]+', '', cleansed_dash)
    if cleansed_nonchar == '':
        return 0
    return cleansed_nonchar
In [34]:
presupuesto_aprobado = muni_data['APROBADO'].map(clean_q).astype(float)
In [35]:
presupuesto_aprobado.describe()
Out[35]:
count    6.74135e+05
mean     3.64625e+05
std      8.43016e+06
min      0.00000e+00
25%      0.00000e+00
50%      1.00000e+03
75%      1.50000e+04
max      1.43719e+09
Name: APROBADO, dtype: float64
In [36]:
muni_data['EJECUTADO'].head()
Out[36]:
0     Q.137,400.00 
1            Q.-   
2            Q.-   
3      Q.49,588.00 
4            Q.-   
Name: EJECUTADO, dtype: object
In [37]:
muni_data['FUNC1'].str.upper().value_counts()
Out[37]:
1 - ADMINISTRACION GENERAL                                      150541
01 - SERVICIOS PUBLICOS GENERALES                               107911
SIN FINALIDAD                                                   100862
3 - SERVICIOS SOCIALES                                           96451
4 - SERVICIOS ECONOMICOS                                         65763
07 - URBANIZACION Y SERVICIOS COMUNITARIOS                       40349
05 - ASUNTOS ECONOMICOS                                          38126
10 - EDUCACION                                                   18584
06 - PROTECCION AMBIENTAL                                        17359
09 - ACTIVIDADES DEPORTIVAS, RECREATIVAS, CULTURA Y RELIGION     11929
03 - ORDEN PUBLICO Y SEGURIDAD CIUDADANA                          7137
08 - SALUD                                                        5707
12 - TRANSACCIONES DE LA DEUDA PUBLICA                            3470
11 - PROTECCION SOCIAL                                            3338
6 - OTROS NO CLASIFICABLES                                        2565
2 - DEFENSA Y SEGURIDAD INTERNA                                   1662
04 - ATENCION A DESASTRES Y GESTION DE RIESGOS                    1179
5 - DEUDA PUBLICA                                                 1073
02 - DEFENSA                                                       129
Name: FUNC1, dtype: int64
In [77]:
presupuesto_aprobado.plot()
Out[77]:
<matplotlib.axes._subplots.AxesSubplot at 0x7f7e5ff55860>

Bueno, ahora ya tenemos estas series de datos convertidas. ¿como las volvemos a agregar al dataset? ¡Facil! lo volvemos a insertar al DataFrame original, sobreescribiendo esa columna.

In [38]:
for col in ('APROBADO', 'RETRASADO', 'EJECUTADO', 'PAGADO'):
    muni_data[col] = muni_data[col].map(clean_q).astype(float)
In [39]:
muni_data['APROBADO'].sum()
Out[39]:
245806713741.0
In [40]:
muni_data.head()
Out[40]:
ANNO ADMINISTRACIÓN MUNICIPIO DEPTO MUN FUNC1 FUNC2 FUNC3 ECON1 ECON2 ORIGEN2 ORIGEN3 PROGRAMA1 PROGRAMA2 PROYECTO1 PROYECTO2 APROBADO RETRASADO EJECUTADO PAGADO
0 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 137400.0 137400.0 137400.0
1 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 0.0 0.0 0.0
2 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 22 Ingresos Ordinarios De Aporte Constitucional No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 0.0 0.0 0.0
3 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica 240000.0 49588.0 49588.0 49588.0
4 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 42 Préstamos Internos No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 0.0 0.0 0.0

5 rows × 21 columns

In [81]:
muni_data['ECON1'].unique()
Out[81]:
array(['21 Gastos Corrientes', '22 Gastos de Capital',
       '23 Aplicaciones Financieras'], dtype=object)

Ahora si, ¡ya podemos agrupar y hacer indices bien!

In [41]:
index_geo_data = muni_data.set_index("DEPTO","MUNICIPIO").sort_index()
In [42]:
index_geo_data.head(40)
Out[42]:
ANNO ADMINISTRACIÓN MUNICIPIO MUN FUNC1 FUNC2 FUNC3 ECON1 ECON2 ORIGEN1 ORIGEN2 ORIGEN3 PROGRAMA1 PROGRAMA2 PROYECTO1 PROYECTO2 APROBADO RETRASADO EJECUTADO PAGADO
DEPTO
ALTA VERAPAZ 2011 Municipal CAHABON CAHABON 01 – SERVICIOS PUBLICOS GENERALES 0101 – Administracion legislative, ejecutiva y… 010101-Legislativa 21 Gastos Corrientes 062 – Dietas Para Cargos Representativos No Aplica No Aplica No Aplica 1 – ACTIVIDADES CENTRALES 0 – SIN SUB PROGRAMA 0 – SIN PPROYECTO 1 – CONCEJO MUNICIPAL 169600.0 169600.0 0.0 16798750.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 3 – SERVICIOS SOCIALES 306-AGUA Y SANEAMIENTO Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 20 Recursos Del Tesoro Con Afectación Especifica 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 10450.0 0.0 0.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 3 – SERVICIOS SOCIALES 301-SALUD Y ASISTENCIA SOCIAL Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 30 Recursos Propios De Las Instituciones 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 4520.0 0.0 0.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 3 – SERVICIOS SOCIALES 301-SALUD Y ASISTENCIA SOCIAL Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 30 Recursos Propios De Las Instituciones 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 1020.0 0.0 0.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 3 – SERVICIOS SOCIALES 301-SALUD Y ASISTENCIA SOCIAL Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 30 Recursos Propios De Las Instituciones 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 5792.0 0.0 0.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 3 – SERVICIOS SOCIALES 301-SALUD Y ASISTENCIA SOCIAL Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 30 Recursos Propios De Las Instituciones 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 1002062.0 0.0 0.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 3 – SERVICIOS SOCIALES 301-SALUD Y ASISTENCIA SOCIAL Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 30 Recursos Propios De Las Instituciones 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 17122.0 0.0 0.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 3 – SERVICIOS SOCIALES 306-AGUA Y SANEAMIENTO Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 20 Recursos Del Tesoro Con Afectación Especifica 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica 20215.0 20215.0 0.0 0.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 3 – SERVICIOS SOCIALES 306-AGUA Y SANEAMIENTO Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 20 Recursos Del Tesoro Con Afectación Especifica 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica 74690.0 14965.0 0.0 0.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 3 – SERVICIOS SOCIALES 306-AGUA Y SANEAMIENTO Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 20 Recursos Del Tesoro Con Afectación Especifica 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica 18000.0 18000.0 1254260.0 1254260.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 3 – SERVICIOS SOCIALES 306-AGUA Y SANEAMIENTO Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 30 Recursos Propios De Las Instituciones 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 86006.0 86006.0 86006.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 4 – SERVICIOS ECONOMICOS 402-ENERGIA Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 30 Recursos Propios De Las Instituciones 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica 6790.0 6790.0 0.0 0.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 3 – SERVICIOS SOCIALES 306-AGUA Y SANEAMIENTO Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 20 Recursos Del Tesoro Con Afectación Especifica 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica 90000.0 3344064.0 31119.0 31119.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 3 – SERVICIOS SOCIALES 306-AGUA Y SANEAMIENTO Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 20 Recursos Del Tesoro Con Afectación Especifica 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica 34225.0 34225.0 0.0 0.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 3 – SERVICIOS SOCIALES 306-AGUA Y SANEAMIENTO Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 30 Recursos Propios De Las Instituciones 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 225716.0 225716.0 225716.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 3 – SERVICIOS SOCIALES 306-AGUA Y SANEAMIENTO Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 20 Recursos Del Tesoro Con Afectación Especifica 22 Ingresos Ordinarios De Aporte Constitucional No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 30000.0 30000.0 30000.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 3 – SERVICIOS SOCIALES 306-AGUA Y SANEAMIENTO Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 20 Recursos Del Tesoro Con Afectación Especifica 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica 142960.0 14689711.0 14689711.0 14689711.0
ALTA VERAPAZ 2009 Municipal CHISEC CHISEC 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 22 Gastos de Capital 274 – Cemento 30 Recursos Propios De Las Instituciones 32 Dismin Caja Y Bancos Entidades Descentraliz… No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 6930.0 6930.0 6930.0
ALTA VERAPAZ 2009 Municipal CHISEC CHISEC 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 22 Gastos de Capital 274 – Cemento 30 Recursos Propios De Las Instituciones 32 Dismin Caja Y Bancos Entidades Descentraliz… No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 6930.0 6930.0 6930.0
ALTA VERAPAZ 2009 Municipal CHISEC CHISEC 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 22 Gastos de Capital 274 – Cemento 30 Recursos Propios De Las Instituciones 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 17360.0 17360.0 17360.0
ALTA VERAPAZ 2009 Municipal CHISEC CHISEC 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 22 Gastos de Capital 274 – Cemento 30 Recursos Propios De Las Instituciones 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 1830.0 1830.0 1830.0
ALTA VERAPAZ 2009 Municipal CHISEC CHISEC 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 22 Gastos de Capital 274 – Cemento 20 Recursos Del Tesoro Con Afectación Especifica 22 Ingresos Ordinarios De Aporte Constitucional No Aplica No Aplica No Aplica No Aplica No Aplica 50000.0 114525.0 114525.0 114525.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 3 – SERVICIOS SOCIALES 303-EDUCACION Sin Division 22 Gastos de Capital 332 – Construcciones De Bienes Nacionales De U… 20 Recursos Del Tesoro Con Afectación Especifica 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica 107250.0 110061.0 110061.0 110061.0
ALTA VERAPAZ 2009 Municipal CHISEC CHISEC 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 22 Gastos de Capital 274 – Cemento 20 Recursos Del Tesoro Con Afectación Especifica 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 40978.0 40978.0 40978.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 3 – SERVICIOS SOCIALES 303-EDUCACION Sin Division 22 Gastos de Capital 332 – Construcciones De Bienes Nacionales De U… 30 Recursos Propios De Las Instituciones 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 15128612.0 137539.0 137539.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 3 – SERVICIOS SOCIALES 303-EDUCACION Sin Division 22 Gastos de Capital 332 – Construcciones De Bienes Nacionales De U… 30 Recursos Propios De Las Instituciones 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 94374.0 94374.0 94374.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 4 – SERVICIOS ECONOMICOS 409-OTRAS ACTIVIDADES DE SERVICIOS ECONOMICOS Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 20 Recursos Del Tesoro Con Afectación Especifica 22 Ingresos Ordinarios De Aporte Constitucional No Aplica No Aplica No Aplica No Aplica No Aplica 1000000.0 4997703.0 49029.0 49029.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 4 – SERVICIOS ECONOMICOS 409-OTRAS ACTIVIDADES DE SERVICIOS ECONOMICOS Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 20 Recursos Del Tesoro Con Afectación Especifica 22 Ingresos Ordinarios De Aporte Constitucional No Aplica No Aplica No Aplica No Aplica No Aplica 98130.0 98130.0 0.0 0.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 4 – SERVICIOS ECONOMICOS 409-OTRAS ACTIVIDADES DE SERVICIOS ECONOMICOS Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 20 Recursos Del Tesoro Con Afectación Especifica 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica 197305.0 5874280.0 5874280.0 5874280.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 4 – SERVICIOS ECONOMICOS 409-OTRAS ACTIVIDADES DE SERVICIOS ECONOMICOS Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 20 Recursos Del Tesoro Con Afectación Especifica 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica 264085.0 82105.0 5933880.0 5933880.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 4 – SERVICIOS ECONOMICOS 409-OTRAS ACTIVIDADES DE SERVICIOS ECONOMICOS Sin Division 22 Gastos de Capital 171 – Mantenimiento Y Reparación De Edificios 20 Recursos Del Tesoro Con Afectación Especifica 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 0.0 0.0 0.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 4 – SERVICIOS ECONOMICOS 409-OTRAS ACTIVIDADES DE SERVICIOS ECONOMICOS Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 20 Recursos Del Tesoro Con Afectación Especifica 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica 51060.0 51810.0 51809.0 51809.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 4 – SERVICIOS ECONOMICOS 409-OTRAS ACTIVIDADES DE SERVICIOS ECONOMICOS Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 20 Recursos Del Tesoro Con Afectación Especifica 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica 622320.0 622320.0 41598604.0 41598604.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 4 – SERVICIOS ECONOMICOS 409-OTRAS ACTIVIDADES DE SERVICIOS ECONOMICOS Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 30 Recursos Propios De Las Instituciones 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 84729875.0 581251.0 581251.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 4 – SERVICIOS ECONOMICOS 409-OTRAS ACTIVIDADES DE SERVICIOS ECONOMICOS Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 20 Recursos Del Tesoro Con Afectación Especifica 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica 803365.0 803365.0 723122.0 723122.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 4 – SERVICIOS ECONOMICOS 409-OTRAS ACTIVIDADES DE SERVICIOS ECONOMICOS Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 30 Recursos Propios De Las Instituciones 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 42256696.0 42256696.0 42256696.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 4 – SERVICIOS ECONOMICOS 409-OTRAS ACTIVIDADES DE SERVICIOS ECONOMICOS Sin Division 22 Gastos de Capital 331 – Construcciones De Bienes Nacionales De U… 20 Recursos Del Tesoro Con Afectación Especifica 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica 229250.0 229250.0 2664521.0 2664521.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 3 – SERVICIOS SOCIALES 303-EDUCACION Sin Division 22 Gastos de Capital 022 – Personal Por Contrato 20 Recursos Del Tesoro Con Afectación Especifica 22 Ingresos Ordinarios De Aporte Constitucional No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 15000.0 14181.0 14181.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 3 – SERVICIOS SOCIALES 303-EDUCACION Sin Division 22 Gastos de Capital 332 – Construcciones De Bienes Nacionales De U… 30 Recursos Propios De Las Instituciones 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 20.0 0.0 0.0
ALTA VERAPAZ 2009 Municipal CHAHAL CHAHAL 3 – SERVICIOS SOCIALES 303-EDUCACION Sin Division 22 Gastos de Capital 332 – Construcciones De Bienes Nacionales De U… 30 Recursos Propios De Las Instituciones 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 8219.0 0.0 0.0
In [44]:
mi_muni_d = muni_data.set_index(["ANNO"],["DEPTO","MUNICIPIO"],["FUNC1","ECON1","ORIGEN1"]).sort_index()
In [45]:
mi_muni_d.head()
Out[45]:
ADMINISTRACIÓN MUNICIPIO DEPTO MUN FUNC1 FUNC2 FUNC3 ECON1 ECON2 ORIGEN1 ORIGEN2 ORIGEN3 PROGRAMA1 PROGRAMA2 PROYECTO1 PROYECTO2 APROBADO RETRASADO EJECUTADO PAGADO
ANNO
0 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 20 Recursos Del Tesoro Con Afectación Especifica 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 137400.0 137400.0 137400.0
1 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 20 Recursos Del Tesoro Con Afectación Especifica 21 Ingresos Tributarios Iva Paz No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 0.0 0.0 0.0
2 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 20 Recursos Del Tesoro Con Afectación Especifica 22 Ingresos Ordinarios De Aporte Constitucional No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 0.0 0.0 0.0
3 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 30 Recursos Propios De Las Instituciones 31 Ingresos Propios No Aplica No Aplica No Aplica No Aplica No Aplica 240000.0 49588.0 49588.0 49588.0
4 2008 Municipal ALOTENANGO SACATEPEQUEZ ALOTENANGO 1 – ADMINISTRACION GENERAL 109 – OTRAS ACTIVIDADES DE ADMINISTRACION Sin Division 21 Gastos Corrientes 011 – Personal Permanente 40 Credito Interno 42 Préstamos Internos No Aplica No Aplica No Aplica No Aplica No Aplica 0.0 0.0 0.0 0.0
In [85]:
## Para obtener mas ayuda, ejecuta:
# help(mi_muni_d)
In [46]:
mi_muni_d.columns
Out[46]:
Index(['ADMINISTRACIÓN', 'MUNICIPIO', 'DEPTO', 'MUN', 'FUNC1', 'FUNC2',
       'FUNC3', 'ECON1', 'ECON2', 'ORIGEN1', 'ORIGEN2', 'ORIGEN3', 'PROGRAMA1',
       'PROGRAMA2', 'PROYECTO1', 'PROYECTO2', 'APROBADO', 'RETRASADO',
       'EJECUTADO', 'PAGADO'],
      dtype='object')
In [47]:
mi_muni_d["DEPTO"].describe()
Out[47]:
count        674135
unique           22
top       GUATEMALA
freq          55520
Name: DEPTO, dtype: object
In [48]:
year_grouped = mi_muni_d.groupby("ANNO").sum()
In [49]:
year_grouped
Out[49]:
APROBADO RETRASADO EJECUTADO PAGADO
ANNO
2008 2.68353e+10 2.45634e+11 4.14921e+11 4.12270e+11
2009 5.31561e+10 2.99390e+11 4.81259e+11 4.77409e+11
2010 7.32193e+10 3.28068e+11 0.00000e+00 5.26614e+11
2011 9.25959e+10 3.39514e+11 0.00000e+00 5.42302e+11
In [50]:
year_dep_grouped = mi_muni_d.groupby(["ANNO","DEPTO"]).sum()
year_dep_grouped.head()

sns.set(style="whitegrid")

# Draw a nested barplot to show survival for class and sex
g = sns.factorplot( data=year_dep_grouped,
                   size=6, kind="bar", palette="muted")
# g.despine(left=True)
g.set_ylabels("cantidad")
Out[50]:
<seaborn.axisgrid.FacetGrid at 0x7f076e5f5fd0>
In [91]:
year_dep_grouped.head()
Out[91]:
APROBADO RETRASADO EJECUTADO PAGADO
ANNO DEPTO
2008 ALTA VERAPAZ 2.78291e+09 1.46371e+10 1.63018e+10 1.61846e+10
BAJA VERAPAZ 6.13609e+08 6.77458e+09 6.57817e+09 6.56299e+09
CHIMALTENANGO 9.42927e+08 8.63124e+09 1.30331e+10 1.30252e+10
CHIQUIMULA 5.74758e+08 7.30016e+09 7.62139e+09 7.59232e+09
EL PROGRESO 3.53643e+08 5.29144e+09 7.06977e+09 7.03881e+09

Contestando preguntas

Ahora ya podemos contestar algunas clases de preguntas agrupando estas entradas individuales de de datos.
¿Que tal el departamento que tiene mas gasto en Seguridad? ¿Los tipos de gasto mas elevados como suelen ser pagados?

In [92]:
year_grouped.plot()
Out[92]:
<matplotlib.axes._subplots.AxesSubplot at 0x7f7e5fe45a90>
In [51]:
year_dep_group = mi_muni_d.groupby(["DEPTO","ANNO"]).sum()
In [94]:
year_dep_group.unstack().head()
Out[94]:
APROBADO RETRASADO EJECUTADO PAGADO
ANNO 2008 2009 2010 2011 2008 2009 2010 2011 2008 2009 2010 2011 2008 2009 2010 2011
DEPTO
ALTA VERAPAZ 2.78291e+09 5.64744e+09 1.95357e+10 2.12952e+10 1.46371e+10 2.09176e+10 3.22332e+10 3.77961e+10 1.63018e+10 2.18337e+10 0.0 0.0 1.61846e+10 2.15977e+10 2.06492e+10 2.38565e+10
BAJA VERAPAZ 6.13609e+08 1.93412e+09 1.55609e+09 3.10721e+09 6.77458e+09 7.40240e+09 9.37046e+09 1.15378e+10 6.57817e+09 7.00557e+09 0.0 0.0 6.56299e+09 6.97541e+09 8.10811e+09 1.04986e+10
CHIMALTENANGO 9.42927e+08 2.36969e+09 2.95906e+09 2.63505e+09 8.63124e+09 9.65804e+09 9.83285e+09 8.07592e+09 1.30331e+10 1.19265e+10 0.0 0.0 1.30252e+10 1.17757e+10 1.27430e+10 1.25867e+10
CHIQUIMULA 5.74758e+08 7.94670e+08 2.40722e+09 3.12491e+09 7.30016e+09 7.01026e+09 9.74311e+09 8.95407e+09 7.62139e+09 7.77514e+09 0.0 0.0 7.59232e+09 7.68196e+09 9.47250e+09 9.48921e+09
EL PROGRESO 3.53643e+08 9.42015e+08 1.98337e+09 2.09171e+09 5.29144e+09 6.41684e+09 6.02155e+09 6.51524e+09 7.06977e+09 7.01621e+09 0.0 0.0 7.03881e+09 6.94013e+09 8.77785e+09 8.27554e+09
In [52]:
func_p = mi_muni_d.groupby(["FUNC1"]).sum()
func_dep = mi_muni_d.groupby(["FUNC1","DEPTO"]).sum()
func_p
Out[52]:
APROBADO RETRASADO EJECUTADO PAGADO
FUNC1
01 – SERVICIOS PUBLICOS GENERALES 2.12896e+10 9.39864e+10 0.00000e+00 1.46451e+11
02 – DEFENSA 7.65149e+06 4.85768e+07 0.00000e+00 1.15252e+08
03 – ORDEN PUBLICO Y SEGURIDAD CIUDADANA 1.54112e+09 4.62692e+09 0.00000e+00 9.71618e+09
04 – ATENCION A DESASTRES Y GESTION DE RIESGOS 2.02693e+08 1.46343e+09 0.00000e+00 1.90633e+09
05 – ASUNTOS ECONOMICOS 3.53597e+10 1.16573e+11 0.00000e+00 1.08795e+11
06 – PROTECCION AMBIENTAL 6.82913e+09 2.43591e+10 0.00000e+00 3.15289e+10
07 – URBANIZACION Y SERVICIOS COMUNITARIOS 2.35510e+10 9.90229e+10 0.00000e+00 1.12771e+11
08 – SALUD 1.79933e+09 6.12886e+09 0.00000e+00 7.90331e+09
09 – ACTIVIDADES DEPORTIVAS, RECREATIVAS, CULTURA Y RELIGION 2.02757e+09 1.08670e+10 0.00000e+00 1.33765e+10
1 – ADMINISTRACION GENERAL 2.22609e+10 1.53756e+11 2.87329e+11 2.86671e+11
10 – EDUCACION 7.38670e+09 2.92963e+10 0.00000e+00 3.05241e+10
11 – PROTECCION SOCIAL 6.06386e+08 7.10021e+09 0.00000e+00 1.26944e+10
12 – TRANSACCIONES DE LA DEUDA PUBLICA 1.94713e+10 6.97031e+10 0.00000e+00 8.69565e+10
2 – DEFENSA Y SEGURIDAD INTERNA 2.69279e+08 1.41168e+09 1.11557e+10 1.11701e+10
3 – SERVICIOS SOCIALES 2.46567e+10 1.48437e+11 2.16065e+11 2.13887e+11
4 – SERVICIOS ECONOMICOS 2.27707e+10 1.67108e+11 2.47066e+11 2.43517e+11
5 – DEUDA PUBLICA 2.54276e+09 1.80157e+10 2.89121e+10 2.89121e+10
6 – OTROS NO CLASIFICABLES 6.22515e+09 4.34632e+10 9.32827e+10 9.31423e+10
Sin Finalidad 4.70091e+10 2.17238e+11 1.23702e+10 5.18558e+11
In [97]:
func_dep_flat = func_dep.unstack()
In [98]:
func_dep_flat.head()
Out[98]:
APROBADO PAGADO
DEPTO ALTA VERAPAZ BAJA VERAPAZ CHIMALTENANGO CHIQUIMULA EL PROGRESO ESCUINTLA GUATEMALA HUEHUETENANGO IZABAL JALAPA QUETZALTENANGO QUICHE RETALHULEU SACATEPEQUEZ SAN MARCOS SANTA ROSA SOLOLA SUCHITEPEQUEZ TOTONICAPAN ZACAPA
FUNC1
01 – SERVICIOS PUBLICOS GENERALES 2.65028e+09 5.44695e+08 6.02520e+08 1.45687e+09 5.06434e+08 1.82266e+09 4.99280e+09 1.26883e+09 1.95440e+08 4.06992e+08 5.56908e+09 3.55170e+09 3.88756e+09 1.42191e+10 6.86290e+09 5.26960e+09 5.25078e+09 3.65925e+09 1.48548e+09 7.83247e+09
02 – DEFENSA 0.00000e+00 4.18211e+06 NaN 1.25551e+06 NaN 8.25311e+05 0.00000e+00 NaN NaN 5.80000e+05 6.50000e+01 4.45000e+04 NaN NaN NaN 2.81500e+04 NaN NaN NaN 0.00000e+00
03 – ORDEN PUBLICO Y SEGURIDAD CIUDADANA 4.15592e+08 2.73807e+06 1.73070e+07 1.20563e+08 3.46200e+05 8.40011e+06 7.54022e+07 8.85087e+07 1.34582e+06 4.66579e+07 1.11593e+09 9.09038e+07 3.09004e+08 2.05695e+09 2.18261e+07 1.47161e+07 2.27009e+08 8.04501e+08 3.30255e+07 5.84190e+08
04 – ATENCION A DESASTRES Y GESTION DE RIESGOS 1.65910e+06 1.21105e+06 1.55504e+06 1.00000e+05 0.00000e+00 1.09773e+08 1.60380e+07 7.50000e+04 8.19824e+05 1.25000e+05 3.74758e+06 1.42707e+07 2.55000e+04 1.97266e+08 8.83148e+07 1.64157e+05 2.05584e+08 1.63782e+08 2.30420e+07 3.34638e+08
05 – ASUNTOS ECONOMICOS 2.18998e+10 9.96920e+08 8.61639e+08 5.23307e+08 7.35246e+07 1.12597e+09 6.27814e+08 3.92554e+09 4.30563e+08 9.99355e+07 9.02544e+09 5.93387e+09 3.12895e+09 5.35538e+09 5.26815e+09 1.59234e+09 4.55446e+09 2.28815e+09 1.23100e+09 1.34795e+09

5 rows × 88 columns

In [99]:
mi_muni_d.groupby(["DEPTO"]).sum()
Out[99]:
APROBADO RETRASADO EJECUTADO PAGADO
DEPTO
ALTA VERAPAZ 4.92612e+10 1.05584e+11 3.81355e+10 8.22879e+10
BAJA VERAPAZ 7.21103e+09 3.50852e+10 1.35837e+10 3.21451e+10
CHIMALTENANGO 8.90672e+09 3.61980e+10 2.49596e+10 5.01306e+10
CHIQUIMULA 6.90156e+09 3.30076e+10 1.53965e+10 3.42360e+10
EL PROGRESO 5.37074e+09 2.42451e+10 1.40860e+10 3.10323e+10
ESCUINTLA 1.20947e+10 7.26081e+10 5.14456e+10 1.03419e+11
GUATEMALA 5.68443e+10 2.15876e+11 3.21973e+11 7.58397e+11
HUEHUETENANGO 2.47259e+10 1.00322e+11 4.92594e+10 9.70342e+10
IZABAL 5.11757e+09 2.68013e+10 1.79282e+10 4.43529e+10
JALAPA 1.58871e+09 2.33997e+10 1.04539e+10 2.38595e+10
JUTIAPA 4.14766e+09 4.03333e+10 2.00108e+10 5.03091e+10
PETEN 3.45629e+09 4.68713e+10 3.39268e+10 6.44478e+10
QUETZALTENANGO 8.29197e+09 8.49271e+10 5.99876e+10 1.09478e+11
QUICHE 4.84704e+09 4.54015e+10 2.37022e+10 5.21949e+10
RETALHULEU 1.96498e+09 1.84727e+10 1.19464e+10 2.63670e+10
SACATEPEQUEZ 1.23032e+10 6.03496e+10 4.11457e+10 9.07820e+10
SAN MARCOS 1.09746e+10 7.05547e+10 4.79591e+10 9.71124e+10
SANTA ROSA 2.79451e+09 3.75883e+10 2.21405e+10 4.49575e+10
SOLOLA 1.40226e+09 4.53424e+10 2.22294e+10 5.03288e+10
SUCHITEPEQUEZ 1.02333e+10 4.30445e+10 3.06963e+10 5.61131e+10
TOTONICAPAN 2.71191e+09 2.21165e+10 1.12744e+10 2.26652e+10
ZACAPA 4.65654e+09 2.44776e+10 1.39398e+10 3.69447e+10
In [96]:
func_p.plot(kind="barh", figsize=(8,6), linewidth=2.5)
Out[96]:
<matplotlib.axes._subplots.AxesSubplot at 0x7f7e6d19ca20>

 

 

Relevancia de datos abiertos: del discurso al impacto

- el mayo 29, 2017 en DAL, Experiencias, Fuentes de datos, Guest posts

Chasm

CC by SA Monyo Kararan

Hay todavía un abismo entre el discurso de datos abiertos y el impacto que esta apertura, publicación, vinculación y otras prácticas tienen en la vida de las poblaciones globales. El puente entre los extremos de ese abismo es la relevancia de los datos, es decir, la capacidad que estos tienen para ser aprovechados efectivamente por las diversas poblaciones globales. Este abismo parece especialmente insondable para poblaciones que son política y socialmente excluidas.

La vinculación de los dos extremos de ese hueco es cada vez de una necesidad mayor, toda vez que organismos, oficiales y autónomos globales, han adoptado en mayor o menor medida dicho discurso de apertura de datos.

Es necesario en este punto, a la vez que admitir los avances, prestar atención a las muchas deficiencias en políticas de apertura en regiones específicas, reconocer que la apertura no es un fin en sí mismo, y que resulta trivial si no viene aparejada de garantías de acceso y uso de los conjuntos de datos. Más aún, resulta indispensable establecer mecanismos concretos y específicos para corregir esta deficiencia.

Para ello deben desarrollarse estándares contextuales, técnicos y de evaluación,  con miras a la inclusión de amplias poblaciones que se beneficien del impacto de las políticas de apertura de datos.

El eje técnico

Dear W3C

CC by NC SA Paul Downey

En un sentido técnico, la relevancia de datos es una métrica de calidad de datos que vincula los sets de datos disponibles con el interés de actores sociales. En este mismo sentido, parte del abismo entre apertura e impacto es irónicamente un vacío de (meta)datos: aquellos que se refieren a las potencialidades de “consumo” de dichos conjuntos de datos.

En una publicación sobre prácticas recomendables para la publicación de datos en la web,  el World Wide Web Consortium (W3C) detalla una serie de criterios para que los conjuntos de datos sean vinculables y aprovechables en máximo grado. Entre estas prácticas, se encuentra el uso de un Vocabulario para el Uso de Conjuntos de datos (DUV, por sus siglas en inglés), para proveer un modo de retroalimentación entre “consumidores” y “publicadores” de datos sobre el uso de los mismos. Por ejemplo, agregando metadatos descriptivos a los conjuntos de datos, tanto sobre la base en sí misma, como de sus posibles usos. De esta manera, se generan metadatos que permiten contrastar el uso sugerido y el reuso dado.

Estas nuevas prácticas se adscriben a los principios FAIR y concuerdan con el espíritu de distribución y acceso universal que originalmente concibió internet.

Phil Archer, una de las diecinueve personas que redactó las recomendaciones, describe el propósito del documento de la siguiente manera:

“Quiero una revolución. No una revolución política, ni ciertamente una revolución violenta, pero una revolución a fin de cuentas. Una revolución de la manera en la que las personas piensan sobre compartir datos en la red”.

El eje contextual

Ayot2inapa

CC by SA Marcos Ge

Para implementar relevancia hace falta una revolución que sí es de índole política: el reconocimiento de necesidades prioritarias en la publicación de conjuntos de datos, con respecto a necesidades de todos los grupos poblacionales, pero con especial atención a datos sobre garantías individuales que son sistemáticamente violentadas por gobiernos y otros actores sociales en distintas latitudes globales.

Por ejemplo, en el contexto mexicano, la Corte Interamericana de Derechos Humanos (CIDH) detalla en uno de sus informes más recientes no sólo algunas de las violaciones sistemáticas de Derechos Humanos: desaparición, desaparición forzada, tortura, ejecuciones extrajudiciales, injusticia; sino también las poblaciones más vulneradas por estas violaciones: mujeres, pueblos indígenas, niñas, niños, adolescentes, defensoras de derechos humanos, personas migrantes, personas lesbianas, gay, bisexuales, trans y otras formas de disentimiento sexual.

En países en que se viven estas condiciones, es indispensable que este contexto de Derechos Humanos sea considerado como un factor determinante para la elaboración de políticas de apertura de datos relevantes. Aparejada a estas políticas, sólo la instrumentación de reglamentaciones y mecanismos concretos de análisis de la demanda de datos puede proveer a estas poblaciones de elementos para su defensa, que convengan efectivamente en la mejora de sus vidas.

Un paso más para asegurar la relevancia de los datos abiertos es la creación de mecanismos específicos que garanticen que poblaciones política y económicamente excluidas tengan acceso a un volumen y calidad de datos suficientes que les permita trabajar para erradicar las prácticas mismas que han promovido su exclusión.

Es decir, debe existir una concordancia entre las políticas de apertura de datos y la agenda pública propuesta por un gobierno abierto para el empoderamiento de la población, agenda que ya de por sí debe incluir a las poblaciones mencionadas.

Para la elaboración de estándares de todo tipo sobre políticas de relevancia de datos deben ser llamadas a participar no solamente especialistas en defensa de derechos, legislaciones nacionales e internacionales y otras disciplinas, sino principalmente representantes de estas poblaciones vulneradas y despojadas de la vida o de factores que permitan una vida digna.

Hoy en día, la generación y publicación de datos con esta perspectiva se está llevando a cabo por organizaciones activistas. En México, por ejemplo, periodistas e investigadores independientes hicieron pública una base de datos sobre personas desaparecidas, y en Bolivia son activistas quienes construyen una base de datos sobre feminicidios; en España periodistas organizaron datos sobre la brecha de clase en el acceso a medicamentos; en Estados Unidos, un profesor universitario creó una base de variables relevantes para la comunidad LGBTTI; y desde el Reino Unido, el medio The Guardian creó una plataforma que muestra el número de personas de raza negra que mueren por causa de disparos de policías.

El eje de evaluación

Derivado del emparejamiento de los nuevos estándares técnicos propuestos por la W3C con las prioridades humanitarias globales, las poblaciones tendrían herramientas para exigir no sólo la calidad de los datos en los términos tradicionales de formatos de apertura, sino también en cuanto a su relevancia.

Por ejemplo, la encuesta global Open Data Survey, de la que proviene el Open Data Index de la organización Open Knowledge International, contiene algunas preguntas sobre la accesibilidad legal y técnica de los conjuntos de datos como una medida de su calidad. El Open Data Barometer, por otra parte, tiene un apartado de impacto social de la apertura de datos. Este año destaca, entre otras cosas, que el impacto en transparencia y rendición de cuentas disminuyó un 22%, mientras que el impacto en emprendimientos se incrementó 15%, lo cual ilustra que ciertos grupos sociales se están beneficiando de la apertura más que otros.

El aprovechamiento de la información es clave para que los conjuntos de datos puedan ser relevantes, no hay relevancia sin aprovechamiento y no hay aprovechamiento sin acceso a la información. En el caso ilustrado por el Open Data Barometer, los conjuntos de datos son relevantes solamente para emprendedores, lo cual implica que no necesariamente son relevantes para cualquier otro grupo poblacional.

No obstante, se necesitan más detalles para la evaluación de la relevancia de los datos a nivel nacional y local. En 2015, el investigador Juan Ortiz Freuler publicó el Estado de la Oferta y la Demanda de Datos Abiertos Gubernamentales tras la implementación de normativas de la defenestrada Alianza por el Gobierno Abierto en México, (de la cual las organizaciones de ese país decidieron salir, precisamente, debido a la evidencia de espionaje en contra de defensores de la salud y otros activistas con software de uso exclusivo gubernamental).

El informe de Freuler mostró, entre otros análisis, que la mayoría de las solicitudes de información (emparentadas con la demanda de datos abiertos) fueron realizadas por personas con grado académico de licenciatura, lo cual implica una profunda brecha de acceso a ellos respecto de poblaciones no profesionalizadas.

En su Uso y Cumplimiento de la Legislación de Acceso a la Información Pública en Brasil, Chile y México , los investigadores Silvana Fumega y Marcos Mendiburu ofrecen también algunos ejemplos de las ventajas de obtener datos sobre la demanda de información pública.

Por ejemplo, en la investigación de Fumega y Mendiburu se detalla que México incorpora dentro de la Ley General de Transparencia y Acceso a la Información Pública (LGTAIP) la obligación del organismo garante de recopilar datos sobre las solicitudes de información pública.

Con esta obligación, tanto el Estado como actores independientes pueden llegar a la conclusión de que en 2013 los institutos de seguridad social nacionales en México y Brasil  y el ministerio de salud en Chile fueron las instancias públicas que más  solicitudes de información recibieron. A partir de esa información es posible tomar medidas para jerarquizar la información de dicha instancia de salud pública.

Simultáneamente, los datos estadísticos sobre las personas que hacen las solicitudes, como su edad, género o escolaridad, abonan a la necesidad de delinear con datos también las políticas públicas de datos abiertos.

Así, la estandarización técnica de ciertas prácticas permitiría obtener y cruzar datos sobre el uso y propósito de los mismos; la priorización contextual permitirá garantizar que poblaciones excluidas y en riesgo puedan beneficiarse tanto como el resto de los grupos sociales; y la evaluación permitirá monitorear el resultado de las prácticas mencionadas. 

En la publicación de las recomendaciones a las que antes aludí, sobre publicación de datos en internet, la W3C proponía generar a través de ellas una revolución exclusivamente tecnológica. No obstante, su articulación con estas otras formulaciones podría provocar una muy necesaria revolución que sí pertenece al orden de lo político: el empoderamiento de las comunidades a través del uso de conjuntos de datos.

Nuevas Dateras Latam

- el junio 1, 2016 en Uncategorized

En estas semanas estaremos publicando cuatro perfiles de dateras latinoamericanas que con su capacidad en análisis de datos y visión de alto impacto social están inyectando frescura a lo que conocemos como periodismo de datos en la región.

 

fotoTM

Cómo saber si tus ideas son correctas: Tania Montalvo, México

 

 

 

19242158KatherinePennacchio

Venezuela. Katherine Pennacchio: Rebeldía colaborativa

Cómo saber si tus ideas son correctas: Tania Montalvo, México.

- el junio 1, 2016 en DAL, Experiencias, Fuentes de datos, Uncategorized

fotoTM

“Esta idea de que con Felipe Calderón [presidente mexicano de 2006 a 2012] estalló la violencia asociada al narcotráfico… yo quería que los datos vinculados me lo explicaran, y fue cuando encontré la explosión de células delictivas y cómo están reconocidas por las mismas autoridades que generaron esa violencia”,

dice Tania Montalvo, reportera que desde 2014 investiga el comportamiento de cuatro décadas de narcotráfico mexicano a través de bases de datos, trabajo conocido como NarcoData.

“Más allá de las ideas que tenemos, ¿qué argumentos realmente sostenibles tenemos para saber si esa idea es verdad o no? Para eso sirven realmente los datos en el periodismo”.

Montalvo, de 31 años, se ha hecho de una visión clara del periodismo de datos al cuantificar el poder y sus abusos en investigaciones sobre violaciones de la ley en detrimento del ambiente en la Ciudad de México, corrupción e incumplimiento de promesas al verificar el pago de nóminas a maestros (algunos de los cuales cobraban desde ultratumba) y, por supuesto, NarcoData, entre otras más.

¿Cómo han guiado los datos sus investigaciones periodísticas?

NarcoData

Screen Shot 2016-06-01 at 2.37.09 PM

Celda por celda, columna por columna, Montalvo construyó una imagen de datos para lo que llama “una sombra sin rostro”, la del crimen organizado. Entre otras conclusiones, cuantificó la explosión de la violencia: al finalizar el sexenio anterior a Calderón eran tres bandas criminales armadas que se tenían monitoreadas, tras seis años de una estrategia militarizada en su contra, se multiplicaron hasta sumar 52.

 

¿Cómo guiaron los datos a Montalvo y al equipo de Animal Político y Poderopedia de un documento único que obtuvieron en octubre de 2014, donde meramente se enlistaban los grupos delictivos activos ese año, territorio y cártel al que obedecían, hacia el análisis detallado de prácticamente toda la historia del narcotráfico en México?

“Lo que yo quería era tener toda la información en un mismo lugar, porque la información sobre el narco es tanta que no sabíamos dónde estaba la nota”.

 

La primera base que construyó fue sencillamente esa: qué organizaciones criminales había, su presencia en el territorio mexicano y su lealtad a cárteles determinados.

“Tuve que ir hacia atrás para mostrar cómo esas organizaciones antes no existían, porque los datos me fueron hablando y me hicieron preguntar ¿por qué ahora son 9 cárteles, cómo llegamos a ellos, por qué de pronto son más violentos, por qué unos son más grandes que otros? y todo eso lo pude hacer gracias a la primera base de datos”.

A partir de esa base “madre”, a golpe de teclazo en Excel, Montalvo construyó una nueva, que califica como una investigación de fuentes híbridas.

“No es un trabajo cuantitativo 100 por ciento. A la información en papel de la Procuraduría General de la República (PGR) agregué información de análisis que encontré en documentos académicos sobre estudio de crimen organizado, más información de entrevistas  y comunicados y boletines de la misma PGR a medios.”

Después interrogó a su nueva base.

“¿Qué era lo que me estaba mostrando? Hay que tener la mente muy abierta a hacer cualquier pregunta a los datos, hasta la más complicada, no obviar cosas, y tampoco creer que no vas a encontrar tus respuestas en la base, porque realmente los datos hablan, y hablan muchísimo”.

 

La respuesta entonces fue obvia. Los datos mostraban la pulverización de los grupos criminales en mayor número aparejada al incremento de la violencia con los años.

“Era la evolución de las bandas del crimen organizado, me estaba mostrando quiénes son los dominantes, que hubo una separación entre ellos. Eso me llamó a responderme con los mismo datos: ‘hay conflictos muy específicos entre los grandes cárteles’.”

“Es necesario entender qué es lo que tienes: si tienes años, cuáles son tus campos…  Con base en ello ves hacia dónde te pueden llevar los datos. Siempre respeta a tu base en el sentido de tenerla limpia, conocerla, para que te hable. Si no está limpia, cuando te ‘escupa’ una respuesta, no la vas a ver”.

NarcoData ha alcanzado siete entregas, pero las bases construidas por Tania aún no agotan su potencial. Este trabajo, no obstante, no era el primero en el que Montalvo construyera y analizara una base de datos.

Censo de la Reforma Educativa

CC By CEDIM News

CC By CEDIM News

En un proceso de supuesta renovación de estructuras mexicanas como la energética, la fiscal y la educativa, una de las promesas de avance en esta última fue la depuración de la nómina de profesores que reciben pago del erario público.

No más fallecidos que cobran sueldo por enseñar, maestros que renunciaron y cuyos pagos no obstante siguen siendo religiosamente cobrados o maestros que jamás dieron una sola clase frente a grupo. La investigación que Tania Montalvo publicó en 2015,  sobre la nómina nacional de maestros, descubrió que la promesa era, al menos hasta entonces, falsa.

Lo probó a través de la construcción y cruce del recién hecho censo magisterial nacional contra la nómina pagada por la Secretaría de Hacienda y Crédito Público (SHCP).

“La idea surgió de una base que nos entregó Gobierno de Oaxaca después de una solicitud de transparencia, con 40 mil celdas: cada maestro, cada escuela. Pudimos ver maestros hasta con 30 plazas, solamente en Oaxaca”.

Esa base se escaneó desde las infames fotocopias en papel que le fueron entregadas, desde donde escrapeó con algunas herramientas como Cometdocs, Tábula e Import.io.

Para ampliarla a nivel nacional, Tania recurrió al Instituto Mexicano para la Competitividad, con quienes obtuvo ayuda para rastrear los datos nacionales relacionados con la nómina magisterial a través de la plataforma de datos abiertos del gobierno federal, por entonces una novedad.

“Creo que de alguna forma ese fue mi primer acercamiento con los Datos Abiertos de gobierno, yo estaba escéptica, pero base con solicitud por cada estado, hubiésemos tardado muchísimo. Pudimos hacerlo a nivel nacional, pudimos comparar cómo la nómina antes y después de la reforma educativa no había cambiado, sino en un mal sentido, les estaban pagando más a los maestros pese a que se suponía que ya les habían depurado, y lo  pudimos ver trimestre a trimestre”.

La nómina, pagada por SHCP fue contrastada contra la base de datos de la Secretaría de Educación Pública (SEP), que recién había efectuado un censo donde se enlistaban qué maestros que daban clase frente a grupo, quiénes sólo realizaban labores sindicales y dejaba fuera “aviadores” y otros defraudadores.

“SHCP tiene que preguntar a SEP si todos esos maestros están frente a grupo y la SEP tuvo que haber verificado que estaban frente a grupo o si no murieron, porque había muchos muertos que seguían cobrando sueldos”.

Este año, la SEP reconoce por primera vez que dejó de pagar 5 mil plazas porque no estaban frente al grupo.  “Eso debió haber ocurrido antes”, acota Montalvo.

Gasolineras por colonia

En 2014 Montalvo desarrolló una investigación sobre las gasolineras que en la Ciudad de México violaban la ley al ser un excedente a lo permitido. En este trabajo el mayor reto fue la dispersión y falta de granularidad de algunos de los datos: Montalvo tenía por un lado información en porcentajes del excedente de gasolineras y por otra parte listados de todas las razones sociales de gasolineras en la Ciudad, pero no tenía las ubicaciones de las gasolineras que violaban la ley.

Screen Shot 2016-06-01 at 3.10.25 PM

 

“Yo sabía que había más gasolineras y que se estaba violando el reglamento, Pemex tenía muchas bases de datos, pero tenía los nombres de gasolineras al azar, no me decía dónde estaban, pero nosotros obtuvimos otra base de datos por delegación.

 

“Pudimos entonces cruzar las bases de datos para saber en dónde estaban, y cruzamos con una base más, de la Procuraduría Federal del Consumidor (Profeco), para saber cuáles estaban sancionadas, y cuáles estaban violando la ley al abrir”.

Con la ayuda de las organizaciones Escuela de Datos y Social Tic, y en particular de Phi Requiem, Fellow de Escuela de Datos 2014, se logró la sistematización de dicha información.

“De alguna forma fue una base chiquita, pero el caso es que toda la denuncia ya estaba totalmente construida, yo tenía reporteado con los gasolineros que se estaba violando el reglamento, pero no tenía datos para hacerlo mucho más visible.

“Nos permitió construir este mapita donde ya fue lo único que necesitábamos para cerrar y así le mostramos solidez a nuestro argumento de que se estaba violando la ley”.

Datos para justificar opiniones

De cierto modo, la trayectoria de Tania Montalvo le permitió desarrollar una idea que inició en una clase de periodismo asistido por computadora (PAC) en alguna de sus clases de periodismo en el Tec de Monterrey.

“Lo que me llevé de esa materia es entender la importancia de usar datos, de que la información en cualquier nota periodística fuera precisa, más allá de una declaración”.

Justificar (o no) con datos las declaraciones de personajes públicos o de opiniones públicas ampliamente compartidas entre ciudadanos, ha sido el hilo conductor desde sus primeras investigaciones en CNN Expansión sobre la ubicación de víctimas de violencia hasta NarcoData.

“Todo tipo de periodismo debe tener datos, y los hay en todas partes. Entiendo el punto de que se le llame periodismo de datos pero al final es periodismo.

“Si es periodismo: narrativo, de explicación, de lo que sea, es súper importante saber usar los datos y hacerlo bien. En el periodismo de datos puedes usarlos en masa, una cosa mucho más grande, pero para llegar a eso tiene que empezar utilizando bien porcentajes, tasas, sabiendo cómo se hace una diferencia porcentual… cosas que son elementales para que sigas el camino de los datos y ya puedas utilizar una base mucho más grande”.

Otro punto que es necesario tener en mente, en opinión de Montalvo, es que la interdisciplinariedad no suple la obligación individual de aprender de otras disciplinas.

“El trabajo multidisciplinario es valiosísimo, pero al mismo tiempo es fundamental que entre todos comprendamos la labor del otro, aunque sea en la parte mínima. Yo no programo, pero creo que sí es necesario tener al menos ideas básicas porque un programador es valiosísismo y están dedicados. Difícilmente llegue a los niveles en que está nuestro programador, Gilberto León, pero yo debería saber que si quiero que Gilberto entienda mis ideas, yo debería entender las suyas a un nivel técnico”.
“Yosune, nuestra diseñadora, que sí sabe de programación, tuvo que aprender muchísimo de mi labor periodística, en términos de mi mirada como periodista para poder visualizarla y yo al mismo tiempo tuve que aprender de ella para poder comunicar lo que tenía. En ese sentido es muy importante conocer un poco de lo que hace que el otro”.

Datos contra feminicidios: estudios de caso

- el mayo 5, 2016 en Uncategorized

Niñas en peligro

Vivas Nos Queremos

CC by Gibran Mena NC-SA

Claudia Quiroz Romero era una estudiante de 16 años en el departamento de Cochabamba, Bolivia. Fue violada y estrangulada por al menos un hombre, un miércoles de fiesta religiosa en 2015. Los agricultores comunitarios encontraron su cuerpo tirado en la milpa.

La menor de edad perdió la vida como parte del escenario de violencia contra mujeres en ese país, pero está lejos de ser la única niña afectada. De acuerdo con datos obtenidos y sistematizados por la plataforma Cuántas Más, 16 de 29 menores huérfanos por feminicidio (desde el inicio de la plataforma en 2013) relatan cómo “papi mató a mami”.

En Ciudad Juárez, los cuerpos sin vida de las hermanas Cinthia Ruiz Salazar y Daysi Fabiola Morales Salazar fueron halladas una mañana sobre la cama de su madre, con agudos cortes en todo el cuerpo y signos de violación. El padre de una de ellas es autor confeso del asesinato. De acuerdo con informes publicados por la prensa local, dijo haberse “vengado” de que una de las niñas “provocara” su rompimiento con la madre de ésta.

Estos datos NO son parte de ninguna base publicada por agencia gubernamental alguna, boliviana ni mexicana. Son parte de las bases abiertas, con varios años y miles de registros, construidas a fuerza de sistematización y a partir de publicaciones periodísticas, informes policiales y solicitudes de información por las plataformas Cuántas Más en Bolivia y el Programa de Monitoreo e Investigación de Red Mesa de Mujeres (RMM), en Ciudad Juárez, México.

¿Cómo pueden los datos abiertos hacer contribuciones específicas para el alivio de violencia de género en Latinoamérica?

Dos mujeres, Raisa Valda Ampuero, responsable de estrategia digital de la plataforma sobre feminicidios Cuántas Más, e Itzel González, coordinadora del Programa de Monitoreo e Investigación de Red Mesa de Mujeres (RMM), relatan cómo hacen día con día bases de datos con propósitos de incidencia estratégicos y efectivos para combatir esta terrible realidad.

Su labor se ha beneficiado de alta granularidad en los datos, al detallar geolocalización del feminicidio, autor o presunto autor, relación autor-asesinada, sociodemográficos de la mujer en cuestión, entre otros detalles. La consistencia de los datos, es decir, el levantamiento de datos que puedan ser provistos en todos o la mayoría de los casos, a través del tiempo, es también un factor decisivo para el éxito de las plataformas.

Con ello, Cuántas Más publica sus bases de datos abiertos completas de 2013 a la fecha en su sitio, mientras que Red Mesa se encuentra aún en el proceso de completar sus bases y ha preferido no hacerlas aún públicas.

Screen Shot 2016-05-05 at 6.53.16 PMEn ambos casos, las organizaciones que levantan y analizan datos seleccionaron los campos de sus bases teniendo a la vista tres objetivos primarios:

a)La nutrición de propuestas específicas para alocación de recursos públicos. Es decir, dichas organizaciones van a exigir presupuesto público que sea adecuado a la gravedad de situaciones por área geoespacial (departamento, colonia, etc.)

b) La elaboración de propuestas para programas públicos que resuelvan las problemáticas específicas que los datos evidencian, por ejemplo, en Bolivia, que la mayoría de los autores de feminicidios son pareja de las mujeres asesinadas.

c) La generación de impacto que sea de beneficio para organizaciones que combaten violencias contra mujeres en campo, y que son las que proveen gran parte de la información que alimenta las bases de datos, con el trabajo directo en sitios aledaños a los feminicidios.

¿Cuántas Más?, Bolivia

12045781_1642902455963478_1245370178522629950_oRaisa, abogada de formación y activista en internet, relata cómo la generación de una base de datos les ha permitidio a ella, junto con Marcelo Lazarte e Ida Peñaranda, articular esfuerzos con organizaciones feministas que trabajan en campo –exigiendo en los centros policiacos información detallada de feminicidios– para con esta información exigir a su vez alocación de recursos públicos  para los departamentos donde mayor violencia contra las mujeres existe. Su labor empezó en 2015, originalmente con un financiamiento de la organización internacional Hivos, el cual agotó ya su plazo de cobertura.

¿Cómo comenzó el trabajo de Cuántas Más?

En marzo de 2013, con la Ley 348, se incorpora delito de feminicidio en Bolivia. Hasta entonces, se les conocía como “delitos pasionales” o “delitos de honor”. La mayoría de los feminicidos que ocurrieron en 2013 siguieron tipificándose como simple asesinato, homicidio culposo… cualquier otra cosa, pero no feminicidio.

En Bolivia hay colectivas como Mujeres Creando, las Feministas Callejeras, la coordinadora de la mujer en Cochabamba. El trabajo inicial de ellos es en la calle, pero en 2014 empezó a crecer su acción digital.

En 2015 tuvimos dos casos muy sonados: uno es feminicidio, el caso de Andrea Álvarez,  que fue un hito en el internet boliviano porque la madre es activista de Mujeres Creando y activó a este grupo humano dentro de las redes.

Fue una guerra entre quienes apoyaban a la víctima o al presunto victimario. Otro caso no es ya feminicidio, sino la violación de una ciudadana norteamericana [Renee Gurley] en Samaipata.

Decidió exponer su caso públicamente en Facebook para ganar atención porque su proceso se estaba dilatando, y existía la posibilidad de que dos de los imputados accedieran a cargos públicos sin haber terminado el proceso.

Todos estos temas abrieron la discusión en internet de la activación de estos colectivos que ya tienen mucha acción en calle y que trasladaron también su accionar a las redes.

Justamente ese fue el desafío de Cuántas Más en 2016. El año pasado y 2014, fue el año de recolección. Casi no teníamos gente y nadie sabía trabajar bases de datos. El año pasado tuvimos el acelerador de periodismo de datos y a partir de eso tuvimos un aprendizaje.

Antes de eso lo hacíamos por intuición. Se lanza la ley y empezamos a tabular por puro instinto. El periodismo de datos nos sonaba de lejos.

¿Cuáles son las fuentes de sus datos?

La data que hemos logrado sacar ha sido de colectivos que nos han provisto de algún material, también desde los medios que han publicado las noticias. Son insumos que nos han ido llegando desde varias fuentes que hemos ido recopilando nosotros, desde los medios. A partir de eso hemos generado las tablas, con los criterios que íbamos a publicar inicialmente. En algunos casos no están del todo completos. Se nos hace difícil acceder a la información porque hay que ir a requerimiento, a provincia.

67173_1695311050722618_3893831368754744579_n¿Qué tipo de datos requieren para sus bases?

Para nosotros era importante no solamente decir que “fulanita” murió y la mató el esposo, sino que murió en qué provincia, si podíamos geolocalizar, circunstancias, causas nombres de los presuntos autores, edades de las víctimas y acusados. Hasta aquí lo que hemos descubierto es que los mayores victimarios  son los esposos.

También el estado del caso, si está en sentencia, en investigación si se ejecutó la sentencia y la tercera parte es el número de los hijos. Más allá de la muerte de la mujer, quiénes más se ven afectados por estos hechos.

 

¿Cómo se articulan grupos feministas de base con organizaciones que trabajan con datos sobre feminicidio?

Nosotros estamos aprendiendo, nos estamos capacitando y el objetivo es retribuir el acercamiento que tienen estos colectivos con Cuántas Más y empezar a educar con bases de datos. Estos colectivos empiezan su trabajo en las calles, y es el lugar donde hay que hacerlo, porque las víctimas se acercan por esas referencias, no por intenet, pero han descubierto que se pueden hacer muchas cosas por internet. El desafío es educar, porqué es importante, para qué sirve y cómo se puede utilizar.

Por otro lado, hay un tema muy fuerte de asignación presupuestaria .Con la ley vinieron instituciones de resguardo para mujeres, de prevención de delitos.

Asignan a diestra y siniestra sin saber… Cochabamba necesita muchos recursos. El problema es la asignación del presupuesto. Si una víctima necesita una investigación es muy costoso, debería ser gratuito por ley. Es terrible, un proceso de revictimización

Con las bases ofrecemos esto: si uno tiene la información de lo que está ocurriendo se puede segmentar por departamentos, en este caso Cochabamba, la ciudad donde yo vivo, donde hay a razón de un feminicido cada diez días.

Está también el tema de justicia porque es un tema complejo. La hacinación en las cárceles es súper fuerte. Para este tipo de delitos hay que saber quiénes y porqué son procesados judicialmente.

 

Programa de Monitoreo e investigación de Red Mesa de Mujeres

6 copyEn 2010 comenzó el Programa de Monitoreo e Investigación de Red Mesa de Mujeres (RMM), una organización ciudadana que se originó en Ciudad Juárez para combatir la normalización de la violencia tras el hallazgo de 8 cadáveres  en “Campo Algodonero”.

Itzel González, coordinadora del programa, comparte cómo su organización articula el trabajo de activistas de campo para monitorear la efectividad de programas gubernamentales contra la violencia y proponer nuevos programas modelados por los datos de campo que reúnen.

 

¿Cómo funciona el programa de monitoreo?

Somos 11 personas trabajando en este proyecto. Se trata de tener un registro de los casos de violencia, posteriormente se amplía para incluir datos e información de otros tipos de delito que se cometen en la ciudad por razones de género. Tenemos una base con 48 indicadores.

Capturamos los datos sociodemográficos de las mujeres que fueron vícimas de feminicidio para ir generando un perfil de quiénes eran estas mujeres y en dónde vivían.

Es muy importante ubicar la colonia donde tenían su domicilio pero también la zona donde su cuerpo fue localizado, con el fin de generar, en el futuro, este proceso de generar mapas o geolocalización de los casos de feminicidio.

¿De dónde provienen los datos?

5 copyNuestra información la obtenemos de medios periodísticos pero también en solicitudes de información. Como no está tipificado muchas veces, en medios no te lo dicen y en solicitudes de información tampoco lo llaman feminicidio.

Si tenemos suerte de que en la nota diga dónde vivía esta mujer y dónde fue localizada, la forma en que fue asesinada. Esos detalles nos aportan información. Para nosotras es muy valioso par apoder ir mapeando los distintos tipos de feminicido que están ocurriendo.

En las solicitudes de información pedimos los registros que tiene la Fiscalía General sobre la cantidad de mujeres asesinadas que ha habido de 2010 a 2015. El tipo de delitos que se presentó con mayor frecuencia en ese año en contra de mujeres. También desglosamos nuestras solicitudes por delito.  Violaciones, hostigamiento sexual, homicidio (así clasificado en el código).

Una vez que la tenemos hacemos un vaciado de esos datos, unas pequeñas tablitas, unas grafiquitas muy sencillas y las traducimos a mensajes visuales en redes, y hacemos estas comparaciones de violaciones entre años, hacemos ese trabajo de visualización a través de los números.

¿A dónde van esos datos?

“Nosotras participamos en diferentes espacios, tanto a nivel local como estatal En  el estatal en el Consejo de la Ley del Derecho de las Mujeres a una vida libre de violencia, desde donde hacemos un monitoreo de esta ley, qué resultados está teniendo a un nivel local. Estos datos nos permiten contrastar con la realidad y la expectativa.

Nos están diciendo que en 2015 implementaron tantas campañas de la violencia intrafamiliar, y estoy viendo que hubo un incremento por ese tipo de delito en el sector de justicia, a ver qué está pasando.

Esta acción se replica a nivel de Ciudad Juárez.

Participamos en el consejo del Insituto de la mujer juarense.  Es información que también acompañamos de otros indicadores, por ejemplo información cualitativa que nos proporciona la Red de Defensoras Comunitarias que está trabajando en campo, en estas colonias, así como los datos de los acompañamientos de nuestro módulo en el Centro de Justicia.

Con esa información, generamos las propuestas para llevarlas a instancias municipales: “se preferiría que fuera la campaña de atención a mujeres en cuanto a relaciones productivas”, por ejemplo. Hay algunas mujeres que están en la inmediatez de sus necesidades más básicas.

En los últimos tres años se han estado generando programas tanto a nivel federal como a nivel estatal, que después se vinculan con los municipios. Estos programas segregan por zonas la ciudad. Entonces hacen todo un diagnóstico de esta zona donde aparentemente hay índices altos de violencia social, y a esas zonas dirigen los recursos y estrategias de prevención.

Si durante este tiempo se invirtió en estas zonas catalogadas como vulnerables, quisiéramos ver con datos y números de feminicidio y otros tipos de violencia, y poder hacer un balance entre los recursos, las acciones que se desarrollan y la violencia en esas zonas, contrastar esa información.

Por otra parte, conocer dónde las mujeres fueron asesinadas nos da información relacionada con el tipo de asesinato. Usamos las categorías de Julia Monárrez, una socióloga que ha contribuido mucho en cuestiones de análisis teórico, pero también ha construido una extensa base de datos de feminicidios.

Las categorías incluyen el feminicidio íntimo,  sistémico, feminicido por ocupaciones estigmatizadas, esas categorías las tomamos en cuenta para determinar qué tipo de asesinato fue perpretado.

¿Cómo se articula su trabajo con organizaciones de base de defensa de la mujer?

Olga Márquez, por ejemplo,  tiene 20 años de trabajo en la comunidad, vive en el norponiente de Ciudad Juárez, una de las zonas con mayor rezago en cuanto a infraestructura, pero ha tenido históricamente niveles altos de organización comunitaria a través de organizaciones civiles y eclesiales de base.

Se formó en temas de derechos humanos de las mujeres. Es el principal enlace con la comunidad. Nos dice que fue a la comunidad de Granjero y vio que hay una enorme cantidad de chicas que muy jóvenes tienen dos o tres hijos, pero no acceso a servicios de salud ni educación.

¿Cómo ha sido su proceso de aprendizaje?

Sergio Ariza, [capacitador de la organización SocialTIC A.C.], nos asesoró a trasladar a Google Sheets con un formulario específico y completo para ir llenando esta base de datos.

Nos ahorra tiempo, es práctico y podemos generar que las chicas de servicio social puedan meter información de una manera más simple. Antes había que cuidar que si el espacio de más, con las lista desplegables agarras el nombre de la colonia y les pones los numeritos la edad de la chica.

Otra cosa que nos ha ayudado muchísimo a eficientar este trabajo ha sido contar con un pequeño protocolo donde ahí viene toda la serie de pasos que alguna persona tendría que seguir si quisiera colaborar con el llenado esta base de datos y la quisiera conocer. En ese documento puede encontrar esta información. Lo sacamos en noviembre del año pasado y lo hemos estado utilizando con las personas que vienen, estudiantes de servicio social.

Era una cuestión poco práctica que cada vez que venía una estudiante tener que explicarle el objetivo, deja tú del programa, sino de la base de datos. Tenerle que enseñar a hacer el llenado, era un poquito engorroso, porque les toma tiempo agarrarle a la onda de las base de datos. Con el formato y el protocolo ha sido mucho más sencillo para nosotros.

¿Cuánto tiempo le ahorra?

En una semana, hasta 5 horas. Tiene tantos indicadores que la anterior base les tomaba ese tiempo. El objetivo es contar con información actualizada y que nos pueda ser de utilidad a la hora estar en la mesa, con instancias de gobierno de cualquier nivel, pero particularmente del orden local, para con esa información hacer nuestras propuestas de Incidencia.

Recursos para mapeo abierto por Ecuador

- el abril 18, 2016 en Expediciones de Datos, Fuentes de datos, Noticias, Uncategorized

terremoto

Aprende en 5 minutos a colaborar aunque no estés en Ecuador

El 16 de abril un terremoto de alrededor de 7.8 grados golpeó la región costera en Ecuador.

La comunidad de Datos Abiertos del mundo y de América Latina se organiza para hacer su contribución con la construcción de un mapa base para labores de rescate, humanitarias y conocimiento para la población en general. Aún queda bastante por hacer.

Si no sabes cómo hacerlo, aprende en cinco minutos con este video de Juan Carlos Calderón en español. No es necesario localizarte en Ecuador, puedes mapear desde cualquier lugar del mundo.

El chat de Telegram donde se discute logística, así como todos los detalles del mapeo están en el documento wiki del Terremoto en Ecuador.

El mapa de Open Street Maps (OSM) se construye primordialmente con la conversión de imágenes satelitales a mapas editables abiertos a través de la herramienta Open Street Maps. A su vez, esta digitalización es convertida en una base de datos abiertos para uso público.

En el documento wiki se describe qué es la comunidad de voluntarios Open Street Maps y el equipo humanitario de OSM (HOT, por sus siglas en inglés), los canales IRC de soporte técnico para comunicarte con los equipos que lo coordinan y otros detalles como el hashtag #MappingEcuador para encontrar información relacionada en Twitter.

El administrador de tareas de OSM prioriza, divide y reparte las tareas pendientes y monitorea las concluidas. Un proyecto está casi completo pero hay más a los que resta mucho para terminar.  Ahí puedes sumarte a este mapeo global.

El esfuerzo lo lidera Humberto Yances (HOT) junto con Daniel Orellana (Open Street Maps Ecuador), quien esta mañana lanzó este Hangout donde encontrarás un tutorial básico detallado para mapear desde donde estés. El segundo hangout, con tutorial para mapeo intermedio y edición offline está acá.

Ayuda en campo

En cuanto a la ayuda en sitio, además de Open Street Maps, en el video se detalla cómo usar la plataforma https://mapa.desastre.ec/ que permite enviar y visualizar reportes de problemáticas originadas por el desastre, así como su ubicación geográfica.

Mapa Desastre permite a sus usuarios recibir alertas de acuerdo a la ubicación de su GPS. La información es pública y disponible también para los organismos de socorro.

Otra de las herramientas en sitio es Google Person Finder, repositorio donde puedes encontrar información de personas que buscas en Ecuador u ofrecer información de personas que encuentres.

Con Mapillary y Open Street Map Android Tracker puedes subir fotografías de las zonas de desastre.

Para la comunidad internacional

Si tienes amigos angloparlantes, comparte con ellos este post en School of Data, donde puedes encontrar esta información en inglés.

Desaparecidos y datos: en busca de una plataforma unificada

- el abril 6, 2016 en Experiencias, Fuentes de datos, Uncategorized

Ni vivas ni muertas, las personas desaparecidas dejan tras de sí no sólo el dolor de su ausencia sino una pesadilla de trámites y papeleo para ser reconocidas como tales por los Estados.

El 28 de febrero de 2015 un equipo multidisciplinario conformado por los desarrolladores Ricardo Alanís, Miguel Morán, Sandra Barrón y los periodistas Israel Piña y Gibrán Mena comienzan la labor de limpieza y estandarización de los datos de la organización civil Fuerzas Unidas por Nuestros Desaparecidos, en el estado mexicano de Coahuila.

Esta base de datos se levantó por medio de denuncias ciudadanas, y era la mayor en Coahuila en 2015. Su característica más atractiva era que reunía las denuncias ciudadanas de desaparecidos que no adquirían el estatus «oficial» de desaparición debido al largo y extenuante trámite burocrático que representaba. No obstante, los datos se encontraban dentro de los jpges de fotografías con los rostros de los desaparecidos.

A estos datos se sumaron los de la base gubernamental Registro Nacional de Datos de Personas Extraviadas o Desaparecidas (RNPED),  alimentada con datos oficiliazidos por la burocracia local, y posteriormente también se sumaron los del programa también gubernamental Dar Contigo.

Naturalmente, el estándar en los datos era nulo. La primera tarea fue la del scraping, que tuvo una capa adicional de dificultad considerando que algunos datos se hallaban atrapados en los jpegs. Python fue la herramienta seleccionada para extraer esos datos. Pero el mayor reto no consistió en la extracción de los datos, sino en la estructuración de un estándar de datos necesarios que los unificara todos. Estos campos son los que actualmente se encuentran como parte del formulario de la plataforma actual, Nos Faltan Más.

Están diseñados para incluir temas no cuantitativos, como redacción de las narraciones de los desaparecidos e incluso audios con testimonios. Estos campos están diseñados para facilitar la verificación periodística de las denuncias.

La plataforma sigue en construcción y sigue teiendo como objetivo mostrar en una sola plataforma, Nos Faltan Más, un formulario de envío de datos claro y sencillo para que familiares y amigos de estas personas enviaran los datos de sus desaparecidos, incluso si no eran reconocidos por sus gobiernos. Al mismo tiempo, se ilustra periodísticamente lo terrible de este abismo con un caso y una línea de tiempo.

El Open Data Day 2016 ofreció al equipo de Cívica Digital, encabezado por Barrón y Alanís, un espacio para continuar la labor de estandarización. Pero falta aún más. El desarrollador detalla cómo puedes sumarte en en esta entrevista para Escuela de Datos.