#Este comando asegura que las visualizaciones se grafiquen dentro de este Notebook
%matplotlib inline

import os              # Provee de múltiples utilidades del sistema
import pandas as pd    # La librería fundamental para la transformación de datos en Python
import seaborn as sns  # Permite generar gráficas estéticas con sencillez


# Es importante recordar que la ubicación del archivo .csv no siempre será la misma
# Dependiendo de dónde se encuentre almacenado el archivo, será la ruta que se especificará

f = 'data/poblacion_cdmx.csv'                        # Ruta donde se contiene la tabla
db = pd.read_csv(f, index_col='ageb_urbana_cvegeo')  # Leer la tabla y guardarla en la variable db

f

'data/poblacion_cdmx.csv'


db.head()


db.tail()


db.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2432 entries, 0900200010010 to 0901700011524
Data columns (total 10 columns):
pob_0a2       2432 non-null int64
pob_3a5       2432 non-null int64
pob_6a11      2432 non-null int64
pob_12a14     2432 non-null int64
pob_15a17     2432 non-null int64
pob_18a24     2432 non-null int64
pob_25a29     2432 non-null int64
pob_30a49     2432 non-null int64
pob_50a59     2432 non-null int64
pob_60ymas    2432 non-null int64
dtypes: int64(10)
memory usage: 209.0+ KB


db.describe()


db.describe().T


# Obtener los valores mínimos de cada columna de la tabla a través de '.min()'
db.min()

pob_0a2       0
pob_3a5       0
pob_6a11      0
pob_12a14     0
pob_15a17     0
pob_18a24     0
pob_25a29     0
pob_30a49     0
pob_50a59     0
pob_60ymas    0
dtype: int64


# Obtener el valor mínimo sólo para una de las columnas de la tabla
db['pob_18a24'].min()

0


# Identificar una fila en específico a través de '.loc[]'
# Obtener la Desviación Estándar a través de '.std()'
# Se realiza para la fila con el índice '0901200010337', que es la Clave Geográfica del AGEB donde se encuentra CentroGeo.
db.loc['0901200010337', :].std()

387.7159469967098


# La forma larga implica escribir cada una de las columnas de la tabla
total = db['pob_0a2'] + db['pob_3a5'] + db['pob_6a11'] + db['pob_12a14'] + db['pob_15a17'] + db['pob_18a24'] + \
        db['pob_25a29'] + db['pob_30a49'] + db['pob_50a59'] + db['pob_60ymas']
# Una vez generada la variable, únicamente observamos los primeros registros
total.head()

ageb_urbana_cvegeo
0900200010010    3299
0900200010025    5812
090020001003A    4458
0900200010044    4790
0900200010097    2212
dtype: int64


# La forma corta implica utilizar alguno de los métodos de 'Pandas', como '.sum()'
total = db.sum(axis = 1)
# Y, una vez más, se observa sólamente algunos de los registros de la variable
total.head()

ageb_urbana_cvegeo
0900200010010    3299
0900200010025    5812
090020001003A    4458
0900200010044    4790
0900200010097    2212
dtype: int64


db['pob_total'] = total  # Éste es el comando que permite crear la nueva columna
db.head()


# Nueva columna llena de sólamente el número 1
db['uno'] = 1
db.head()


db.loc['0900200010010', 'uno'] = 3  # Se modifica la columna 'uno' de la fila con el índice '0900200010010'
db.head()


del db['uno']
db.head()


pob_18a24_centrogeo = db.loc[['0901200010337', '0901200010341', '0901200010322'],['pob_total','pob_18a24']]
pob_18a24_centrogeo


agebs_mucho60ymas = db.loc[db['pob_60ymas'] > 1000, :]
agebs_mucho60ymas.head()


agebs_poco0a2 = db.loc[db['pob_0a2'] < 10, :]
agebs_poco0a2.head()


agebs_exacto25a29 = db.loc[db['pob_25a29'] == 50, :]
agebs_exacto25a29.head()


agebs_cuarto30a49 = db.loc[(db['pob_30a49'] / db['pob_total']) < 0.25, :]
agebs_cuarto30a49.head()


agebs_critcomb = db.loc[(db['pob_60ymas'] > 25) & (db['pob_total'] < 250), :]
agebs_critcomb


db_pob_ord = db.sort_values('pob_total', ascending = False)
db_pob_ord.head()


_ = sns.distplot(db['pob_total'], kde = False)


_ = sns.distplot(db['pob_total'], kde = False, rug=True)


_ = sns.kdeplot(db['pob_total'], shade = True)


_ = db['pob_total'].sort_values(ascending = False).plot(figsize =(10, 6))


_ = db['pob_total'].sort_values(ascending = False).plot(kind = 'bar' , figsize =(10, 6))


_ = db['pob_total'].sort_values().plot(kind = 'barh' , figsize =(6, 30))


db.head()


# Primero, se aisla la variable 'pob_total' en su propia tabla de una sola columna.
db_totales = db[['pob_total']]
db_totales.head()


# Después, se crea la tabla que contiene todas las columnas de la original excepto el 'pob_total'
db_subgrupos = db.drop('pob_total', axis = 1)
db_subgrupos.head()


subgrupos_orden = db_subgrupos.stack()
subgrupos_orden.head()

ageb_urbana_cvegeo           
0900200010010       pob_0a2       71
                    pob_3a5       77
                    pob_6a11     235
                    pob_12a14    129
                    pob_15a17    137
dtype: int64


type(subgrupos_orden)

pandas.core.series.Series


subgrupos_ordenDF = subgrupos_orden.reset_index()
subgrupos_ordenDF.head()


subgrupos_ordenDF = subgrupos_ordenDF.rename(columns = {'level_1':'Subgrupo', 0:'Frecuencia'})
subgrupos_ordenDF.head()


pop_grupos = subgrupos_ordenDF.groupby('Subgrupo')
pop_grupos

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fc68c622668>


pop_grupos.sum()


pop_grupos.describe()


# Importar la librería a utilizar
from IPython.display import IFrame

# Guardar en una variable la URL de la información
url = 'https://docs.google.com/spreadsheets/d/1EAx8_ksSCmoWW_SlhFyq2QrRn0FNNhcg1TtDFJzZRgc/edit?hl=en#gid=1'

# Mostrar como ventana lo que arrojaría la URL
IFrame(url, 700, 400)

	pob_0a2	pob_3a5	pob_6a11	pob_12a14	pob_15a17	pob_18a24	pob_25a29	pob_30a49	pob_50a59	pob_60ymas
ageb_urbana_cvegeo
0900200010010	71	77	235	129	137	298	182	1055	293	822
0900200010025	206	241	466	212	261	622	426	1705	699	974
090020001003A	157	137	347	202	197	478	273	1395	370	902
0900200010044	148	162	391	178	203	459	365	1422	469	993
0900200010097	56	82	150	80	88	202	157	626	248	523

	pob_0a2	pob_3a5	pob_6a11	pob_12a14	pob_15a17	pob_18a24	pob_25a29	pob_30a49	pob_50a59	pob_60ymas
ageb_urbana_cvegeo
0901700011488	80	83	133	62	72	185	128	317	134	51
0901700011492	67	52	122	54	59	139	94	271	66	59
0901700011505	89	88	234	151	171	425	223	827	303	146
090170001151A	104	81	209	132	140	334	186	692	279	141
0901700011524	191	211	434	235	233	559	343	1388	419	537

	pob_0a2	pob_3a5	pob_6a11	pob_12a14	pob_15a17	pob_18a24	pob_25a29	pob_30a49	pob_50a59	pob_60ymas
count	2432.000000	2432.000000	2432.000000	2432.000000	2432.000000	2432.000000	2432.000000	2432.000000	2432.000000	2432.000000
mean	145.943257	159.703125	324.372944	161.321135	174.120888	428.834704	296.325658	1065.569490	368.116365	411.820312
std	112.056808	121.498713	240.267120	115.647911	121.923333	288.072840	201.741121	693.264089	217.976714	250.572492
min	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000
25%	61.000000	67.000000	144.000000	74.000000	82.000000	218.000000	155.000000	578.000000	221.750000	233.750000
50%	119.000000	133.000000	273.000000	138.500000	151.500000	382.500000	263.000000	963.500000	342.000000	392.000000
75%	209.250000	226.250000	461.000000	226.250000	241.000000	580.250000	402.000000	1417.250000	492.500000	562.000000
max	743.000000	746.000000	1586.000000	772.000000	760.000000	2905.000000	3099.000000	8195.000000	1401.000000	1525.000000

	count	mean	std	25%	50%	75%	max
pob_0a2	2432.0	145.943257	112.056808	61.00	119.0	209.25	743.0
pob_3a5	2432.0	159.703125	121.498713	67.00	133.0	226.25	746.0
pob_6a11	2432.0	324.372944	240.267120	144.00	273.0	461.00	1586.0
pob_12a14	2432.0	161.321135	115.647911	74.00	138.5	226.25	772.0
pob_15a17	2432.0	174.120888	121.923333	82.00	151.5	241.00	760.0
pob_18a24	2432.0	428.834704	288.072840	218.00	382.5	580.25	2905.0
pob_25a29	2432.0	296.325658	201.741121	155.00	263.0	402.00	3099.0
pob_30a49	2432.0	1065.569490	693.264089	578.00	963.5	1417.25	8195.0
pob_50a59	2432.0	368.116365	217.976714	221.75	342.0	492.50	1401.0
pob_60ymas	2432.0	411.820312	250.572492	233.75	392.0	562.00	1525.0

	pob_0a2	pob_3a5	pob_6a11	pob_12a14	pob_15a17	pob_18a24	pob_25a29	pob_30a49	pob_50a59	pob_60ymas	pob_total
ageb_urbana_cvegeo
0900200010010	71	77	235	129	137	298	182	1055	293	822	3299
0900200010025	206	241	466	212	261	622	426	1705	699	974	5812
090020001003A	157	137	347	202	197	478	273	1395	370	902	4458
0900200010044	148	162	391	178	203	459	365	1422	469	993	4790
0900200010097	56	82	150	80	88	202	157	626	248	523	2212

Geoinformática - Práctica 1¶

Transformación de los Datos¶

Conjuto de Datos¶

Fragmentación y Análisis de Datos¶

Inspeccionar la Apariencia de la Tabla¶

Visión General de la Tabla¶

Visión General de los Valores de la Tabla¶

Obtención de Estadísticos Descriptivos¶

Creación de Nuevas Variables¶

Asignar Nuevos Valores¶

Eliminar Variables¶

Búsquedas Simples¶

Búsqueda Basada en Condiciones¶

Combinación de Condiciones¶

Acomodo de Datos¶

Exploración Visual de los Datos¶

Histogramas¶

Gráfica de Densidad de Kernel¶

Gráficos de Líneas y Barras¶

Limpieza de Datos¶

Agrupamiento, Transformación y Agregación¶

Para Practicar...¶

	pob_total	pob_18a24
ageb_urbana_cvegeo
0901200010337	4949	587
0901200010341	2768	298
0901200010322	5009	646

	pob_0a2	pob_3a5	pob_6a11	pob_12a14	pob_15a17	pob_18a24	pob_25a29	pob_30a49	pob_50a59	pob_60ymas	pob_total
ageb_urbana_cvegeo
0900300010107	156	178	426	239	241	679	457	1957	872	1292	6497
0900300010287	245	307	646	301	336	867	612	2468	950	1274	8006
0900300010573	433	542	1146	619	615	1529	955	3958	1199	1030	12026
090030001061A	481	540	1159	548	555	1342	957	3410	885	1103	10980
0900300010639	571	705	1382	668	650	1442	989	3820	903	1209	12339

	pob_0a2	pob_3a5	pob_6a11	pob_12a14	pob_15a17	pob_18a24	pob_25a29	pob_30a49	pob_50a59	pob_60ymas	pob_total
ageb_urbana_cvegeo
0900200011076	0	0	0	0	0	0	0	0	0	0	0
0900300010770	7	6	9	8	9	60	17	75	30	59	280
0900300011533	0	0	0	0	0	0	0	0	0	0	0
0900300011586	8	16	30	18	10	40	35	142	44	91	434
0900500010154	0	1	2	1	1	1	1	1	1	1	10

	pob_0a2	pob_3a5	pob_6a11	pob_12a14	pob_15a17	pob_18a24	pob_25a29	pob_30a49	pob_50a59	pob_60ymas	pob_total
ageb_urbana_cvegeo
0901000010188	23	20	38	26	32	59	50	185	83	126	642
0901000010258	10	12	46	24	30	75	50	215	92	171	725

	pob_0a2	pob_3a5	pob_6a11	pob_12a14	pob_15a17	pob_18a24	pob_25a29	pob_30a49	pob_50a59	pob_60ymas	pob_total
ageb_urbana_cvegeo
0900300010111	17	29	93	44	49	125	83	296	174	411	1321
0900300010408	31	21	50	37	47	269	147	361	213	303	1479
090030001054A	15	29	51	25	36	289	157	322	186	208	1318
0900300011730	12	12	30	17	23	71	54	171	100	198	688
0900500010154	0	1	2	1	1	1	1	1	1	1	10

	pob_0a2	pob_3a5	pob_6a11	pob_12a14	pob_15a17	pob_18a24	pob_25a29	pob_30a49	pob_50a59	pob_60ymas	pob_total
ageb_urbana_cvegeo
0901000011203	6	5	18	8	11	10	19	76	37	58	248
0901200010977	12	11	15	6	4	31	21	77	34	33	244
0901400010825	4	3	13	8	10	16	21	74	21	30	200
0901500010254	8	7	15	11	8	18	18	72	39	35	231
0901500010413	8	4	12	6	7	24	18	73	21	45	218
0901500010767	7	5	13	6	5	23	18	80	27	47	231
0901500010818	7	8	16	10	20	23	16	74	23	28	225
0901600010887	5	6	14	7	1	26	11	57	28	48	203
0901600010957	1	3	7	0	3	9	10	29	18	27	107
0901600010976	1	0	4	6	1	13	3	25	12	29	94
0901600011014	3	9	13	4	4	19	21	58	23	53	207
0901700010920	8	5	15	3	0	17	16	54	27	52	197

	pob_0a2	pob_3a5	pob_6a11	pob_12a14	pob_15a17	pob_18a24	pob_25a29	pob_30a49	pob_50a59	pob_60ymas	pob_total
ageb_urbana_cvegeo
0900700011994	202	228	451	217	243	2905	3099	8195	1039	536	17115
0900300011162	632	690	1586	748	729	1684	1237	4545	1332	1525	14708
0901000011171	548	611	1237	618	595	1562	1069	4391	1377	1328	13336
0901700010210	743	731	1378	679	751	1795	1013	3602	1267	1375	13334
0900300010802	661	725	1416	718	760	1620	1107	4006	911	1232	13156

	Frecuencia
Subgrupo
pob_0a2	354934
pob_12a14	392333
pob_15a17	423462
pob_18a24	1042926
pob_25a29	720664
pob_30a49	2591465
pob_3a5	388398
pob_50a59	895259
pob_60ymas	1001547
pob_6a11	788875