diff --git a/.ipynb_checkpoints/notebook_introduction-checkpoint.ipynb b/.ipynb_checkpoints/notebook_introduction-checkpoint.ipynb new file mode 100644 index 0000000000000000000000000000000000000000..3a39a808b438af9895e932ef8f12e06cef7e05c0 --- /dev/null +++ b/.ipynb_checkpoints/notebook_introduction-checkpoint.ipynb @@ -0,0 +1,679 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "</div>\n", + "<img src=\"images/img0.png\">" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "**Contributors**\n", + "- Juan Carlos Basto Pineda (juan.basto.pineda@gmail.com)" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "import pandas as pd\n", + "import matplotlib.pyplot as plt\n", + "import numpy as np\n", + "import seaborn as sns" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Estos datos son proporcionados directamente por el gobierno de Colombia y pueden ser encontrados [aquÃ](https://www.datos.gov.co/Educaci-n/Saber-11-2020-2/rnvb-vnyh)" + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "metadata": {}, + "outputs": [], + "source": [ + "df = pd.read_csv(\"data/Saber_11__2020-2.csv\")" + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "<div>\n", + "<style scoped>\n", + " .dataframe tbody tr th:only-of-type {\n", + " vertical-align: middle;\n", + " }\n", + "\n", + " .dataframe tbody tr th {\n", + " vertical-align: top;\n", + " }\n", + "\n", + " .dataframe thead th {\n", + " text-align: right;\n", + " }\n", + "</style>\n", + "<table border=\"1\" class=\"dataframe\">\n", + " <thead>\n", + " <tr style=\"text-align: right;\">\n", + " <th></th>\n", + " <th>ESTU_TIPODOCUMENTO</th>\n", + " <th>ESTU_NACIONALIDAD</th>\n", + " <th>ESTU_GENERO</th>\n", + " <th>ESTU_FECHANACIMIENTO</th>\n", + " <th>PERIODO</th>\n", + " <th>ESTU_CONSECUTIVO</th>\n", + " <th>ESTU_ESTUDIANTE</th>\n", + " <th>ESTU_PAIS_RESIDE</th>\n", + " <th>ESTU_TIENEETNIA</th>\n", + " <th>ESTU_DEPTO_RESIDE</th>\n", + " <th>...</th>\n", + " <th>PUNT_INGLES</th>\n", + " <th>PERCENTIL_INGLES</th>\n", + " <th>DESEMP_INGLES</th>\n", + " <th>PUNT_GLOBAL</th>\n", + " <th>PERCENTIL_GLOBAL</th>\n", + " <th>ESTU_INSE_INDIVIDUAL</th>\n", + " <th>ESTU_NSE_INDIVIDUAL</th>\n", + " <th>ESTU_NSE_ESTABLECIMIENTO</th>\n", + " <th>ESTU_ESTADOINVESTIGACION</th>\n", + " <th>ESTU_GENERACION-E</th>\n", + " </tr>\n", + " </thead>\n", + " <tbody>\n", + " <tr>\n", + " <th>0</th>\n", + " <td>TI</td>\n", + " <td>SUIZA</td>\n", + " <td>F</td>\n", + " <td>03/03/2003 12:00:00 AM</td>\n", + " <td>20204</td>\n", + " <td>SB11202040211436</td>\n", + " <td>ESTUDIANTE</td>\n", + " <td>SUIZA</td>\n", + " <td>No</td>\n", + " <td>CUNDINAMARCA</td>\n", + " <td>...</td>\n", + " <td>55.0</td>\n", + " <td>81</td>\n", + " <td>A1</td>\n", + " <td>244</td>\n", + " <td>49</td>\n", + " <td>54.882365</td>\n", + " <td>3.0</td>\n", + " <td>3.0</td>\n", + " <td>PUBLICAR</td>\n", + " <td>NO</td>\n", + " </tr>\n", + " <tr>\n", + " <th>1</th>\n", + " <td>PEP</td>\n", + " <td>VENEZUELA</td>\n", + " <td>M</td>\n", + " <td>05/10/2002 12:00:00 AM</td>\n", + " <td>20204</td>\n", + " <td>SB11202040433216</td>\n", + " <td>ESTUDIANTE</td>\n", + " <td>VENEZUELA</td>\n", + " <td>No</td>\n", + " <td>CUNDINAMARCA</td>\n", + " <td>...</td>\n", + " <td>33.0</td>\n", + " <td>6</td>\n", + " <td>A-</td>\n", + " <td>238</td>\n", + " <td>44</td>\n", + " <td>49.252311</td>\n", + " <td>2.0</td>\n", + " <td>2.0</td>\n", + " <td>PUBLICAR</td>\n", + " <td>NO</td>\n", + " </tr>\n", + " <tr>\n", + " <th>2</th>\n", + " <td>TI</td>\n", + " <td>VENEZUELA</td>\n", + " <td>F</td>\n", + " <td>12/14/2003 12:00:00 AM</td>\n", + " <td>20204</td>\n", + " <td>SB11202040244180</td>\n", + " <td>ESTUDIANTE</td>\n", + " <td>VENEZUELA</td>\n", + " <td>No</td>\n", + " <td>CUNDINAMARCA</td>\n", + " <td>...</td>\n", + " <td>59.0</td>\n", + " <td>87</td>\n", + " <td>A2</td>\n", + " <td>325</td>\n", + " <td>94</td>\n", + " <td>40.733672</td>\n", + " <td>1.0</td>\n", + " <td>3.0</td>\n", + " <td>PUBLICAR</td>\n", + " <td>GENERACION E - GRATUIDAD</td>\n", + " </tr>\n", + " <tr>\n", + " <th>3</th>\n", + " <td>CE</td>\n", + " <td>VENEZUELA</td>\n", + " <td>M</td>\n", + " <td>04/12/2003 12:00:00 AM</td>\n", + " <td>20204</td>\n", + " <td>SB11202040210971</td>\n", + " <td>ESTUDIANTE</td>\n", + " <td>VENEZUELA</td>\n", + " <td>No</td>\n", + " <td>CUNDINAMARCA</td>\n", + " <td>...</td>\n", + " <td>47.0</td>\n", + " <td>58</td>\n", + " <td>A-</td>\n", + " <td>238</td>\n", + " <td>45</td>\n", + " <td>48.217953</td>\n", + " <td>2.0</td>\n", + " <td>3.0</td>\n", + " <td>PUBLICAR</td>\n", + " <td>NO</td>\n", + " </tr>\n", + " <tr>\n", + " <th>4</th>\n", + " <td>TI</td>\n", + " <td>COLOMBIA</td>\n", + " <td>F</td>\n", + " <td>03/03/2004 12:00:00 AM</td>\n", + " <td>20204</td>\n", + " <td>SB11202040235382</td>\n", + " <td>ESTUDIANTE</td>\n", + " <td>COLOMBIA</td>\n", + " <td>No</td>\n", + " <td>CUNDINAMARCA</td>\n", + " <td>...</td>\n", + " <td>43.0</td>\n", + " <td>40</td>\n", + " <td>A-</td>\n", + " <td>202</td>\n", + " <td>19</td>\n", + " <td>60.912192</td>\n", + " <td>3.0</td>\n", + " <td>3.0</td>\n", + " <td>PUBLICAR</td>\n", + " <td>NO</td>\n", + " </tr>\n", + " </tbody>\n", + "</table>\n", + "<p>5 rows × 81 columns</p>\n", + "</div>" + ], + "text/plain": [ + " ESTU_TIPODOCUMENTO ESTU_NACIONALIDAD ESTU_GENERO ESTU_FECHANACIMIENTO \\\n", + "0 TI SUIZA F 03/03/2003 12:00:00 AM \n", + "1 PEP VENEZUELA M 05/10/2002 12:00:00 AM \n", + "2 TI VENEZUELA F 12/14/2003 12:00:00 AM \n", + "3 CE VENEZUELA M 04/12/2003 12:00:00 AM \n", + "4 TI COLOMBIA F 03/03/2004 12:00:00 AM \n", + "\n", + " PERIODO ESTU_CONSECUTIVO ESTU_ESTUDIANTE ESTU_PAIS_RESIDE ESTU_TIENEETNIA \\\n", + "0 20204 SB11202040211436 ESTUDIANTE SUIZA No \n", + "1 20204 SB11202040433216 ESTUDIANTE VENEZUELA No \n", + "2 20204 SB11202040244180 ESTUDIANTE VENEZUELA No \n", + "3 20204 SB11202040210971 ESTUDIANTE VENEZUELA No \n", + "4 20204 SB11202040235382 ESTUDIANTE COLOMBIA No \n", + "\n", + " ESTU_DEPTO_RESIDE ... PUNT_INGLES PERCENTIL_INGLES DESEMP_INGLES \\\n", + "0 CUNDINAMARCA ... 55.0 81 A1 \n", + "1 CUNDINAMARCA ... 33.0 6 A- \n", + "2 CUNDINAMARCA ... 59.0 87 A2 \n", + "3 CUNDINAMARCA ... 47.0 58 A- \n", + "4 CUNDINAMARCA ... 43.0 40 A- \n", + "\n", + " PUNT_GLOBAL PERCENTIL_GLOBAL ESTU_INSE_INDIVIDUAL ESTU_NSE_INDIVIDUAL \\\n", + "0 244 49 54.882365 3.0 \n", + "1 238 44 49.252311 2.0 \n", + "2 325 94 40.733672 1.0 \n", + "3 238 45 48.217953 2.0 \n", + "4 202 19 60.912192 3.0 \n", + "\n", + " ESTU_NSE_ESTABLECIMIENTO ESTU_ESTADOINVESTIGACION ESTU_GENERACION-E \n", + "0 3.0 PUBLICAR NO \n", + "1 2.0 PUBLICAR NO \n", + "2 3.0 PUBLICAR GENERACION E - GRATUIDAD \n", + "3 3.0 PUBLICAR NO \n", + "4 3.0 PUBLICAR NO \n", + "\n", + "[5 rows x 81 columns]" + ] + }, + "execution_count": 4, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "df.head()" + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "(504872, 81)" + ] + }, + "execution_count": 5, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "df.shape" + ] + }, + { + "cell_type": "code", + "execution_count": 6, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "Index(['ESTU_TIPODOCUMENTO', 'ESTU_NACIONALIDAD', 'ESTU_GENERO',\n", + " 'ESTU_FECHANACIMIENTO', 'PERIODO', 'ESTU_CONSECUTIVO',\n", + " 'ESTU_ESTUDIANTE', 'ESTU_PAIS_RESIDE', 'ESTU_TIENEETNIA',\n", + " 'ESTU_DEPTO_RESIDE', 'ESTU_COD_RESIDE_DEPTO', 'ESTU_MCPIO_RESIDE',\n", + " 'ESTU_COD_RESIDE_MCPIO', 'FAMI_ESTRATOVIVIENDA', 'FAMI_PERSONASHOGAR',\n", + " 'FAMI_CUARTOSHOGAR', 'FAMI_EDUCACIONPADRE', 'FAMI_EDUCACIONMADRE',\n", + " 'FAMI_TRABAJOLABORPADRE', 'FAMI_TRABAJOLABORMADRE',\n", + " 'FAMI_TIENEINTERNET', 'FAMI_TIENESERVICIOTV', 'FAMI_TIENECOMPUTADOR',\n", + " 'FAMI_TIENELAVADORA', 'FAMI_TIENEHORNOMICROOGAS', 'FAMI_TIENEAUTOMOVIL',\n", + " 'FAMI_TIENEMOTOCICLETA', 'FAMI_TIENECONSOLAVIDEOJUEGOS',\n", + " 'FAMI_NUMLIBROS', 'FAMI_COMELECHEDERIVADOS',\n", + " 'FAMI_COMECARNEPESCADOHUEVO', 'FAMI_COMECEREALFRUTOSLEGUMBRE',\n", + " 'FAMI_SITUACIONECONOMICA', 'ESTU_DEDICACIONLECTURADIARIA',\n", + " 'ESTU_DEDICACIONINTERNET', 'ESTU_HORASSEMANATRABAJA',\n", + " 'ESTU_TIPOREMUNERACION', 'COLE_CODIGO_ICFES',\n", + " 'COLE_COD_DANE_ESTABLECIMIENTO', 'COLE_NOMBRE_ESTABLECIMIENTO',\n", + " 'COLE_GENERO', 'COLE_NATURALEZA', 'COLE_CALENDARIO', 'COLE_BILINGUE',\n", + " 'COLE_CARACTER', 'COLE_COD_DANE_SEDE', 'COLE_NOMBRE_SEDE',\n", + " 'COLE_SEDE_PRINCIPAL', 'COLE_AREA_UBICACION', 'COLE_JORNADA',\n", + " 'COLE_COD_MCPIO_UBICACION', 'COLE_MCPIO_UBICACION',\n", + " 'COLE_COD_DEPTO_UBICACION', 'COLE_DEPTO_UBICACION',\n", + " 'ESTU_PRIVADO_LIBERTAD', 'ESTU_COD_MCPIO_PRESENTACION',\n", + " 'ESTU_MCPIO_PRESENTACION', 'ESTU_DEPTO_PRESENTACION',\n", + " 'ESTU_COD_DEPTO_PRESENTACION', 'PUNT_LECTURA_CRITICA',\n", + " 'PERCENTIL_LECTURA_CRITICA', 'DESEMP_LECTURA_CRITICA',\n", + " 'PUNT_MATEMATICAS', 'PERCENTIL_MATEMATICAS', 'DESEMP_MATEMATICAS',\n", + " 'PUNT_C_NATURALES', 'PERCENTIL_C_NATURALES', 'DESEMP_C_NATURALES',\n", + " 'PUNT_SOCIALES_CIUDADANAS', 'PERCENTIL_SOCIALES_CIUDADANAS',\n", + " 'DESEMP_SOCIALES_CIUDADANAS', 'PUNT_INGLES', 'PERCENTIL_INGLES',\n", + " 'DESEMP_INGLES', 'PUNT_GLOBAL', 'PERCENTIL_GLOBAL',\n", + " 'ESTU_INSE_INDIVIDUAL', 'ESTU_NSE_INDIVIDUAL',\n", + " 'ESTU_NSE_ESTABLECIMIENTO', 'ESTU_ESTADOINVESTIGACION',\n", + " 'ESTU_GENERACION-E'],\n", + " dtype='object')" + ] + }, + "execution_count": 6, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "df.columns" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Como ejemplo veamos cómo se construye un histograma de una de las variables, en este caso el puntaje en matemáticas:" + ] + }, + { + "cell_type": "code", + "execution_count": 7, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "<AxesSubplot:ylabel='Frequency'>" + ] + }, + "execution_count": 7, + "metadata": {}, + "output_type": "execute_result" + }, + { + "data": { + "image/png": "\n", + "text/plain": [ + "<Figure size 432x288 with 1 Axes>" + ] + }, + "metadata": { + "needs_background": "light" + }, + "output_type": "display_data" + } + ], + "source": [ + "pd.DataFrame(df['PUNT_MATEMATICAS'].values).plot(kind='hist')" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "El tipo de gráfico se puede cambiar fácilmente mediante la opción `kind`" + ] + }, + { + "cell_type": "code", + "execution_count": 8, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "<AxesSubplot:>" + ] + }, + "execution_count": 8, + "metadata": {}, + "output_type": "execute_result" + }, + { + "data": { + "image/png": "\n", + "text/plain": [ + "<Figure size 432x288 with 1 Axes>" + ] + }, + "metadata": { + "needs_background": "light" + }, + "output_type": "display_data" + } + ], + "source": [ + "df['PUNT_MATEMATICAS'].value_counts().plot(kind='line',style=\"o\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Ahora un ejemplo de cómo se pueden computar los cuantiles rápidamente para tener una idea de la distribución de valores. Lo mismo se puede hacer para todo el dataframe o un subconjunto de columnas como en el ejemplo:" + ] + }, + { + "cell_type": "code", + "execution_count": 9, + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "<div>\n", + "<style scoped>\n", + " .dataframe tbody tr th:only-of-type {\n", + " vertical-align: middle;\n", + " }\n", + "\n", + " .dataframe tbody tr th {\n", + " vertical-align: top;\n", + " }\n", + "\n", + " .dataframe thead th {\n", + " text-align: right;\n", + " }\n", + "</style>\n", + "<table border=\"1\" class=\"dataframe\">\n", + " <thead>\n", + " <tr style=\"text-align: right;\">\n", + " <th></th>\n", + " <th>PUNT_MATEMATICAS</th>\n", + " <th>PUNT_C_NATURALES</th>\n", + " </tr>\n", + " </thead>\n", + " <tbody>\n", + " <tr>\n", + " <th>0.90</th>\n", + " <td>66.0</td>\n", + " <td>62.0</td>\n", + " </tr>\n", + " <tr>\n", + " <th>0.95</th>\n", + " <td>70.0</td>\n", + " <td>66.0</td>\n", + " </tr>\n", + " <tr>\n", + " <th>0.99</th>\n", + " <td>77.0</td>\n", + " <td>73.0</td>\n", + " </tr>\n", + " </tbody>\n", + "</table>\n", + "</div>" + ], + "text/plain": [ + " PUNT_MATEMATICAS PUNT_C_NATURALES\n", + "0.90 66.0 62.0\n", + "0.95 70.0 66.0\n", + "0.99 77.0 73.0" + ] + }, + "execution_count": 9, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "df[['PUNT_MATEMATICAS','PUNT_C_NATURALES']].quantile([0.9,0.95,0.99])" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Ahora un ejemplo de boxplot utilizando seaborn:" + ] + }, + { + "cell_type": "code", + "execution_count": 10, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "Text(0.5, 1.0, 'Boxplot of Price vs. bedrooms')" + ] + }, + "execution_count": 10, + "metadata": {}, + "output_type": "execute_result" + }, + { + "data": { + "image/png": "\n", + "text/plain": [ + "<Figure size 432x288 with 1 Axes>" + ] + }, + "metadata": { + "needs_background": "light" + }, + "output_type": "display_data" + } + ], + "source": [ + "sns.boxplot(x = \"ESTU_GENERO\", y='PUNT_MATEMATICAS', data = df)\n", + "plt.title(\"Boxplot of Price vs. bedrooms\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Y un gráfico de cajas más, para probar una hipótesis que no deja de llamar la atención \"En los hogares con mayores de seguridad alimentar, donde se consume por ejemplo huevo, carne y pescado con mayor frecuencia, los puntajes en matemáticas son superiores\"" + ] + }, + { + "cell_type": "code", + "execution_count": 11, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "(array([0, 1, 2, 3]),\n", + " [Text(0, 0, '1 o 2 veces por semana'),\n", + " Text(1, 0, 'Todos o casi todos los dÃas'),\n", + " Text(2, 0, '3 a 5 veces por semana'),\n", + " Text(3, 0, 'Nunca o rara vez comemos eso')])" + ] + }, + "execution_count": 11, + "metadata": {}, + "output_type": "execute_result" + }, + { + "data": { + "image/png": "\n", + "text/plain": [ + "<Figure size 432x288 with 1 Axes>" + ] + }, + "metadata": { + "needs_background": "light" + }, + "output_type": "display_data" + } + ], + "source": [ + "sns.boxplot(x = \"FAMI_COMECARNEPESCADOHUEVO\", y='PUNT_MATEMATICAS', data = df)\n", + "plt.xticks(rotation=45)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "A las variables que no toman valores numéricos contÃnuos, sino que tienen asignado un valor de entre un conjunto finito de valores, algo asà como una etiqueta, se les llama variables categóricas, pues dividen a los datos en categorÃas. El \"Estrato\" de la vivienda familiar es un ejemplo. En este caso es una variable categórica que puede ser ordenada, pues es un indicador aproximado del nivel de ingresos económicos, por lo tanto serÃa útil transformar esta variable a números para poder analizar correlaciones con otras variables, ya que las correlaciones solo funcionan entre variables numéricas." + ] + }, + { + "cell_type": "code", + "execution_count": 12, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "0 Estrato 2\n", + "1 Estrato 3\n", + "2 Estrato 1\n", + "3 Sin Estrato\n", + "4 Estrato 5\n", + " ... \n", + "504867 Estrato 2\n", + "504868 Estrato 2\n", + "504869 Estrato 2\n", + "504870 Estrato 2\n", + "504871 Estrato 3\n", + "Name: FAMI_ESTRATOVIVIENDA, Length: 504872, dtype: object" + ] + }, + "execution_count": 12, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "df[\"FAMI_ESTRATOVIVIENDA\"]" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Algunos otros comandos que probablemente sean útiles, y quieran reutilizar en distintas formas:" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "df.ESTU_GENERO.unique()" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "df.ESTU_GENERO.hasnans" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "df.ESTU_GENERO.isnull().sum()" + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "Python 3", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.8.5" + } + }, + "nbformat": 4, + "nbformat_minor": 4 +} diff --git a/README.md b/README.md index 8d9a79dba832dd798f589a3ac61461969c4f07ff..49b69fd4ccc89540858943e1739710ada67e5929 100644 --- a/README.md +++ b/README.md @@ -1,2 +1,86 @@ # pandas-bash-tarea-01 +**Creado por:** Juan Carlos Basto Pineda (@juan-pineda en mattermost y GitLab) + +### Fecha de entrega: +Viernes 22 de Julio, 2021. Media noche COL/PER/ECU (+1h VEN) + +### Modo de entrega: +Clonar este repositorio, cambiar la configuración de privacidad a *privado* +y agregarme como colaborador. La entrega debe comprender un archivo en pdf +llamado `Reporte_mi_nombre.pdf `, el cual debe ser autocontenido, de manera +que en primera aproximación yo pueda revisarlo y tener una idea clara de lo que +hicieron, cómo lo hicieron, sus reflexiones, hallazgos, conclusiones, etc. +Adicionalmente, debe haber uno o más notebooks que permitan reproducir el paso +a paso de su tratmiento de los datos y análisis realizados. Esos notebooks, +como siempre, no pueden limitarse a un montón de código que solamente lo +entiende el que lo hizo (y eso si no deja pasar mucho tiempo para volver a +mirarlo). Por el contrario, el notebook debe ser tan claro que cualquier +cientÃfico de datos lo puedan seguir y entender cada paso de lo que hicieron +gracias a los comentarios y celdas de markdown con explicaciones. **El notebook +tiene que correr en cualquier máquina**, asà que asegúrense de afinar el path +de los archivos y demás para que yo no tenga que estar corrigiendo esas cosas +para lograr que me funcione. Si consideran apropiado dividir el trabajo en más +de un notebook, usen un mismo nombre de archivo para todos, agregando un número +al final del nombre (p.ej. *notebook_1.ipynb*, *notebook_2.ipynb*, etc.) +Refiéranse por estos mismos nombres a ellos al interior del pdf. + +**NOTA:** El informe no es mejor entre más gordo. Una habilidad fundamental en +la ciencia de datos es la capacidad de comunicar de forma eficiente y sintetizada. +Seguramente para llegar al gráfico final, con condensa una historia, habrán hecho +cientos de gráficos más, por favor *No los incluyan TODOS dentro del informe*. +Si hay un conjunto de gráficos que realmente vale la pena incluir y no es tan +pequeño, usen de forma inteligente los anexos. + + +## INTRUCCIONES + +En la carpeta `Data/` van a encontrar un archivo llamado `Saber_11__2020-2.csv`. +Como se describió en clase, este archivo contiene información de los estudiantes +que finalizaron sus estudios de secundaria en 2011 en Colombia, y se enfrentaron +a la llamada prueba 'Saber', un examen de conocimientos en las distintas asignaturas +como matemáticas, ciencias naturales, etc. + +El objetivo de la tarea es realizar un análisis exploratorio de los datos utilizando +pandas, principalmente, pero sin excluir el uso de bibliotecas adicionales como +numpy y por supuesto el uso de herramientas para graficar como `seaborn` y `matplotlib`. +El foco de este análisis debe ser la búsqueda de relaciones entre los distintos +indicadores, para entender qué historias se esconden entre los datos, qué nos +cuentan sobre distintos factores de comportamiento o la influencia de factores +geográficos, socioeconómicos, culturales, etc. en el desempoño de los estudiantes, +y cómo estas historias pueden ser descubiertas mediante el análisis de los datos. + +Ese análisis exploratorio debe incluir, como mÃnimo: + +- Una descripción general del dataframe. +- Un diccionario del significado de las variables como anexo +- Una mención sobre las variables más importantes para su análisis y por qué esas +- Análisis estadÃstico del comportamiento de algunas variables y su posible relación con otras variablas +- Planteamiento de hipótesis para explicar las relaciones halladas + +Para llegar a ello, seguramente usted tendrá que hacer un procesamiento de los datos, +por ejemplo renombrando columnas, elimnando algunas, crendo nuevas variables, +verificando la presencia de NANs, modificando NANs si es necesario, y quizás modificando +variables categoricas para darles una naturaleza de variable numérica. Todo eso está +muy bien y es necesario, pero no es vital para el informe. Pueden mencionarlo brevemente, +y sà identificar estos pasos y su justificación más claramente en los notebooks. + + +## Notas adicionales: +- La fuente de los datos es [esta](https://www.datos.gov.co/Educaci-n/Saber-11-2020-2/rnvb-vnyh) +- [Aqui](https://www.mineducacion.gov.co/1621/w3-article-244735.html) una información mÃnima +sobre las pruebas +- Un dato relevante es conocer lo mÃnimo sobre la [división polÃtico-administrativa de Colombia](https://www.colombia.co/pais-colombia/estructura-del-estado-colombiano/como-es-la-organizacion-politico-administrativa-de-colombia/#:~:text=Colombia%20cuenta%20con%201123%20municipios,ind%C3%ADgenas%20y%20los%20territorios%20colectivos.) +- El paÃs se divide en 32 departamentos. Será interesante ver si hay alguna diferencia entre los +resultados de los distintos de departamentos, y entre los resultados de las capitales de departamento +y los de las ciudades más pequeñas o zonas rurales +- En esta misma carpeta hallan un notebook llamado `Notebook_introduction.py` con notas adicionales + + + + + + + + + diff --git a/data/Saber_11__2020-2.csv b/data/Saber_11__2020-2.csv new file mode 100644 index 0000000000000000000000000000000000000000..a28032cc5fea6c1d4b3a18c4ce2b0d2bca3b35e9 Binary files /dev/null and b/data/Saber_11__2020-2.csv differ diff --git a/images/img0.png b/images/img0.png new file mode 100755 index 0000000000000000000000000000000000000000..ad510a1ee73c72d48cc51675dda67160dd809ebf Binary files /dev/null and b/images/img0.png differ diff --git a/images/logo_LAconga-oficial.png b/images/logo_LAconga-oficial.png new file mode 100644 index 0000000000000000000000000000000000000000..24398eb447204a31bb747bf4261e5dbdc4ea24e0 Binary files /dev/null and b/images/logo_LAconga-oficial.png differ diff --git a/notebook_introduction.ipynb b/notebook_introduction.ipynb new file mode 100644 index 0000000000000000000000000000000000000000..3a39a808b438af9895e932ef8f12e06cef7e05c0 --- /dev/null +++ b/notebook_introduction.ipynb @@ -0,0 +1,679 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "</div>\n", + "<img src=\"images/img0.png\">" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "**Contributors**\n", + "- Juan Carlos Basto Pineda (juan.basto.pineda@gmail.com)" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "import pandas as pd\n", + "import matplotlib.pyplot as plt\n", + "import numpy as np\n", + "import seaborn as sns" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Estos datos son proporcionados directamente por el gobierno de Colombia y pueden ser encontrados [aquÃ](https://www.datos.gov.co/Educaci-n/Saber-11-2020-2/rnvb-vnyh)" + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "metadata": {}, + "outputs": [], + "source": [ + "df = pd.read_csv(\"data/Saber_11__2020-2.csv\")" + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "<div>\n", + "<style scoped>\n", + " .dataframe tbody tr th:only-of-type {\n", + " vertical-align: middle;\n", + " }\n", + "\n", + " .dataframe tbody tr th {\n", + " vertical-align: top;\n", + " }\n", + "\n", + " .dataframe thead th {\n", + " text-align: right;\n", + " }\n", + "</style>\n", + "<table border=\"1\" class=\"dataframe\">\n", + " <thead>\n", + " <tr style=\"text-align: right;\">\n", + " <th></th>\n", + " <th>ESTU_TIPODOCUMENTO</th>\n", + " <th>ESTU_NACIONALIDAD</th>\n", + " <th>ESTU_GENERO</th>\n", + " <th>ESTU_FECHANACIMIENTO</th>\n", + " <th>PERIODO</th>\n", + " <th>ESTU_CONSECUTIVO</th>\n", + " <th>ESTU_ESTUDIANTE</th>\n", + " <th>ESTU_PAIS_RESIDE</th>\n", + " <th>ESTU_TIENEETNIA</th>\n", + " <th>ESTU_DEPTO_RESIDE</th>\n", + " <th>...</th>\n", + " <th>PUNT_INGLES</th>\n", + " <th>PERCENTIL_INGLES</th>\n", + " <th>DESEMP_INGLES</th>\n", + " <th>PUNT_GLOBAL</th>\n", + " <th>PERCENTIL_GLOBAL</th>\n", + " <th>ESTU_INSE_INDIVIDUAL</th>\n", + " <th>ESTU_NSE_INDIVIDUAL</th>\n", + " <th>ESTU_NSE_ESTABLECIMIENTO</th>\n", + " <th>ESTU_ESTADOINVESTIGACION</th>\n", + " <th>ESTU_GENERACION-E</th>\n", + " </tr>\n", + " </thead>\n", + " <tbody>\n", + " <tr>\n", + " <th>0</th>\n", + " <td>TI</td>\n", + " <td>SUIZA</td>\n", + " <td>F</td>\n", + " <td>03/03/2003 12:00:00 AM</td>\n", + " <td>20204</td>\n", + " <td>SB11202040211436</td>\n", + " <td>ESTUDIANTE</td>\n", + " <td>SUIZA</td>\n", + " <td>No</td>\n", + " <td>CUNDINAMARCA</td>\n", + " <td>...</td>\n", + " <td>55.0</td>\n", + " <td>81</td>\n", + " <td>A1</td>\n", + " <td>244</td>\n", + " <td>49</td>\n", + " <td>54.882365</td>\n", + " <td>3.0</td>\n", + " <td>3.0</td>\n", + " <td>PUBLICAR</td>\n", + " <td>NO</td>\n", + " </tr>\n", + " <tr>\n", + " <th>1</th>\n", + " <td>PEP</td>\n", + " <td>VENEZUELA</td>\n", + " <td>M</td>\n", + " <td>05/10/2002 12:00:00 AM</td>\n", + " <td>20204</td>\n", + " <td>SB11202040433216</td>\n", + " <td>ESTUDIANTE</td>\n", + " <td>VENEZUELA</td>\n", + " <td>No</td>\n", + " <td>CUNDINAMARCA</td>\n", + " <td>...</td>\n", + " <td>33.0</td>\n", + " <td>6</td>\n", + " <td>A-</td>\n", + " <td>238</td>\n", + " <td>44</td>\n", + " <td>49.252311</td>\n", + " <td>2.0</td>\n", + " <td>2.0</td>\n", + " <td>PUBLICAR</td>\n", + " <td>NO</td>\n", + " </tr>\n", + " <tr>\n", + " <th>2</th>\n", + " <td>TI</td>\n", + " <td>VENEZUELA</td>\n", + " <td>F</td>\n", + " <td>12/14/2003 12:00:00 AM</td>\n", + " <td>20204</td>\n", + " <td>SB11202040244180</td>\n", + " <td>ESTUDIANTE</td>\n", + " <td>VENEZUELA</td>\n", + " <td>No</td>\n", + " <td>CUNDINAMARCA</td>\n", + " <td>...</td>\n", + " <td>59.0</td>\n", + " <td>87</td>\n", + " <td>A2</td>\n", + " <td>325</td>\n", + " <td>94</td>\n", + " <td>40.733672</td>\n", + " <td>1.0</td>\n", + " <td>3.0</td>\n", + " <td>PUBLICAR</td>\n", + " <td>GENERACION E - GRATUIDAD</td>\n", + " </tr>\n", + " <tr>\n", + " <th>3</th>\n", + " <td>CE</td>\n", + " <td>VENEZUELA</td>\n", + " <td>M</td>\n", + " <td>04/12/2003 12:00:00 AM</td>\n", + " <td>20204</td>\n", + " <td>SB11202040210971</td>\n", + " <td>ESTUDIANTE</td>\n", + " <td>VENEZUELA</td>\n", + " <td>No</td>\n", + " <td>CUNDINAMARCA</td>\n", + " <td>...</td>\n", + " <td>47.0</td>\n", + " <td>58</td>\n", + " <td>A-</td>\n", + " <td>238</td>\n", + " <td>45</td>\n", + " <td>48.217953</td>\n", + " <td>2.0</td>\n", + " <td>3.0</td>\n", + " <td>PUBLICAR</td>\n", + " <td>NO</td>\n", + " </tr>\n", + " <tr>\n", + " <th>4</th>\n", + " <td>TI</td>\n", + " <td>COLOMBIA</td>\n", + " <td>F</td>\n", + " <td>03/03/2004 12:00:00 AM</td>\n", + " <td>20204</td>\n", + " <td>SB11202040235382</td>\n", + " <td>ESTUDIANTE</td>\n", + " <td>COLOMBIA</td>\n", + " <td>No</td>\n", + " <td>CUNDINAMARCA</td>\n", + " <td>...</td>\n", + " <td>43.0</td>\n", + " <td>40</td>\n", + " <td>A-</td>\n", + " <td>202</td>\n", + " <td>19</td>\n", + " <td>60.912192</td>\n", + " <td>3.0</td>\n", + " <td>3.0</td>\n", + " <td>PUBLICAR</td>\n", + " <td>NO</td>\n", + " </tr>\n", + " </tbody>\n", + "</table>\n", + "<p>5 rows × 81 columns</p>\n", + "</div>" + ], + "text/plain": [ + " ESTU_TIPODOCUMENTO ESTU_NACIONALIDAD ESTU_GENERO ESTU_FECHANACIMIENTO \\\n", + "0 TI SUIZA F 03/03/2003 12:00:00 AM \n", + "1 PEP VENEZUELA M 05/10/2002 12:00:00 AM \n", + "2 TI VENEZUELA F 12/14/2003 12:00:00 AM \n", + "3 CE VENEZUELA M 04/12/2003 12:00:00 AM \n", + "4 TI COLOMBIA F 03/03/2004 12:00:00 AM \n", + "\n", + " PERIODO ESTU_CONSECUTIVO ESTU_ESTUDIANTE ESTU_PAIS_RESIDE ESTU_TIENEETNIA \\\n", + "0 20204 SB11202040211436 ESTUDIANTE SUIZA No \n", + "1 20204 SB11202040433216 ESTUDIANTE VENEZUELA No \n", + "2 20204 SB11202040244180 ESTUDIANTE VENEZUELA No \n", + "3 20204 SB11202040210971 ESTUDIANTE VENEZUELA No \n", + "4 20204 SB11202040235382 ESTUDIANTE COLOMBIA No \n", + "\n", + " ESTU_DEPTO_RESIDE ... PUNT_INGLES PERCENTIL_INGLES DESEMP_INGLES \\\n", + "0 CUNDINAMARCA ... 55.0 81 A1 \n", + "1 CUNDINAMARCA ... 33.0 6 A- \n", + "2 CUNDINAMARCA ... 59.0 87 A2 \n", + "3 CUNDINAMARCA ... 47.0 58 A- \n", + "4 CUNDINAMARCA ... 43.0 40 A- \n", + "\n", + " PUNT_GLOBAL PERCENTIL_GLOBAL ESTU_INSE_INDIVIDUAL ESTU_NSE_INDIVIDUAL \\\n", + "0 244 49 54.882365 3.0 \n", + "1 238 44 49.252311 2.0 \n", + "2 325 94 40.733672 1.0 \n", + "3 238 45 48.217953 2.0 \n", + "4 202 19 60.912192 3.0 \n", + "\n", + " ESTU_NSE_ESTABLECIMIENTO ESTU_ESTADOINVESTIGACION ESTU_GENERACION-E \n", + "0 3.0 PUBLICAR NO \n", + "1 2.0 PUBLICAR NO \n", + "2 3.0 PUBLICAR GENERACION E - GRATUIDAD \n", + "3 3.0 PUBLICAR NO \n", + "4 3.0 PUBLICAR NO \n", + "\n", + "[5 rows x 81 columns]" + ] + }, + "execution_count": 4, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "df.head()" + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "(504872, 81)" + ] + }, + "execution_count": 5, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "df.shape" + ] + }, + { + "cell_type": "code", + "execution_count": 6, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "Index(['ESTU_TIPODOCUMENTO', 'ESTU_NACIONALIDAD', 'ESTU_GENERO',\n", + " 'ESTU_FECHANACIMIENTO', 'PERIODO', 'ESTU_CONSECUTIVO',\n", + " 'ESTU_ESTUDIANTE', 'ESTU_PAIS_RESIDE', 'ESTU_TIENEETNIA',\n", + " 'ESTU_DEPTO_RESIDE', 'ESTU_COD_RESIDE_DEPTO', 'ESTU_MCPIO_RESIDE',\n", + " 'ESTU_COD_RESIDE_MCPIO', 'FAMI_ESTRATOVIVIENDA', 'FAMI_PERSONASHOGAR',\n", + " 'FAMI_CUARTOSHOGAR', 'FAMI_EDUCACIONPADRE', 'FAMI_EDUCACIONMADRE',\n", + " 'FAMI_TRABAJOLABORPADRE', 'FAMI_TRABAJOLABORMADRE',\n", + " 'FAMI_TIENEINTERNET', 'FAMI_TIENESERVICIOTV', 'FAMI_TIENECOMPUTADOR',\n", + " 'FAMI_TIENELAVADORA', 'FAMI_TIENEHORNOMICROOGAS', 'FAMI_TIENEAUTOMOVIL',\n", + " 'FAMI_TIENEMOTOCICLETA', 'FAMI_TIENECONSOLAVIDEOJUEGOS',\n", + " 'FAMI_NUMLIBROS', 'FAMI_COMELECHEDERIVADOS',\n", + " 'FAMI_COMECARNEPESCADOHUEVO', 'FAMI_COMECEREALFRUTOSLEGUMBRE',\n", + " 'FAMI_SITUACIONECONOMICA', 'ESTU_DEDICACIONLECTURADIARIA',\n", + " 'ESTU_DEDICACIONINTERNET', 'ESTU_HORASSEMANATRABAJA',\n", + " 'ESTU_TIPOREMUNERACION', 'COLE_CODIGO_ICFES',\n", + " 'COLE_COD_DANE_ESTABLECIMIENTO', 'COLE_NOMBRE_ESTABLECIMIENTO',\n", + " 'COLE_GENERO', 'COLE_NATURALEZA', 'COLE_CALENDARIO', 'COLE_BILINGUE',\n", + " 'COLE_CARACTER', 'COLE_COD_DANE_SEDE', 'COLE_NOMBRE_SEDE',\n", + " 'COLE_SEDE_PRINCIPAL', 'COLE_AREA_UBICACION', 'COLE_JORNADA',\n", + " 'COLE_COD_MCPIO_UBICACION', 'COLE_MCPIO_UBICACION',\n", + " 'COLE_COD_DEPTO_UBICACION', 'COLE_DEPTO_UBICACION',\n", + " 'ESTU_PRIVADO_LIBERTAD', 'ESTU_COD_MCPIO_PRESENTACION',\n", + " 'ESTU_MCPIO_PRESENTACION', 'ESTU_DEPTO_PRESENTACION',\n", + " 'ESTU_COD_DEPTO_PRESENTACION', 'PUNT_LECTURA_CRITICA',\n", + " 'PERCENTIL_LECTURA_CRITICA', 'DESEMP_LECTURA_CRITICA',\n", + " 'PUNT_MATEMATICAS', 'PERCENTIL_MATEMATICAS', 'DESEMP_MATEMATICAS',\n", + " 'PUNT_C_NATURALES', 'PERCENTIL_C_NATURALES', 'DESEMP_C_NATURALES',\n", + " 'PUNT_SOCIALES_CIUDADANAS', 'PERCENTIL_SOCIALES_CIUDADANAS',\n", + " 'DESEMP_SOCIALES_CIUDADANAS', 'PUNT_INGLES', 'PERCENTIL_INGLES',\n", + " 'DESEMP_INGLES', 'PUNT_GLOBAL', 'PERCENTIL_GLOBAL',\n", + " 'ESTU_INSE_INDIVIDUAL', 'ESTU_NSE_INDIVIDUAL',\n", + " 'ESTU_NSE_ESTABLECIMIENTO', 'ESTU_ESTADOINVESTIGACION',\n", + " 'ESTU_GENERACION-E'],\n", + " dtype='object')" + ] + }, + "execution_count": 6, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "df.columns" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Como ejemplo veamos cómo se construye un histograma de una de las variables, en este caso el puntaje en matemáticas:" + ] + }, + { + "cell_type": "code", + "execution_count": 7, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "<AxesSubplot:ylabel='Frequency'>" + ] + }, + "execution_count": 7, + "metadata": {}, + "output_type": "execute_result" + }, + { + "data": { + "image/png": "\n", + "text/plain": [ + "<Figure size 432x288 with 1 Axes>" + ] + }, + "metadata": { + "needs_background": "light" + }, + "output_type": "display_data" + } + ], + "source": [ + "pd.DataFrame(df['PUNT_MATEMATICAS'].values).plot(kind='hist')" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "El tipo de gráfico se puede cambiar fácilmente mediante la opción `kind`" + ] + }, + { + "cell_type": "code", + "execution_count": 8, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "<AxesSubplot:>" + ] + }, + "execution_count": 8, + "metadata": {}, + "output_type": "execute_result" + }, + { + "data": { + "image/png": "\n", + "text/plain": [ + "<Figure size 432x288 with 1 Axes>" + ] + }, + "metadata": { + "needs_background": "light" + }, + "output_type": "display_data" + } + ], + "source": [ + "df['PUNT_MATEMATICAS'].value_counts().plot(kind='line',style=\"o\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Ahora un ejemplo de cómo se pueden computar los cuantiles rápidamente para tener una idea de la distribución de valores. Lo mismo se puede hacer para todo el dataframe o un subconjunto de columnas como en el ejemplo:" + ] + }, + { + "cell_type": "code", + "execution_count": 9, + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "<div>\n", + "<style scoped>\n", + " .dataframe tbody tr th:only-of-type {\n", + " vertical-align: middle;\n", + " }\n", + "\n", + " .dataframe tbody tr th {\n", + " vertical-align: top;\n", + " }\n", + "\n", + " .dataframe thead th {\n", + " text-align: right;\n", + " }\n", + "</style>\n", + "<table border=\"1\" class=\"dataframe\">\n", + " <thead>\n", + " <tr style=\"text-align: right;\">\n", + " <th></th>\n", + " <th>PUNT_MATEMATICAS</th>\n", + " <th>PUNT_C_NATURALES</th>\n", + " </tr>\n", + " </thead>\n", + " <tbody>\n", + " <tr>\n", + " <th>0.90</th>\n", + " <td>66.0</td>\n", + " <td>62.0</td>\n", + " </tr>\n", + " <tr>\n", + " <th>0.95</th>\n", + " <td>70.0</td>\n", + " <td>66.0</td>\n", + " </tr>\n", + " <tr>\n", + " <th>0.99</th>\n", + " <td>77.0</td>\n", + " <td>73.0</td>\n", + " </tr>\n", + " </tbody>\n", + "</table>\n", + "</div>" + ], + "text/plain": [ + " PUNT_MATEMATICAS PUNT_C_NATURALES\n", + "0.90 66.0 62.0\n", + "0.95 70.0 66.0\n", + "0.99 77.0 73.0" + ] + }, + "execution_count": 9, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "df[['PUNT_MATEMATICAS','PUNT_C_NATURALES']].quantile([0.9,0.95,0.99])" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Ahora un ejemplo de boxplot utilizando seaborn:" + ] + }, + { + "cell_type": "code", + "execution_count": 10, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "Text(0.5, 1.0, 'Boxplot of Price vs. bedrooms')" + ] + }, + "execution_count": 10, + "metadata": {}, + "output_type": "execute_result" + }, + { + "data": { + "image/png": "\n", + "text/plain": [ + "<Figure size 432x288 with 1 Axes>" + ] + }, + "metadata": { + "needs_background": "light" + }, + "output_type": "display_data" + } + ], + "source": [ + "sns.boxplot(x = \"ESTU_GENERO\", y='PUNT_MATEMATICAS', data = df)\n", + "plt.title(\"Boxplot of Price vs. bedrooms\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Y un gráfico de cajas más, para probar una hipótesis que no deja de llamar la atención \"En los hogares con mayores de seguridad alimentar, donde se consume por ejemplo huevo, carne y pescado con mayor frecuencia, los puntajes en matemáticas son superiores\"" + ] + }, + { + "cell_type": "code", + "execution_count": 11, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "(array([0, 1, 2, 3]),\n", + " [Text(0, 0, '1 o 2 veces por semana'),\n", + " Text(1, 0, 'Todos o casi todos los dÃas'),\n", + " Text(2, 0, '3 a 5 veces por semana'),\n", + " Text(3, 0, 'Nunca o rara vez comemos eso')])" + ] + }, + "execution_count": 11, + "metadata": {}, + "output_type": "execute_result" + }, + { + "data": { + "image/png": "\n", + "text/plain": [ + "<Figure size 432x288 with 1 Axes>" + ] + }, + "metadata": { + "needs_background": "light" + }, + "output_type": "display_data" + } + ], + "source": [ + "sns.boxplot(x = \"FAMI_COMECARNEPESCADOHUEVO\", y='PUNT_MATEMATICAS', data = df)\n", + "plt.xticks(rotation=45)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "A las variables que no toman valores numéricos contÃnuos, sino que tienen asignado un valor de entre un conjunto finito de valores, algo asà como una etiqueta, se les llama variables categóricas, pues dividen a los datos en categorÃas. El \"Estrato\" de la vivienda familiar es un ejemplo. En este caso es una variable categórica que puede ser ordenada, pues es un indicador aproximado del nivel de ingresos económicos, por lo tanto serÃa útil transformar esta variable a números para poder analizar correlaciones con otras variables, ya que las correlaciones solo funcionan entre variables numéricas." + ] + }, + { + "cell_type": "code", + "execution_count": 12, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "0 Estrato 2\n", + "1 Estrato 3\n", + "2 Estrato 1\n", + "3 Sin Estrato\n", + "4 Estrato 5\n", + " ... \n", + "504867 Estrato 2\n", + "504868 Estrato 2\n", + "504869 Estrato 2\n", + "504870 Estrato 2\n", + "504871 Estrato 3\n", + "Name: FAMI_ESTRATOVIVIENDA, Length: 504872, dtype: object" + ] + }, + "execution_count": 12, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "df[\"FAMI_ESTRATOVIVIENDA\"]" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Algunos otros comandos que probablemente sean útiles, y quieran reutilizar en distintas formas:" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "df.ESTU_GENERO.unique()" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "df.ESTU_GENERO.hasnans" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "df.ESTU_GENERO.isnull().sum()" + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "Python 3", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.8.5" + } + }, + "nbformat": 4, + "nbformat_minor": 4 +}