En este video te presentamos las principales estadísticas descriptivas agrupadas en tres categorías: medidas de tendencia central medidas de variabilidad y medidas de posición. Además, veremos cómo se calculan y cómo se interpretan. Su objetivo es describir un conjunto de datos sin necesariamente producir conclusiones o realizar inferencias acerca de la población a la que pertenecen estos datos. Un análisis descriptivo se puede realizar de forma gráfica o numérica. Esta última, a través de medidas que resumen la muestra, objetivo de este video. Al realizar un análisis descriptivo de una muestra aleatoria, es importante tener en cuenta cuáles son las escalas de medición de cada una de las variables que tenemos disponibles en la muestra, ya que no todas las estadísticas aplican para todo tipo de variables. Antes de continuar, queremos que tengan clara cuál es la diferencia entre realizar estadística descriptiva y realizar estadística inferencial. La estadística descriptiva se encarga de resumir de forma cuantitativa, los valores de una muestra aleatoria a través de unas mediciones que llamamos estadísticas. La estadística inferencial utiliza métodos como construcción de intervalos de confianza o evaluación de pruebas de hipótesis, a través de las cuales se puede realizar inferencias acerca de las características de una población a partir de los datos de una muestra aleatoria. Al realizar un análisis estadístico, es necesario precisar cuál es la variable aleatoria para la cual queremos realizar ese análisis. En una muestra aleatoria podemos tener diferentes características para analizar. Cada una de ellas las denotamos a través de variables como: "X", "Y", "Z", "W", entre otros. Una vez que decidimos cuál es la variable para la cual queremos realizar el análisis, lo que hacemos es tomar una muestra aleatoria, en la cual obtenemos valores específicos para cada uno de los elementos de esta muestra, los cuales se convierten en la evidencia. Es esta evidencia a través de la cual nosotros aplicamos una serie de fórmulas que llamamos "estadísticas" y obtenemos valores puntuales de la muestra. Ya veremos más adelante qué significan cada una de estas fórmulas. Una estadística no es más que una medida numérica que se calcula a partir de los datos de la muestra, cuyo valor se conoce una vez que especificamos los valores de la muestra aleatoria, y este valor puede cambiar si nosotros tenemos muestras con valores diferentes. Este valor de la estadística varía de una muestra a otra. Para finalizar, es importante formalizar qué significa una estadística, y no es más que una función de las variables aleatorias; "X1", "X2", "X3", hasta "Xn", es decir, una función de la muestra aleatoria. Recordemos que es importante identificar cuál es la escala de medición de la variable que estamos analizando. En la tabla que tenemos en la pantalla, podemos diferenciar los tipos de variables. De forma ilustrativa, mencionamos algunos elementos que pueden serles útiles para diferenciar estas variables y, además, es importante mencionar que no todas las estadísticas aplican a todos los tipos de variables. Por ejemplo, si estamos analizando el color de los ojos y es una variable que hemos categorizado, asignándole uno, dos, tres o cuatro, al color de los ojos específicos, entonces, si nosotros calculamos la media de esta variable, su resultado no sería interpretable, no tendría validez. En este caso, una medida como la media no tendría sentido, pero una medida como la moda, sí lo tendría. Las estadísticas descriptivas podemos agruparlas en tres categorías: medidas de tendencia central, medidas de variabilidad y medidas de posición. Veremos a continuación cómo calcularlos y cómo interpretar cada uno de estos valores. En la pantalla tenemos las medidas de tendencia central: media, mediana y moda; la definición de cada una de ellas y unos datos. A partir de estos datos, vamos a ejemplificar la forma de calcular e interpretar cada una de estas medidas. Para calcular la media, necesitamos tomar los datos de la muestra aleatoria, "X1", "X2", "X3", hasta "Xn", en este caso ocho datos, sumarlos, dividir en el tamaño de la muestra que en este caso es ocho y encontrar que la media de esta variable corresponde a 12,24. Si ahora queremos calcular la mediana, la mediana corresponde a el valor de mi variable hasta el cual se acumula al 50 por ciento de los datos. Eso, necesariamente implica que debamos organizar los datos de menor a mayor, tal como aparecen en la pantalla. Una vez organizados, debemos identificar cuál es el dato de la mitad. Como tenemos ocho datos, la posición cuatro y cinco corresponden a los valores de la mitad, tal como se presenta en el círculo naranja. Tomando estos datos y dividiendo en dos, encontramos el valor de la mediana, 10,55. ¿Qué significa? Que 50 por ciento de los datos de esta variable o esta muestra aleatoria, se encuentran o son menores o iguales a 10,55. Implícitamente, el 50 por ciento son mayores a 10,55. Calculemos, para finalizar, la moda. Si revisamos los datos, la moda implica identificar cuál es el valor que tiene la mayor frecuencia. En nuestro caso no tenemos una moda identificada, ya que ninguno de los datos se repite más de una vez. Ahora bien, es posible que en una muestra aleatoria no exista moda, pero también es posible que en una muestra aleatoria tengamos varias modas, si hay varios valores que tienen la frecuencia igual y más alta posible dentro de todos nuestros datos. Para finalizar, queremos mostrar tres gráficas, que aparecen en la parte inferior de la pantalla, donde tenemos una distribución o unos datos graficados, los cuales se comportan de forma simétrica, y allí es posible ver que la media, la mediana y la moda tienen exactamente el mismo valor. ¿Qué pasa si nuestros datos no son simétricos y se encuentran sesgados, bien sea al lado positivo o al lado negativo, como son las dos siguientes gráficas? La media, la mediana y la moda tienen valores diferentes. Es importante reconocer que estas tres medidas tienen una interpretación particular, que la mediana no se deja afectar por valores extremos de la muestra, ya que no los utiliza de forma explícita para su cálculo, pero sí ocurre esta afectación si tengo valores extremos en mi muestra en el cálculo de la media. Hablemos ahora de las medidas de variabilidad. En nuestro caso, vamos a hablar de varianza muestral, desviación estándar muestral y coeficiente de variabilidad. Estas medidas reflejan el grado de dispersión de los datos con respecto a su media. Para empezar, calculamos el valor de la varianza muestral. Si tenemos los siguientes datos, ¿cómo calculamos la varianza? Lo primero que debemos hacer es calcular el valor del promedio de estos datos, que corresponde a 12,24. Ahora, tal como indica la fórmula, debemos restar cada uno de los valores de "X", menos el valor del promedio, lo cual aparece en la segunda columna. La última columna corresponde a las diferencias elevadas al cuadrado, cuya sumatoria corresponde a 121,52. Al dividir estas sumatorias, en "n" menos uno, que en nuestro caso corresponde a siete datos, obtendremos el valor de la varianza muestral que es de 17,36 unidades al cuadrado. A partir de este resultado, podemos encontrar la desviación muestral, la cual se calcula simplemente hallando la raíz de la varianza. Haciendo el ejercicio, encontramos que la desviación estándar muestral de los datos disponibles corresponde a 4,17. La desviación estándar tiene unidades iguales a las de la variable que estamos analizando, así que, la medida de dispersión que podemos fácilmente interpretar corresponde a la desviación estándar. Para finalizar, cuando hablamos del coeficiente de variabilidad, hablamos de un coeficiente adimensional que nos permite comparar el comportamiento en términos de variabilidad de diferentes poblaciones. Vamos a hacer uso de este coeficiente en el ejercicio más adelante. ¿Cómo lo calculamos? Desviación estándar sobre promedio. Con base en los datos que tenemos aquí en la pantalla disponibles, obtenemos que el porcentaje de variabilidad relativa corresponde a 0,34 o 34 por ciento. En la gráfica que acaba de aparecer en la pantalla tenemos representadas dos variables aleatorias o dos grupos de datos, uno para la variable aleatoria "X" y otro para la variable aleatoria "Y". En ella podemos ver que las dos variables aleatorias tienen la misma media, sin embargo, la dispersión de los datos de las dos variables es diferente. La variable aleatoria "Y", que es la variable que se encuentra más plana, tiene un rango más amplio, lo cual indica una mayor variabilidad. Ahora bien, queremos realizar el cálculo de algunas estadísticas descriptivas, pero aplicados a un caso real. En esta oportunidad, vamos a tomar los resultados de una encuesta realizada en la Universidad de los Andes, a 500 estudiantes de la Facultad de Ingeniería, donde identificamos el género de cada una de las personas que realizaron esta encuesta, la ingeniería que estudian, el deporte que practican y la dedicación semanal en horas a cada uno de los deportes que mencionaron. Para analizar esta información vamos a hacernos cuatro preguntas que aparecen en la pantalla y vamos a irlas resolviendo una a una. Para empezar, queremos calcular, en promedio, cuántas horas semanales dedican a la práctica de actividad física los estudiantes de ingeniería. Vamos a comparar la media calculada con las otras medidas de tendencia central. ¿Cuál es la variable para la cual necesitamos realizar el análisis descriptivo? La dedicación semanal en horas. Este análisis podemos hacerlo rápidamente a través de dos herramientas, pueden utilizar Excel a través de la ruta "datos", análisis de datos y el menú "estadística descriptiva" o a través de las fórmulas o funciones de Excel: promedio, mediana y moda. Recuerden que, dependiendo de la versión de Excel que tengan instalada o la configuración de idioma, estas funciones pueden cambiar. Calculados estos datos, encontramos que, en promedio, los estudiantes de ingeniería de la muestra dada, dedican a la semana 5,87 horas a la realización de deporte. Con la mediana, lo que tenemos es que el 50 por ciento de los datos, es decir, el 50 por ciento de los estudiantes, dedican a la semana seis horas o menos a la realización de un deporte. La moda implica que el número de horas de dedicación semanal con mayor frecuencia en los estudiantes de ingeniería de la muestra que nos dieron es de seis horas. Vean que todas las medidas de tendencia central tienen las mismas unidades de la variable que estamos analizando. Veamos ahora la segunda pregunta. Nos piden calcular las medidas de variabilidad del tiempo dedicado semanalmente a la práctica de actividad física por parte de los estudiantes de ingeniería. Tomando los datos, los cuales se presentan parcialmente en la pantalla, y habiendo identificado la variable para la cual queremos realizar el análisis, podemos utilizar las funciones de Excel o las rutas que aparecen en la pantalla. Una vez utilizadas, encontramos que la desviación estándar muestral es de 2,42 horas, recuerden que las unidades son iguales a las de la variable; la varianza corresponde a 5,84 horas al cuadrado; el rango, que corresponde a la resta entre el máximo y el mínimo valor, es de 13 y el coeficiente de variabilidad calculado es de 0,41. Recuerden que este coeficiente no tiene dimensiones. ¿Cuál es la interpretación de esta desviación estándar? En promedio la variabilidad alrededor de la media del número de horas de dedicación semanal a la práctica de actividad física por parte de los estudiantes de ingeniería es de 2,42 horas. Hablemos ahora del coeficiente de variabilidad. En esta oportunidad, debemos calcular cuál es el coeficiente de variabilidad para el tiempo dedicado semanalmente a la práctica de actividad física por parte de los estudiantes que practican fútbol y de quienes practican yoga. Para esto, debemos clasificar nuestros datos de acuerdo con el deporte que practican las 500 personas dadas en la muestra, calcular para cada uno de estos grupos el promedio de dedicación semanal en horas, así como la desviación estándar de la dedicación semanal en horas. A partir de estas dos mediciones, podemos, entonces, calcular el coeficiente de variabilidad, como aparece en la última columna de la tabla. Hemos señalado, los estudiantes que practican fútbol y que practican yoga. Si utilizamos simplemente la desviación estándar para comparar la variabilidad del tiempo dedicado a la práctica de deporte en estos dos grupos, vemos que la diferencia no es mucho. Podríamos decir que la variabilidad es similar en los dos grupos de estudiantes. Sin embargo, si calculamos el coeficiente de variabilidad que corresponde a 0,39 y 0,78 respectivamente, vemos que se hace notoria la diferencia en términos de variabilidad de estos dos grupos. Así que, a partir del coeficiente de variabilidad podemos comparar de una forma más adecuada variables que tengan diferentes magnitudes o variables que tengan diferentes unidades. Hablemos ahora de las medidas de posición. En este caso, vamos a hablar específicamente de los percentiles. Esto implica que nuestros datos de la muestra aleatoria se dividen en 100 partes. Los percentiles corresponden a valores hasta los cuales se acumula un "X" por ciento de los datos de la muestra aleatoria y requiere que los datos se encuentren ordenados de menor a mayor. Nuestro fin, en esta oportunidad, es calcular el percentil del 50 por ciento y el percentil del 90 por ciento para el tiempo dedicado a la semana a la práctica de actividad física por parte de los estudiantes de ingeniería. Teniendo nuestros datos, los cuales ya se encuentran ordenados e identificada la posición de cada uno de ellos, podemos hacer el cálculo de cada uno de los dos percentiles solicitamos. Para empezar, el percentil del 50 por ciento corresponde a identificar cuál es el valor hacia el cual se acumula al 50 por ciento de los estudiantes. Entonces, tomamos los valores 250 y 251, que corresponden a los valores exactos de la mitad de nuestros datos, y vemos que el percentil del 50 por ciento corresponde a un valor de seis. Para la interpretación, el 50 por ciento de los estudiantes de ingeniería anotados en la muestra dedican seis o menos horas a la práctica de actividad física. Ahora bien, calculemos el percentil del 90 por ciento. Recuerden que el 90 por ciento corresponde a el valor o la ubicación 450, tenemos 500 autos, el 90 por ciento de nuestros datos corresponde a 450, es decir, que la posición 450 me indica, con los datos ordenados, cuál es el percentil del 90 por ciento. La interpretación es: el 90 por ciento de los estudiantes de ingeniería dedican nueve o menos horas a la práctica de actividad física. En Excel, pueden hacer uso de la función "percentil", seleccionando los datos e identificando cuál es el porcentaje de datos asociados al percentil que quieren calcular, tal como aparecen en la pantalla. Para finalizar, queremos mostrarles de forma gráfica el cálculo de los percentiles. Del listado que tenemos en la pantalla, tenemos las frecuencias para cada uno de los valores de nuestra variable y las frecuencias en un porcentaje acumulado. Recuerden que los percentiles corresponden a los valores de la variable hasta el cual se acumula cierto porcentaje de datos. Verifiquemos el percentil del 50 por ciento que corresponde a seis. Si lo ven en la pantalla tenemos que, hasta el valor de seis, tenemos acumulado el 62 por ciento de los datos. ¿Por qué identificamos que el percentil del 50 por ciento era también seis? Eso implica, tal como le pueden ver en la parte izquierda de la pantalla donde tenemos los datos, que seis se repite varias veces. Entonces, la posición, 250, 251, 252, 54, 55 en adelante tienen el valor de seis. Esto implica que el percentil del 50 por ciento del 51, 52, 53 hasta el percentil del 62,8 por ciento corresponde al valor de seis. A través de los percentiles, también podemos ver los datos, si se encuentran o no acumulados alrededor de cierto valor. Lo mismo ocurre con el percentil del 90 por ciento, que corresponde al valor de nueve. En frecuencia acumulada, tenemos que el 90 por ciento de nuestros estudiantes de ingeniería tienen un valor de dedicación semanal a la actividad física menor o igual a nueve horas.