Los conceptos básicos de estadística

Índice

Estadística

Es una colección de métodos para planear experimentos, obtener datos y luego organizar, resumir, presentar, analizar, interpretar y llegar a conclusiones con base en esos datos.

Población

Es la colección completa de todos los elementos que se van a estudiar.

Muestra

Es un subconjunto de elementos extraído de una población.

Medida de Tendencia Central

Es un valor que está en el centro o punto medio de un conjunto de datos. También se dice que son valores alrededor de los cuales los datos tienden a agruparse.

Media Aritmética

Es el valor que se obtiene sumando los puntajes y dividiendo el total entre el número de puntajes. Esta medida de tendencia central se usa continuamente, y se le llama simplemente media. Se usa para variables de tipo escalar.

Mediana

Es un conjunto de puntajes es el valor que está en medio, cuando los puntajes se acomodan en orden de magnitud creciente (o decreciente). Si el número de puntajes es par, la mediana se obtiene calculando la media de los dos números que están a la mitad. Se usa para variables de tipo ordinal.

Moda

Es un conjunto de datos es el puntaje que ocurre con más frecuencia. Si hay dos puntajes que tienen la misma frecuencia y esta frecuencia es la más alta, los dos puntajes son modas y se dice que el conjunto de datos es bimodal. Se usa para variables de tipo nominal.

Aplicación de las medidas de tendencia central

Para ayudarte a entender la utilidad de las medidas de tendencia central utilizaremos un ejemplo. Cuando recibes las calificaciones definitivas obtenidas en cierto período escolar, éstas normalmente no son todas iguales. Supongamos que tus resultados fueron: 10, 7, 8 y 9. Si calculamos la media (tu promedio) obtendremos un 8.5. Con ese dato pueden describir tu rendimiento escolar. Lo usan como si hubieras tenido un 8.5 en cada una de las cuatro materias y de esa forma te permite describir resumidamente el comportamiento de todas las materias. Si algún compañero o compañera tuya hubiera obtenido: 7.5, 7.5, 8.5 y 8.5 sería difícil hacer la comparación dato a dato porque aunque no tuvo una calificación tan alta como 10, tampoco tuvo una tan baja como 7. Si calculamos su promedio se obtiene un 8.0 que es un rendimiento más bajo que el tuyo. En ambos casos resumimos un conjunto de datos en un solo valor que nos permitió manejarlo más fácilmente. Observa que no influye que el valor obtenido como promedio no corresponde con ninguna de las calificaciones obtenidas.

Medidas de dispersión

La dispersión se refiere a la cantidad en que los puntajes varían entre sí, y puede medirse con números específicos. Los puntajes que están relativamente juntos tienen bajas medidas de dispersión, mientras que los que están más diseminados tienen medidas de dispersión más grandes.

Desviación estándar

Es una medida de la dispersión de los puntajes alrededor de la media de un conjunto de puntajes muestra.

Cuartiles

Así como la mediana divide los datos en dos partes iguales, hay una medida llamada cuartil que divide los datos en cuatro partes iguales. Mientras que para dividir los datos en dos sólo se requiere una mediana para dividirlos en cuatro se requieren tres cuartiles denotados por Q1, Q2 y Q3. Los puntajes deben clasificarse ordenándolos de menor a mayor. A grandes rasgos, Q1 separa el 25% inferior de los puntajes clasificados del 75% superior, Q2 es en realidad el mismo valor que la mediana y Q3 separa el 25% superior del 75% inferior.

Aplicación de las medidas de dispersión. Igual que con la aplicación de las medidas de tendencia central usaremos un ejemplo para entender su uso. Puedes elegir entre dos marcas de pilas para el funcionamiento de un aparato electrónico las veinticuatro horas del día. Para probar compras ocho pilas de cada marca y registras el tiempo de duración. En la siguiente tabla se muestra la duración en días:

Calculando el promedio de duración resulta que es de seis días para las dos. Calculando la desviación estándar obtenemos los valores 5.3 y 0.8 para A y B respectivamente. El valor de A es mucho mayor que el valor de B. Ordenemos los valores para analizar más fácilmente el comportamiento de cada una.

La duración de la marca A varía desde un día hasta dieciséis. En cambio, la marca B se mantiene entre los valores de cinco y siete, es decir, con una variación de un día con respecto al promedio. Si selecciono una pila A no sé cuánto va a durar (puede ser un día o dieciséis); si selecciono una pila B sé que va a durar 6 días aproximadamente (en el peor de los casos sería un día menos). Por el momento no vamos a considerar el asunto de la buena o mala calidad, lo importante por ahora es entender que las medidas de dispersión nos indican que tan cerca o lejos se encuentran los valores reales de la medida de tendencia central que trata de representarlos.

Gráficas

El objetivo de las gráficas es representar los datos de forma tal que podamos ver la naturaleza de la distribución.

Histogramas. Es uno de los recursos más común e importante para presentar datos, consiste en una escala horizontal para valores de los datos que se están representando, una escala vertical para las frecuencias, y barras que representan la frecuencia de cada clase de valores. Como ejemplo en la figura se muestra el histograma para las pilas de la marca B.

Distribución de datos sesgada. Si una distribución no es simétrica y se extiende más hacia un lado que hacia otro es sesgada. El histograma de la figura es simétrico.

Gráfica circular. Un gráfico circular muestra el tamaño proporcional de los elementos que conforman una serie de datos en función de la suma de los elementos, es decir, que porcentaje representa cada uno de los integrantes con respecto al todo. Siempre debe contener una única serie de datos para ser aplicable.

Gráficas de cuadro. Es una gráfica de datos que consiste en una línea que se extiende del puntaje más bajo hasta el más alto y un rectángulo con líneas trazadas en el primer cuartil Q1, la mediana y el tercer cuartil Q3. Estas gráficas son útiles para revelar la tendencia central, la dispersión de los datos, la distribución de los datos y la presencia de datos distantes (puntajes extremos).

Observa la siguiente gráfica de cuadro que contiene la información referente a ciertos datos. A cada cuartil se le asignó un número para poder identificarlos. Una error frecuente es pensar que el cuartil marcado con el número dos tiene una cantidad mayor de elementos que el cuartil marcado con el número tres, debido al mayor tamaño del primero. La causa probablemente sea que tratamos de usar el mismo criterio para la gráfica de caja que para las barras de un histograma. Sin embargo, debemos recordar que cada uno de los cuartiles contiene una cuarta parte de los datos. Esto quiere decir que 1, 2, 3 y 4 tienen la misma cantidad de datos.

¿Por qué es entonces diferente el tamaño de las áreas? Porque representan lo junto o separados que los datos se encuentran. En 2 y 3 hay la misma cantidad, pero en 3 los datos tienen valores muy cercanos entre sí y los datos permanecen muy juntos; mientras que en 2 los datos tienen valores muy diferentes entre sí y los datos están separados.