Cuando un parámetro característico de una variable aleatoria es desconocido (por ejemplo, su media), la estadística aporta una potente herramienta para estimar el valor del parámetro: la teoría de muestras. El objetivo de este tema es introducir el concepto y los tipos de muestreo, la distribución de las nuevas variables que surgen y aplicarlo a la inferencia estadística. La inferencia estadística (sacar conclusiones sobre un todo a partir de lo observado en una parte), se inicia con Geroge Gallup (1901 – 1984) cuando, estando en una granja, metió la mano en un saco con granos y contó 42 blancos y 20 negros.
Realizó este experimento varias veces y encontró que la proporción de granos siempre era muy parecida. En realidad los sacos contenían granos en una proporción de dos a uno. Gallup concluyó que si una muestra representa a un todo, lo reproducirá siempre. Descubrió el método de muestreo. Para visualizarlo mejor, hay que suponer que se quiere estimar cuántos peces N, hay en un lago.
Para ello, se lanza una red y se capturan M = 15 peces, los cuales se marcan para poder reconocerlos más adelante. Se libera a los peces, dejando que se muevan libremente por el lago y de nuevo se lanza la red. Se comprueba que de los C = 20 peces capturados, R = 3 están marcados. La teoría del muestreo se basa en suponer que la proporción de peces marcados en la primera captura es la misma que en la segunda. En este caso, se dirá que N = 100 es una estimación de N. Generalmente se utiliza el acento circunflejo ˆ para distinguir cuándo se está haciendo referencia a la estimación N, y cuándo al parámetro, N.
Inferencia estadística
Este mismo concepto se puede utilizar para estimar los parámetros que definen la distribución de una variable aleatoria. En el siguiente cuadro se plantean dos distribuciones ya conocidas, para las cuales se pretende estimar el valor de sus parámetros característicos. En cualquiera de los problemas planteados, la metodología consiste en obtener una muestra.
En el primer caso, cronometrar el tiempo de embarque en varios vuelos nacionales del aeropuerto y, en el segundo, contabilizar la proporción de compradores durante varios días. Con los datos de la muestra, se obtienen valores estimados, µˆ y ˆp, de los verdaderos valores µ y p, respectivamente. Como no es posible estudiar todos los vuelos o todos los días (población o universo), se eligen unos cuantos, (muestra), por ejemplo n = 50 (tamaño de la muestra) y se utilizan los datos de la muestra para estimar o inferir el valor del parámetro correspondiente.
¿Por qué estudiar una muestra en vez de la población completa?
- Las pruebas podrían ser destructivas. Cada vez que se realiza el experimento se destruye el objeto bajo a estudio.
- Para estudiar el tiempo de vida de una bombilla hay que esperar a que se funda.
- Para estudiar la fatiga de una pieza hay que esperar a que se rompa.
- El tamaño de la población puede ser demasiado grande e incluso, infinito.
- Para medir la longitud de un tornillo en un proceso de fabricación, habría que estudiar todos los tornillos que se fabrican.
- Para estudiar la proporción de pasajeros que eligen menú vegetariano, habría que estudiar a todos los pasajeros de todos los vuelos.
La inferencia estadística pretende extraer conclusiones sobre las propiedades de la población. Para ello, se deben cumplir dos requisitos.
- La muestra debe ser representativa de toda la población:
- En los estudios sobre hábitos de consumo es habitual encontrar muestras estratificadas en las que se reproducen las proporciones de las diferentes categorías o estratos que se consideren relevantes para el estudio: edad, sexo, zona geográfica, nivel de estudios, etc.
- Para realizar un estudio sobre preferencias de consumo, si en la población hay un 40 % de mujeres, en la muestra debería haber también aproximadamente un 40 % de mujeres.
- La muestra debe ser suficientemente grande para que los resultados sean fiables:
- Cuanto mayor sea el tamaño de la muestra, más precisa será la estimación del parámetro. Sin embargo, en la práctica, el número de elementos de la muestra dependerá de factores como el grado de confianza requerida, etc.
- Si se pone atención a la ficha técnica de una encuesta típica sobre intención de voto, se puede ver que, por ejemplo, para un universo de unos 30 000 000 potenciales votantes, se ha encuestado a 5000 personas.
Muestra aleatoria simple
Una forma de asegurar que la muestra sea representativa de la población, consiste en seleccionar a sus elementos de manera aleatoria, de forma que cada individuo tenga la misma probabilidad de ser elegido. Este tipo de muestra se llama muestra aleatoria simple (m.a.s.) y garantiza que cada extracción (selección del elemento) se realice de manera independiente y en las mismas condiciones. Una forma de seleccionar una muestra aleatoria simple consiste en seguir los siguientes pasos:
- Numerar de 1 a N los elementos de la población.
- Elegir el tamaño de la muestra, n, y utilizar una tabla o un generador de números aleatorios para crear una lista de n números, {r1, r2,…, rn}.
- La muestra estará formada por los elementos de la población cuya numeración coincide con la de la lista. De manera genérica, se notará la muestra por {x1, x2,…, xn}, donde el elemento xk es el elemento rk-ésimo de la población.
A lo largo de todo el módulo se supondrá que la muestra de trabajo es una muestra aleatoria simple.
Estimación paramétrica
No hay que perder de vista que la intención de la inferencia es estimar el valor de un parámetro de una población. La población está representada por una variable aleatoria que sigue una distribución. Una vez que se ha extraído una muestra de tamaño n, formada por los elementos {x1, x2,…, xn}, se utilizarán esos valores para estimar el parámetro µ o p, dependiendo del experimento que se esté estudiando. Es necesario introducir dos conceptos muy importantes:
- Estimación
- Estimador
Estos conceptos se ilustrarán a través de un ejemplo. Hay que suponer que se quiere estimar el tiempo medio de descarga de un videojuego. Se tienen los siguientes aspectos:
- Variable aleatoria (población) y su distribución: X = tiempo, en segundos (s), que tarda un videojuego en descargarse → X ≡ N (µ, σ)
- Parámetro de la población a estimar: µ= tiempo medio, en segundos, que tarda un videojuego en descargarse.
- Muestra: se ha realizado un experimento de descarga del videojuego en n ordenadores y se han obtenido los datos {x1, x2,…, xn}, donde: xk = tiempo que ha tardado en descargarse el videojuego en el ordenador k-ésimo seleccionado
- Estimación: se utilizará el tiempo medio de descarga de la muestra x, para estimar el tiempo medio de descarga de la población µ.
- Estimador: si dentro de una semana se repite el experimento de elegir 5 ordenadores para realizar la descarga, o incluso, si se eligen los mismos 5 ordenadores; debido a los efectos del azar que surgen cada vez que se realiza una descarga (que es lo que hace que el experimento sea aleatorio), los resultados serán parecidos pero no exactamente los mismos.
El desarrollo optimizado de las ciencias de datos
En la actualidad, las bases de datos juegan un papel crucial en el desarrollo de las actividades diarias. Desde mercadeo hasta el posicionamiento en la Bolsa, muchos de los factores de nuestro día a día se construyen con información organizada. Este boom de la información abre nuevos campos a diferentes perfiles profesionales, como lo es el caso de la informática.
TECH Universidad Tecnológica se centra en la educación de alta calidad enfocada en la excelencia. Por esta razón, en su Facultad de Informática es común encontrar posgrados como el Máster en Industria 4.0 y Transformación Digital y el Máster en Ingeniería de Software y Sistemas de Información. Sin embargo, para aquellos profesionales que buscan dominar el campo de la data y su aplicación, no cabe duda que su mejor elección será el Máster en Visual Analytics & Big Data.