Es necesario repasar algunos conceptos que van a ser esenciales antes de comprender como funcionan los intervalos de confianza. Hay que suponer que se quiere estudiar cuál es el tiempo medio de vuelo entre dos ciudades A y B. Teniendo en cuenta que cada vez que se realiza un vuelo el tiempo invertido es distinto y las variaciones se deben al azar, es decir, se distribuyen según una distribución de probabilidad.
Hay que recordar que una estimación es un número, resultado de operar con los datos de la muestra particular que se ha obtenido. Un estimador es una V.A. que define, de forma genérica, la operación entre las variables aleatorias de la muestra. Cada V.A. de la muestra Xk, sigue la misma distribución que la V.A. de la población X. La distribución del estimador depende de su expresión matemática (operaciones realizadas) y de la distribución de la población. En cualquier caso, el estimador sigue una distribución de probabilidad y, por tanto, tiene un valor medio, una varianza y una desviación típica.
Características de un estimador
De forma general, dada una población X, y un parámetro poblacional θ desconocido, se llama Θ al estimador y θ a la estimación de θ, respectivamente. Para saber si un estimador es insesgado o para calcular su error estándar, es necesario, en la mayoría de los casos, conocer su distribución. En el tema anterior se ha estudiado la distribución de los estimadores habituales: la media muestral (x), la varianza muestral (S2) y la proporción muestral (Pˆ). En esta ocasión se verán las características de dichos estimadores.
Estimador media muestral
Es posible preguntar si es importante que un estimador sea insesgado. La media de una V.A. es el valor que se espera obtener si se realiza el experimento una vez. Por supuesto, no significa que vaya a salir justo ese valor, sino que ese es el valor que se espera obtener. Por ejemplo, si el tiempo de vuelo, en minutos, entre las ciudades A y B sigue una distribución N (120, 40), es lógico pensar que si se procede un vuelo de A a B, se tardará unos 120 minutos (pues µ = 120). Probablemente, no serán 120 minutos exactos, pero sí aproximadamente.
Si se hacen 50 de esos vuelos y se calcula la media de los tiempos invertidos en cada uno de ellos, x, ese valor medio será aproximadamente 120 (pues µx = µ = 120). Si la media muestral no fuera insesgada, es decir, si por ejemplo, fuera µx = µ + µ / n, entonces, el valor esperado de x sería 122,4 (pues µ + µ / n = 122,4). Por tanto, x no sería útil para estimar el valor de µ, porque siempre se estaría obteniendo un valor estimado mayor que el verdadero valor de µ. Como la media muestral es insesgada, es posible preguntarse para qué se necesita una muestra.
Si, siguiendo con el ejemplo anterior, en un vuelo se espera tardar 120 minutos, basta con actuar el experimento una vez. No es necesario hacerlo 50 veces. La respuesta está en el error estándar del estimador. Si se observa un vuelo, el tiempo invertido será un valor de la V.A. X1≡N (120,40), mientras que la media de 50 vuelos es un valor de la V.A. x ≡ N (120, 5,66). En el primer caso, la desviación típica es σ = 40 y en el segundo es σ/√n = 5,66.
Tasa de error
La desviación típica mide la dispersión de los datos en torno a la media. Si la dispersión es pequeña es porque la mayoría de los datos no se alejan mucho del valor medio. Por tanto, cuanto más pequeña sea la dispersión, más difícil es encontrar un dato que se aleje del valor central. En resumen, si se observa un vuelo (dispersión σ = 40) es relativamente fácil que salga un tiempo alejado del valor central µ, sin embargo, si se calcula la media de 50 vuelos (dispersión σ/√n = 5,66), es muy difícil que salga un valor alejado del valor central µ. Por tanto, cuanto más grande sea la muestra, mayor será la precisión de la estimación, pues el cociente σ/√n disminuye a medida que aumenta n.
Estimación por intervalo de confianza
Ya es sabido que un estimador, Θ, es una V.A. que se utiliza para estimar el valor de un parámetro θ, de la población. Es posible pensar en dos tipos de estimación:
- Estimación puntual: asigna un valor numérico concreto al parámetro poblacional.
- Dada una muestra {x1,…, xn}, se utiliza el valor estimado en la muestra, y θ.
- Estimación por intervalo de confianza: proporciona un intervalo en el que está contenido el valor de θ y una idea del error de la estimación (confianza).
- Dada una muestra {x1,…, xn} usa un estimador, su distribución y el valor estimado en la muestra para dar un intervalo de confianza. Aunque la metodología para obtener un intervalo de confianza es la misma para cualquier parámetro poblacional, ahora se verá cómo se obtiene para cada uno de los parámetros más habituales de la estadística.
En cualquier caso, hay que dejar claro que, para obtener una estimación puntual, basta con conocer un estimador del parámetro poblacional. Sin embargo, para obtener un intervalo de confianza se necesita, además, conocer la distribución del estimador. La distribución de los estimadores media, varianza y proporción muestrales, se estudiaron en el tema anterior.
Intervalo de confianza de la media poblacional
Se tiene una población X ≡ A (µ, σ) que sigue una distribución arbitraria que podría ser normal, y se quiere estimar la media poblacional, µ. Según cómo sea la distribución de la población (normal o no normal), el parámetro σ (conocido o desconocido) y el tamaño de la muestra (mayor o menor que 30), la media muestral puede seguir distintas distribuciones. En primer lugar, se verá el caso más sencillo, el cual se usará para introducir los conceptos básicos de un intervalo de confianza.
Bases de datos desde el profesional
El dominio de la información, su análisis y adecuada implementación es un proceso extenso y complejo que parte desde el profesional. Esta figura debe contar con el conocimiento para realizar diversas tareas en su campo, ya que es el responsable de la gestión adecuada de los datos. Por ello, siempre debe estar al tanto de las últimas tendencias, teniendo en cuenta que las herramientas aquí están en constante cambio.
TECH Universidad Tecnológica se ha centrado en el desarrollo de los profesionales basado en sus necesidades. Por ello, cada uno de los programas de su portafolio está diseñado cuidadosamente por un equipo de expertos que buscan la educación completa e íntegra, Caso ejemplo de ello es su Facultad de Informática, donde se desarrollan programas como el Máster en Industria 4.0 y Transformación Digital y el Máster en Ingeniería de Software y Sistemas de Información. A pesar de ser excelentes opciones para complementar su educación base, no cabe duda que su mejor elección para dominar la data y su gestión es el Máster en Visual Analytics & Big Data.