• 12/05/2022
  • Kusarive
  • 0

Se introducirá el concepto de contrastes de hipótesis a través de un ejemplo. Hay que suponer que se tiene una fábrica que produce ejes, con un diámetro que sigue una distribución normal, X = diámetro, en cm, de un eje → X ≡ N (µ = 25, σ = 4) Por alguna razón imprevista, se produce un desajuste en la máquina y se detecta una gran cantidad de ejes con un diámetro mucho mayor que 25 cm. Un operario ajusta la máquina y se debe comprobar si la producción sigue siendo la habitual o todavía hay una desviación en la media de los diámetros de los ejes hacia valores mayores que 25 cm. Se plantean dos hipótesis: H0: µ = 25 cm → La producción se ha ajustado perfectamente. H1: µ > 25 cm → La producción sigue desajustada.

Se va a utilizar la muestra y su distribución para tomar una decisión sobre las dos hipótesis. Hay que recordar que, si se supone que la varianza no ha cambiado (algo usual cuando se produce un desajuste en un proceso de producción), la V.A. media muestral sigue una distribución: x = media de los diámetros de una muestra → x ≡ N (µ, σ / √n ) Así, si H0 es cierta, entonces x ≡ N (25, 0,89).

Resultados

Después de realizar el experimento, hay que suponer que se está en alguna de las siguientes situaciones:

  • Situación 1: x = 26,50. El valor de la media muestral que ha salido está bastante alejado de lo que debería salir (≈25 cm), por lo que es razonable pensar que en realidad H0 no es cierta. Sin embargo, H1 sí lo es. Es decir, el valor de la muestra concuerda mejor con la hipótesis H1 que con H0.
  • Situación 2: x = 25,90. El valor de la media muestral que ha salido no está muy alejado de lo que debería salir (≈25 cm), por lo que no está claro con cuál de las dos hipótesis concuerda mejor.
  • Situación 3: x = 25,40. En este caso, es posible suponer que aunque no ha salido exactamente 25 cm, el valor de x es suficientemente próximo como para deducir que la diferencia se debe a las pequeñas variaciones aleatorias propias del muestreo. Es manifestar, con este resultado no se tienen motivos para creer que H0 es falsa.

Como se puede comprobar con esta simulación, la cuestión está en dónde se pone el límite al valor de x para poder inclinarse por H0 o H1. Lo que se ha planteado es un contraste de hipótesis y se van a utilizar herramientas estadísticas para resolverlo. Si se calcula la probabilidad para cada una de las muestras, suponiendo siempre que H0 es cierta, es decir, suponiendo que x ≡ N (25, 0,89), se tienen las probabilidades de la siguiente figura.

Contraste de hipótesis

La metodología para realizar un contraste de hipótesis sobre un parámetro poblacional θ , es la siguiente:

  1. Definir las hipótesis nula H0 y alternativa H1.
  2. Considerar un estimador Θ, del parámetro θ, que permita medir si existe discrepancia entre los datos muestrales y la hipótesis H0.
  3. Extraer una muestra, calcular el valor del estimador en la muestra, según la magnitud de la discrepancia entre: – Si la discrepancia es estadísticamente significativa, se rechaza H0 en favor de H1. La evidencia de una muestra que es inconsistente con la hipótesis planteada conduce a un rechazo de la misma. El rechazo de una hipótesis se ejecuta porque la evidencia de la muestra la refuta.
    • Si la discrepancia no es estadísticamente significativa, no se rechaza H0. La evidencia de una muestra que no es inconsistente con la hipótesis planteada, conduce a un no rechazo de la misma. La aceptación de una hipótesis se actúa porque los datos no proporcionan evidencia suficiente para rechazarla.

Hay dos estrategias para tomar una decisión sobre las hipótesis:

  1. Cálculo de la región crítica.
  2. Cálculo del valor-p.

Región crítica de un contraste

Dado un contraste de hipótesis sobre un parámetro θ , y un valor estimado con la muestra θ, se divide la recta real en dos regiones, E = RC ∪ RA, de forma tal que:

  • RC es la región crítica: si el valor muestral pertenece a RC , es decir si θ ∈ RC, entonces se rechaza la hipótesis nula en favor de la alternativa.
  • RA es la región de aceptación: si el valor muestral pertenece a RA, es manifestar si θ ∈ RA, entonces no se rechaza la hipótesis nula.

El cálculo de la región crítica depende del tipo de contraste que se está realizando: lateral por la derecha, lateral por la izquierda o bilateral. A continuación se verá cómo se obtiene la región crítica, en el caso de un contraste de hipótesis sobre la media poblacional µ, en el escenario sencillo de que la media muestral siga una distribución normal. La metodología es la misma para el resto de parámetros, cambiando la distribución del estimador de forma adecuada.

Contraste unilateral por la derecha

¿Por qué la región crítica de un contraste unilateral por la derecha se encuentra a la derecha de µ0? Como ya se ha visto en la introducción, la razón para rechazar H0 en favor de H1 es que x tome un valor incompatible con H0 pero compatible con H1. Es decir, para rechazar H0 en favor de H1 debe ocurrir que x sea mucho más grande que µ0 (que esté muy a su derecha).

El límite de la región crítica A, define el punto a partir del cual se decide que la discrepancia entre x y µ0 es estadísticamente significativa. El nivel de significación a, es una cantidad pequeña (no mayor de 0,10), que define cuán grande se pretende que sea la región crítica. Fijados el tamaño de la muestra n, y el nivel de significación a, se obtiene A.

Tipos de error

Siempre que se realiza un contraste de hipótesis, se toma una decisión: se rechaza o no se rechaza la hipótesis nula. En cualquier caso, se está tomando una decisión con base en el resultado de una muestra. Aunque se supone que es una muestra aleatoria simple y, por tanto, cumple todas las condiciones impuestas por la estadística, puede ocurrir que en la muestra haya elementos que distorsionen el resultado.

Es decir, que en la muestra haya valores de los extremos de la distribución y eso lleve a rechazar una hipótesis cuando en realidad es cierta, o aceptarla cuando en realidad es falsa. En resumen, cuando se toma una decisión en un contraste de hipótesis, nunca se sabe con certeza si la decisión es correcta o no, sino que solo es posible saber si la estadística la avala o no. A continuación se presenta una tabla con los errores y aciertos que se pueden “cometer” cuando se realiza un contraste de hipótesis.

Gestión de datos optimizada

Dentro de las múltiples aplicaciones del conocimiento que tiene un profesional en el campo de la informática, la gestión de datos es una de las más solicitadas. Por esta razón, este área debe contar con profesionales que cuenten con amplios conocimientos en ello. Sin embargo, alcanzar este punto no siempre resulta sencillo de forma autónoma, y por esto aparece la especialización académica como la mejor opción.

TECH Universidad Tecnológica se ha posicionado actualmente como la mayor universidad virtual del mundo. Esto ha permitido que cada día crezca más y aumente su portafolio a diversos campos profesionales. En el caso de su Facultad de Informática se desarrollan posgrados como el Máster en Industria 4.0 y Transformación Digital y el Máster en Ingeniería de Software y Sistemas de Información. Por otra parte, para aquellos profesionales que buscan dominar el campo de la data y su adecuada gestión, la mejor opción para complementar su educación será el Máster en Visual Analytics & Big Data.