En este artículo se aborda el concepto de distribución bidimensional, para estudiar la relación estadística entre dos variables. Se hará énfasis en las variables bidimensionales como un vector de variables unidimensionales, de forma que se pueda trabajar, tanto con la distribución conjunta del vector, como con las distribuciones marginales de cada una de las variables unidimensionales, todo con objetivo en el análisis de la regresión.
En estadística es habitual intentar predecir el comportamiento de una variable Y, a partir del conocimiento del valor de otra variable X. Así, si la variable Y depende funcionalmente de X, es decir, si existe una función f, tal que Y = f (X), entonces se tienen dos objetivos:
- “Encontrar” la función f.
- Aplicar la fórmula para predecir el valor de y a partir de un valor de x, yp = f (xp).
Hay que suponer, por ejemplo, que las variables X y Y son, respectivamente, la velocidad en km/h y el consumo de combustible en litros. Los tres primeros aspectos del estudio quedan determinados cuando se calcula el coeficiente de correlación y el cuarto aspecto se estudia mediante el análisis de regresión.
De manera general, lo que se busca es, por tanto, dada una muestra, {(X1,Y1),(X2,Y2),…(Xn,Yn} de una variable bidimensional (X, Y), a través del gráfico de dispersión, plantear la forma de la relación, por ejemplo, y = f (x) = b0 + b1 x + b2 x2 y utilizar los datos de la muestra para calcular los valores de los coeficientes b0, b1 y b2 que mejor se ajustan a los datos. Una vez que se tiene la curva de ajuste, es posible usar la expresión de f (x) para predecir los valores de y.
Análisis de regresión
Desde el punto de vista estadístico, existe una clara distinción entre las variables en cuanto a su papel dentro del proceso experimental. Muy a menudo se tiene una sola variable dependiente o respuesta Y, que no se controla en el experimento y se considera variable aleatoria (Y = cantidad de combustible consumido). Esta respuesta depende de una variable independiente o explicativa, o de regresión x, que se mide con un error despreciable y no se considera aleatoria y, por tanto, no tiene propiedades distribucionales (x = velocidad media de conducción).
Se tiene una m.a.s. de tamaño n {(X1,Y1),…(Xn, Yn} ( yi = cantidad de combustible consumido con una velocidad media xi). Si se tomaran muestras adicionales utilizando exactamente los mismos valores de x, se debe esperar que los valores de y varíen. De ahí que el valor yi en el par (xi, yi) sea un valor de la V.A. Y | xi (Y | xi = cantidad de combustible consumida por cierto tipo de vehículo a una velocidad media xi).
Por conveniencia, se define Y | x como la V.A. Y, correspondiente a un valor genérico x, y su media y varianza se indican por µY|x y σ2 Y|x, respectivamente; mientras que si x = xi, el símbolo Yi representa la V.A. Y|xi con media µyi = µ y | xi y varianza σ2 yi = σ2 Y|x,. El término modelo de regresión lineal simple implica que µY|x está linealmente relacionado con x por la recta de regresión poblacional. µY|x = β0 + β1 x Donde los coeficientes β0 y β1 (ordenada en el origen y pendiente de la recta, respectivamente), son parámetros que deben estimarse a partir de los datos muestrales.
Estimación de los parámetros
La estimación por el método de los mínimos cuadrados (MMC) se basa en encontrar las estimaciones b0 y b1 de β0 y β1, de tal forma que la suma de los cuadrados sea mínima.
A continuación se exponen algunas propiedades de la recta de regresión:
- La pendiente de la recta es b1 (coeficiente de regresión).
- Una variación de 1 unidad en el eje x produce una variación de b1 unidades en el eje y.
- b0 es la ordenada en el origen (el valor de y cuando x = 0).
- La recta de regresión siempre pasa por el centro de gravedad de los datos, (x, y).
Varianza residual
Si se supone que las perturbaciones Ui, son V.A. con distribución normal de media cero, que todas tienen la misma varianza σ2 (homocedasticidad), y que U1, U2,…, Un son independientes: U i ≡ N (0, σ) i = 1, 2,…, n Y, como es habitual en las varianzas que proceden de distribuciones normales, la varianza residual sigue una distribución del tipo chi-cuadrado.
Propiedad de los estimadores
Es importante recordar que los valores de b0 y b1, obtenidos con base en una muestra dada de n observaciones, son solo estimaciones de los parámetros reales β0 y β1. Si el experimento se repite varias veces, utilizando los mismos valores de x, es muy probable que las estimaciones resultantes de β0 y β1 difieran de un experimento a otro. Estas estimaciones diferentes pueden considerarse como valores asumidos por las V.A. B0 y B1, los estimadores de β0 y β1, respectivamente.
Una vez estimada la varianza de las perturbaciones y recordando que se mantienen las hipótesis de normalidad de las mismas, es posible construir los estadísticos adecuados para realizar inferencias respecto a los parámetros de regresión. Los estadísticos definidos son útiles para ejecutar contrastes sobre los valores de los parámetros β0 y β1. En particular, es de especial interés el contraste de regresión: H0: β1 = 0 H1: β1 ≠ 0 Que implica la ausencia de relación lineal entre las variables.
Predicción
Un modelo de regresión, fijado un valor particular de la variable independiente (xp), permite: 1. Estimar el valor medio de la respuesta (µYp = consumo medio de combustible a una velocidad media xp). 2. Prever futuros valores de la variable respuesta (yp= consumo de combustible a una velocidad media xp). Tanto la estimación de la media, como la predicción de un valor de la variable dependiente, se obtienen sustituyendo en la recta de regresión estimada.
Análisis de la varianza
El contraste más importante en regresión se refiere a la pendiente de la recta de regresión poblacional, y se plantea de la forma: H0: β1 = 0 H1: β1 ≠ 0 Aunque ya se ha dado un estadístico válido para este contraste, en este apartado se estudiará desde otro punto de vista. Si la pendiente de la verdadera recta de regresión es distinta de cero (β1 ≠ 0), entonces las desviaciones de los datos yi, respecto a su valor medio y, se pueden descomponer en dos partes:
- El residuo, es decir (yi – yi).
- La diferencia entre el valor predicho por la recta de regresión estimada y el valor medio de los datos, es decir, ( yi – y).
Sin embargo, si la verdadera pendiente de la recta de regresión es nula, entonces todos los valores predichos verifican yi = y, por lo que la segunda componente es nula. El residuo representa las fluctuaciones puramente aleatorias dentro del rango probable de valores que puede asumir la V.A. Yi, mientras que la segunda componente representa las fluctuaciones intrínsecas debidas a la relación lineal que revisan las V.A. Yi, así, cuanto más se está alejado de la zona central, (x, y), más grandes deben ser estas fluctuaciones.
Analítica de datos para empresas
Las bases de datos hoy en día se constituyen como una forma de poder y de gestión muy amplia. Esto se debe a que las mismas cuentan con datos que permiten anticiparse a ciertas acciones, además de dirigir ciertas estrategias con base en la analítica. Un adecuado desempeño de esta área depende de un profesional especializado en el campo del manejo de datos, que además cuente con la educación enfocada en este campo.
TECH Universidad Tecnológica brinda actualmente un portafolio educativo enfocado en las necesidades del profesional moderno. Este ha sido diseñado por un equipo de expertos en diversos campos, poniendo la calidad educativa como prioridad en ello. Caso ejemplo de ello es su Facultad de informática, allí destacan posgrados como el Máster en Industria 4.0 y Transformación Digital y el Máster en Ingeniería de Software y Sistemas de Información. A pesar de ser excelentes opciones para el profesional no cabe duda que si su interés se inclina por dominar el campo de la analítica de datos su mejor elección será optar por tomar el Máster en Visual Analytics & Big Data.