Estadistica-Regresion Lineal Simple

  1. Introducción
  2. Aspectos Teóricos
  3. Antecedentes del Problema
  4. Desarrollo
  5. Hipótesis
  6. Interpretación
  7. Conclusión
1. INTRODUCCIÓN
Si sabemos que existe una relación entre una variable denominada dependiente y otras denominadas independientes (como por ejemplo las existentes entre: la experiencia profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de personas, la producción agraria y la cantidad de fertilizantes utilizados, etc.), puede darse el problema de que la dependiente asuma múltiples valores para una combinación de valores de las independientes.
La dependencia a la que hacemos referencia es relacional matemática y no necesariamente de causalidad. Así, para un mismo número de unidades producidas, pueden existir niveles de costo, que varían empresa a empresa.
Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresión en los cuales se obtiene una nueva relación pero de un tipo especial denominado función, en la cual la variable independiente se asocia con un indicador de tendencia central de la variable dependiente. Cabe recordar que en términos generales, una función es un tipo de relación en la cual para cada valor de la variable independiente le corresponde uno y sólo un valor de la variable dependiente.
2. ASPECTOS TEÓRICOS
REGRESIÓN SIMPLE Y CORRELACIÓN
La Regresión y la correlación son dos técnicas estadísticas que se pueden utilizar para solucionar problemas comunes en los negocios.
Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relación Funcional entre dos o más variables, donde una variable depende de la otra variable.
Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresión Simple.
"Y es una función de X"
Y = f(X)

Como Y depende de X,
Y es la variable dependiente, y
X es la variable independiente.
En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y cuál es la variable independiente.
En el Modelo de Regresión Simple se establece que Y es una función de sólo una variable independiente, razón por la cual se le denomina también Regresión Divariada porque sólo hay dos variables, una dependiente y otra independiente y se representa así:
Y = f (X)
"Y está regresando por X"
La variable dependiente es la variable que se desea explicar, predecir. También se le llama REGRESANDO ó VARIABLE DE RESPUESTA.
La variable Independiente X se le denomina VARIABLE EXPLICATIVA ó REGRESOR y se le utiliza para EXPLICAR Y.
ANÁLISIS ESTADÍSTICO: REGRESIÓN LINEAL SIMPLE
En el estudio de la relación funcional entre dos variables poblacionales, una variable X, llamada independiente, explicativa o de predicción y una variable Y, llamada dependiente o variable respuesta, presenta la siguiente notación:
Y = a + b X + e
Donde:
a es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y.
b es el coeficiente de regresión poblacional (pendiente de la línea recta)
e es el error
SUPOSICIONES DE LA REGRESIÓN LINEAL
  1. Los valores de la variable independiente X son fijos, medidos sin error.
  2. La variable Y es aleatoria
  3. Para cada valor de X, existe una distribución normal de valores de Y (subpoblaciones Y)
  4. Las variancias de las subpoblaciones Y son todas iguales.
  5. Todas las medias de las subpoblaciones de Y están sobre la recta.
  6. Los valores de Y están normalmente distribuidos y son estadísticamente independientes.
ESTIMACIÓN DE LA ECUACIÓN DE REGRESIÓN MUESTRAL
Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir, encontrar los valores de a y b con los datos observados de la muestra. El método de estimación es el de Mínimos Cuadrados, mediante el cual se obtiene:

Luego, la ecuación de regresión muestral estimada es
Que se interpreta como:
a es el estimador de a
Es el valor estimado de la variable Y cuando la variable X = 0
b es el estimador de b , es el coeficiente de regresión
Está expresado en las mismas unidades de Y por cada unidad de X. Indica el número de unidades en que varía Y cuando se produce un cambio, en una unidad, en X (pendiente de la recta de regresión).
Un valor negativo de b sería interpretado como la magnitud del decremento en Y por cada unidad de aumento en X.
3. ANTECEDENTES DEL PROBLEMA
Los datos de la siguiente tabla representan las estaturas (X, cm) y los pesos (Y, kg) de una muestra de 12 hombres adultos. Para cada estatura fijada previamente se observó el peso de una persona seleccionada de entre el grupo con dicha estatura, resultando:
X
152
155
152
155
157
152
157
165
162
178
183
178
Y
50
61.5
54.5
57.5
63.5
59
61
72
66
72
84
82
Con estos datos vamos a plantear una ecuación de regresión simple que nos permita pronosticar los pesos conociendo las tallas. Utilizaremos a = 0.05, y contrastaremos nuestra hipótesis con la prueba F.
4. DESARROLLO
  • Representación matemática y gráfica de los datos:
Representación Matemática
estatura
pesos
Regresión Lineal
I.C. para la media
I. C. individual
datos
x
y
x ^2
y ^2
xy
y est.
Residual
L. I.
L. S.
L. I.
L. S.
1
152
50
23104
2500
7600
56.43
-6.43
53.07
59.79
47.30
65.56
2
155
61.5
24025
3782.3
9532.5
59.03
2.47
56.09
61.97
50.05
68.02
3
152
54.5
23104
2970.3
8284
56.43
-1.93
53.07
59.79
47.30
65.56
4
155
57.5
24025
3306.3
8912.5
59.03
-1.53
56.09
61.97
50.05
68.02
5
157
63.5
24649
4032.3
9969.5
60.77
2.73
58.05
63.48
51.85
69.68
6
152
59
23104
3481
8968
56.43
2.57
53.07
59.79
47.30
65.56
7
157
61
24649
3721
9577
60.77
0.23
58.05
63.48
51.85
69.68
8
165
72
27225
5184
11880
67.71
4.29
65.17
70.24
58.85
76.57
9
162
66
26244
4356
10692
65.11
0.89
62.65
67.56
56.27
73.94
10
178
72
31684
5184
12816
78.99
-6.99
74.65
83.33
69.45
88.52
11
183
84
33489
7056
15372
83.32
0.68
78.01
88.64
73.31
93.34
12
178
82
31684
6724
14596
78.99
3.01
74.65
83.33
69.45
88.52
Representación Gráfica
5. HIPÓTESIS
HO: No hay relación entre la variable peso y la variable estatura.
HA: Hay relación entre la variable peso y la variable estatura.
Tabla de análisis de varianza
Fuente de
Grados de
Suma de
Cuadrados
Variación
libertad
cuadrados
medios
estadístico F
Debido a
la regresión
1
1061.1
1061.1
73.08
error
10
145.2
14.5
total
11
1206.3
Se obtiene un valor F = 73.08 > 4.96, con lo cual se rechaza la hipótesis nula y aceptamos que la variable estatura está relacionada con la variable peso con un 95% de confianza.
  • De acuerdo al desarrollo matemático hemos obtenido los siguientes cálculos:
Lo que nos permite obtener los coeficientes a y b.
Luego,
b = 1223 / 1409.667 = 0.8676
a = 65.25 ? (0.8676) (162.167) = -75.446
6. INTERPRETACIÓN
  • La ecuación de regresión estimada es:
Coeficiente de correlación: R= 0.9379
Coeficiente de determinación: R²=0.8796
El valor de b = 0.8676 indica el incremento del peso en kilogramos, en promedio, por cada centímetro de aumento en la estatura de los hombres adultos.
El valor de a, no tiene interpretación práctica en el ejemplo, se interpretaría como el valor obtenido, en promedio, para el peso Y, cuando la estatura es 0.
Utilizando la ecuación de regresión para estimar o predecir valores de la variable Y: Para una talla de 180 se obtiene un peso de 80.7 kg.
¿Cuánto se espera que pese (en promedio) una persona que mide 1.60 m?
Sustituyendo el valor de interés en la ecuación:
Se obtiene:
7. CONCLUSIÓN
La ecuación de Regresión Lineal estimada para las variables estatura y peso muestran, de acuerdo a la prueba F, relación.
Esta relación se ha estimado en un R = 93.7, que indica una fuerte relación positiva.
Además si consideramos el coeficiente de determinación R² = 87.9 podemos indicar que el 87.9% de las variaciones que ocurren en el peso se explicarían por las variaciones en la variable estatura.
--------------------------------




Cómo utilizar una Regresión Lineal para realizar un Pronóstico de Demanda


El Método de Mínimos Cuadrados o Regresión Lineal se utiliza tanto para pronósticos de series de tiempo como para pronósticos de relaciones causales. En particular cuando la variable dependientecambia como resultado del tiempo se trata de un análisis de serie temporal.
En el siguiente artículo desarrollaremos un Pronóstico de Demanda haciendo uso de la información histórica de venta de un producto determinado durante los últimos 12 trimestres(3 años) cuyos datos se observan en la siguiente tabla resumen:
La ecuación de mínimos cuadrados para la regresión lineal es la que se muestra a continuación donde β0 y β1 son los parámetros de intercepto y pendiente, respectivamente:
Estimar los valores de dichos parámetros es sencillo haciendo uso de una planilla Excel tal como muestra la tabla a continuación:
Luego evaluamos en las ecuaciones presentadas anteriormente para obtener los valores de β0 y β1:
Una vez obtenido los parámetros de la regresión lineal se puede desarrollar un pronóstico de demanda (columna color naranja) evaluando en la ecuación de la regresión para los distintos valores de la variable independiente (x).
Por ejemplo, para el primer trimestre el pronóstico es: Y(1)=441,71+359,61*1=801,3.
Observación: los valores de los pronósticos han sido redondeados arbitrariamente a un decimal para mayor comodidad.
Notar que con la información que hemos obtenido podemos calcular el MAD y la Señal de Rastreo y utilizar estos indicadores para validar la conveniencia de utilizar este procedimiento como dispositivo de pronóstico.
Adicionalmente puede resultar de interés consultar el artículo Ejemplo de una Regresión Lineal Múltiple para un Pronóstico con Excel y Minitab que muestra cómo abordar el caso de realizar una regresión lineal con más de una variable independiente (explicativa).
Siguiendo con nuestro análisis a continuación podemos desarrollar un pronóstico de demanda para los próximos 4 trimestres (un año) que corresponden a los trimestres 13, 14, 15 y 16:
  • Y(13)=441,71+359,61*13=5.116,64
  • Y(14)=441,71+359,61*14=5.476,25
  • Y(15)=441,71+359,61*15=5.835,86
  • Y(16)=441,71+359,61*16=6.195,47
Si bien el procedimiento anterior es válido puede ser resumido haciendo uso de las herramientas de análisis de datos de Excel o simplemente realizando un ajuste de una regresión lineal en un gráfico de dispersión de la misma forma que abordamos en el articulo sobre el Método de Descomposición. Para ello luego de realizar el gráfico nos posicionamos en una de las observaciones y luego botón derecho del mouse para seleccionar “Agregar línea de tendencia…”.
Luego en la interfaz de Excel activamos las opciones “Presentar ecuación en el gráfico” y “Presentar el valor R cuadrado en el gráfico”(este último indicador según se aborda en los cursos de estadística consiste en una medida de la bondad de ajuste de la regresión).
Notar que los valores obtenidos para los parámetros de la regresión son similares salvo menores diferencias por efecto de aproximación.
Otra opción disponible para ajustar una Regresión Lineal haciendo uso de Excel es a través del Complemento llamado Herramientas para análisis.
Su activación es simple: en el menú Archivo(esquina superior izquierda en Excel) ir a Opciones, luego Complementos, a continuación a la derecha de donde dice Complementos de Excel presionar Ir… y luego activar la Herramientas para análisis.
herramienta para análisis excel
Una vez activada las Herramientas para análisis, se puede encontrar ésta abajo del complemento Solver en el menú de Datos.
análisis de datos excel
Luego de las opciones disponibles que nos ofrece este complemento seleccionamos Regresión.
regresión análisis de datos
A continuación seleccionamos el Rango Y de entrada las celdas correspondientes a la variable dependiente (Ventas) y en Rango X de entrada las celdas correspondientes a la variable independiente (Trimestre).
Debemos activar adicionalmente la casilla Residuos si deseamos obtener un pronóstico para las ventas del Trimestre 1 al Trimestre 12(junto al cálculo del error o residuo de la estimación).
interfaz regresión análisis de datos
Finalmente presionamos Aceptar lo que generará una nueva hoja en nuestra planilla de cálculo.
Un extracto de los resultados es el que se presenta a continuación, donde en color celestese destaca los coeficientes asociados a los parámetros de la regresión lineal β0 y β1, respectivamente, y en color naranjo el pronóstico obtenido para cada uno de los doce trimestres al utilizar la ecuación de la regresión.
Por ejemplo: Y(1)=441,67+359,61*1=801,28. El residuo o error correspondiente para dicho período (Trimestre 1)  e_{1}=A_{t}-F_{t}=600-801,28=-201,28
es: e_{1}=A_{t}-F_{t}=600-801,28=-201,28.




resultados análisis regresión

No hay comentarios.: