Ahora estás preparado para aplicar este método a una posible pregunta de examen.
El número de horas que estudiaron los alumnos y sus resultados en el examen se registran en la tabla siguiente.
Tiempo estudiado en horas | \(1\) | \(2\) | \(3\) | \(4\) | \(5\) |
Resultado del examen | \(49\) | \(81\) | \(71\) | \(83\) | \(99\) |
a. Calcula \(S_{xy}\) y \(S_{xx}\).
b. Halla la recta de regresión de \(y\) sobre \(x\).
c. Traza los puntos de datos y la recta de regresión en la misma gráfica.
d. Interpreta el significado de \(a=10,2\) y \(b=46\) en el contexto de la pregunta.
e. Predice la nota de un alumno que estudia durante
i) \(2,5\) horas
ii) \(8\) horas.
f. Comenta tus respuestas de la parte e).
Solución
a. Utilizando tu calculadora, puedes hallar fácilmente los siguientes resultados,
\(\suma x=15\) \(\suma x^2=55\) \(\bar{x}=3\) \(\suma xy=1,251\) \(\suma y=383\) \(\suma y^2=30,693\) \(\bar{y}=76,6\).
Basta con introducir estos resultados en las fórmulas detalladas anteriormente para obtener las estadísticas resumidas.
\S_{xx} &={xx}. S_{xx} &=suma x^2 - dfrac{(\suma x)^2}{n} = 55 - = 15^2} {5} \\&= 10. \fin)
\ ( \begin{align} S_{xy} &= suma xy - suma y...n...n...n...n...n...n...n...n...n...n...n...n...n...n...n...n... = 1251 - 15 veces 383...5...n... \\&= 102. \fin)
b. A partir de \(a\), el gradiente de la recta,
\[a=\dfrac{S_{xy}}{S_{xx}}=\frac{102}{10}=10.2.\]
Entonces, la intersección \(y) es
\(b=barra{y}-abarra{x}=76,6-10,2 veces 3=46).
Por tanto, la recta de regresión es \(y=10,2x+46\).
c. Esta es una buena pregunta para comprobar tu trabajo: ¡será bastante obvio si has cometido algún error grave de cálculo!
Ejemplo de recta de regresión de mínimos cuadrados
d. Como \(a=10,2\), por cada hora extra que aumente a lo largo del eje \(x\), el alumno obtendrá \(10,2\) puntos más en el examen.
Como \(b=46\), si un alumno no estudiara nada, seguiría recibiendo (según la recta de regresión) 46 puntos.
e. Introduce los números anteriores para \(x\).
i) Si \(x=2,5\), \(y=10,2\times 2,5+46=71,5\).
ii) Si \(x=8\), \(y=10,2\veces 8+46=127,6\).
f. Hay un problema fundamental para la parte ii): como los exámenes se califican en porcentajes, ¡la nota \(127,6\) no existe! La verdad es que, para cualquier cantidad de tiempo superior a 5 horas, los datos no tienen ninguna información sobre lo que ocurre con las notas de los alumnos.
Aunque podrías deducir que para cualquier cantidad de tiempo superior a 5 horas, el 100% sería una buena predicción, esto está fuera del alcance de los datos y del modelo de regresión lineal.
Debes tener en cuenta que el uso de una recta de regresión sólo debe utilizarse para predecir los valores que se encuentran dentro del intervalo de los datos de los que se deriva dicha recta de regresión, es decir, la interpolación.
Si intentas hacer predicciones fuera de este rango, se llamaría extrapolación y es menos fiable, ya que los datos pueden comportarse de forma diferente.
¡Lo más difícil en este tema es asegurarte de que introduces los números correctos en tu calculadora! Asegúrate de comprobar dos veces tus cálculos en el examen para no perder puntos fáciles.