Regresión Lineal de Mínimos Cuadrados

Imagina que has recogido datos de los alumnos sobre la nota de sus exámenes y el número de horas que han estudiado. Trazando esta información en un gráfico de dispersión, parece que hay una relación lineal positiva entre la nota media y el número de horas estudiadas.

Regresión Lineal de Mínimos Cuadrados Regresión Lineal de Mínimos Cuadrados

Crea materiales de aprendizaje sobre Regresión Lineal de Mínimos Cuadrados con nuestra app gratuita de aprendizaje!

  • Acceso instantáneo a millones de materiales de aprendizaje
  • Tarjetas de estudio, notas, exámenes de simulacro y más
  • Todo lo que necesitas para sobresalir en tus exámenes
Regístrate gratis
Tarjetas de estudio
Índice de temas

    ¿Puedes utilizar estos datos para predecir la nota de alguien basándote en el número de horas estudiadas?

    Utilizando la regresión lineal, es realmente posible hacer una estimación razonable basándose en datos anteriores. Este artículo te mostrará cómo encontrar la recta de Regresión Lineal por Mínimos Cuadrados para hacer predicciones basadas en datos ya recogidos.

    Explicación de la regresión lineal por mínimos cuadrados

    Al analizar datos bivariantes, tienes dos variables: la variable dependiente o de respuesta , normalmente denominada \(y\), y la variable independiente o explicativa , normalmente denominada \(x\).

    Cuando \(y\) es la variable dependiente y \(x\) es la variable independiente, puedes decir "\(y\) depende de \(x\)".

    Supongamos que has recogido datos sobre dos variables \(y\) y \(x\) en los que el resultado de \(y\) depende de \(x\). También parece existir una relación lineal entre las variables. ¿Qué harías para predecir un valor de \(y\) para un valor dado de \(x\)?

    En GCSE, puede que tuvieras que trazar una recta de mejor ajuste en la que utilizarías tu propio juicio para determinar en qué "dirección" iban los datos. La recta de regresión de mínimos cuadrados hace esto matemáticamente.

    Una recta de regresión por mínimos cuadrados se utiliza para predecir los valores de la variable dependiente para una determinada variable independiente cuando se analizan datos bivariantes.

    Residuales

    Si has visto algún dato bivariable, sabrás que muy raramente los puntos de los datos caen exactamente a lo largo de una línea recta, aunque haya una "relación" lineal confirmada entre las variables.

    Puede haber varias razones para estas imprecisiones (es decir, otros factores que afecten a la variable dependiente o lecturas imprecisas al recoger los datos). Hay tantos factores y causas posibles de estas imprecisiones que puedes suponer que son totalmente aleatorias.

    En la imagen siguiente, puedes ver una "línea de mejor ajuste" para los puntos de datos \((x_1,y_1)\), \((x_2,y_2)\), \((x_3,y_3)\) y \((x_4,y_4)\). Observa que la recta no toca ninguno de estos puntos.

    La diferencia vertical entre estos puntos y la línea de mejor ajuste está etiquetada con \(\epsilon _1\), \(\epsilon _2\), \(\epsilon _3\) y \(\epsilon _4\). Son los residuos asociados a cada punto de datos.

    Una línea de mejor ajuste de pendiente ascendente con líneas de puntos verticales etiquetadas como Línea de regresión por mínimos cuadrados con residuos

    La diferencia entre la variable dependiente observada (\(y_i\)) y la variable dependiente predicha \(x_i\) se denomina residuo (\(\epsilon _i\)).

    Aunque estos residuos significan que la predicción no es exacta al 100%, en realidad son cruciales para hallar la recta de regresión por mínimos cuadrados: minimizando los cuadrados de estos residuos. De ahí el nombre de" regresión por mínimos cuadrados".

    La recta de regresión por mínimos cuadrados de \(y\) sobre \(x\) es la que minimiza la suma de los cuadrados de los residuos,

    $$\epsilon _1 ^2 +\epsilon _2 ^2 + \epsilon _3 ^2 + ...$$

    donde \(\epsilon _i\) es el residuo del punto de datos \((x_i,y_i)\).

    Método de regresión lineal por mínimos cuadrados

    El método de regresión lineal por mínimos cuadrados se utiliza para hallar la recta de regresión. El objetivo principal de este método es minimizar la suma de los cuadrados de los residuos de los puntos de datos de un conjunto de datos.

    Obtención de la recta de regresión lineal por mínimos cuadrados

    Aunque pueda parecer complicado, en realidad encontrar la recta de regresión es bastante sencillo.

    Como para encontrar cualquier línea recta en matemáticas, necesitas dos cosas: una \(y\)-intercepción y una pendiente. Por suerte, existe una fórmula sencilla para encontrarlas.

    Fórmula de regresión lineal por mínimos cuadrados

    La recta de regresión de \(y\) sobre \(x\) es

    $$y=ax+b$$

    donde \(a=\dfrac{S_{xy}}{S_{xx}}) y \(b=\bar{y}-a\bar{x}}), donde

    $$S_{xy}=suma x_iy_i - \dfrac{suma x_i \suma y_i}{n}$$ $$S{xx}=suma x_i^2 - \dfrac{(\suma x_i)^2}{n}$$ $$S{yy}=suma y_i^2 - \dfrac{(\suma y_i)^2}{n}$$

    Los estadísticos de resumen \(S_{xy}\), \(S_{xx}\) y \(S_{yy}\) te los pueden dar en un examen, o también puedes tener que hallarlos a partir de los datos brutos utilizando una calculadora.

    Ejemplo resuelto de Regresión lineal por mínimos cuadrados

    Ahora estás preparado para aplicar este método a una posible pregunta de examen.

    El número de horas que estudiaron los alumnos y sus resultados en el examen se registran en la tabla siguiente.

    Tiempo estudiado en horas \(1\)\(2\)\(3\)\(4\)\(5\)
    Resultado del examen \(49\)\(81\)\(71\)\(83\)\(99\)

    a. Calcula \(S_{xy}\) y \(S_{xx}\).
    b. Halla la recta de regresión de \(y\) sobre \(x\).

    c. Traza los puntos de datos y la recta de regresión en la misma gráfica.

    d. Interpreta el significado de \(a=10,2\) y \(b=46\) en el contexto de la pregunta.

    e. Predice la nota de un alumno que estudia durante

    i) \(2,5\) horas

    ii) \(8\) horas.

    f. Comenta tus respuestas de la parte e).

    Solución

    a. Utilizando tu calculadora, puedes hallar fácilmente los siguientes resultados,

    \(\suma x=15\) \(\suma x^2=55\) \(\bar{x}=3\) \(\suma xy=1,251\) \(\suma y=383\) \(\suma y^2=30,693\) \(\bar{y}=76,6\).

    Basta con introducir estos resultados en las fórmulas detalladas anteriormente para obtener las estadísticas resumidas.

    \S_{xx} &={xx}. S_{xx} &=suma x^2 - dfrac{(\suma x)^2}{n} = 55 - = 15^2} {5} \\&= 10. \fin)

    \ ( \begin{align} S_{xy} &= suma xy - suma y...n...n...n...n...n...n...n...n...n...n...n...n...n...n...n...n... = 1251 - 15 veces 383...5...n... \\&= 102. \fin)

    b. A partir de \(a\), el gradiente de la recta,

    \[a=\dfrac{S_{xy}}{S_{xx}}=\frac{102}{10}=10.2.\]

    Entonces, la intersección \(y) es

    \(b=barra{y}-abarra{x}=76,6-10,2 veces 3=46).

    Por tanto, la recta de regresión es \(y=10,2x+46\).

    c. Esta es una buena pregunta para comprobar tu trabajo: ¡será bastante obvio si has cometido algún error grave de cálculo!

    Línea de regresión ascendente a través de 5 puntos de datos.Ejemplo de recta de regresión de mínimos cuadrados

    d. Como \(a=10,2\), por cada hora extra que aumente a lo largo del eje \(x\), el alumno obtendrá \(10,2\) puntos más en el examen.

    Como \(b=46\), si un alumno no estudiara nada, seguiría recibiendo (según la recta de regresión) 46 puntos.

    e. Introduce los números anteriores para \(x\).

    i) Si \(x=2,5\), \(y=10,2\times 2,5+46=71,5\).

    ii) Si \(x=8\), \(y=10,2\veces 8+46=127,6\).

    f. Hay un problema fundamental para la parte ii): como los exámenes se califican en porcentajes, ¡la nota \(127,6\) no existe! La verdad es que, para cualquier cantidad de tiempo superior a 5 horas, los datos no tienen ninguna información sobre lo que ocurre con las notas de los alumnos.

    Aunque podrías deducir que para cualquier cantidad de tiempo superior a 5 horas, el 100% sería una buena predicción, esto está fuera del alcance de los datos y del modelo de regresión lineal.

    Debes tener en cuenta que el uso de una recta de regresión sólo debe utilizarse para predecir los valores que se encuentran dentro del intervalo de los datos de los que se deriva dicha recta de regresión, es decir, la interpolación.

    Si intentas hacer predicciones fuera de este rango, se llamaría extrapolación y es menos fiable, ya que los datos pueden comportarse de forma diferente.

    ¡Lo más difícil en este tema es asegurarte de que introduces los números correctos en tu calculadora! Asegúrate de comprobar dos veces tus cálculos en el examen para no perder puntos fáciles.

    Regresión lineal por mínimos cuadrados - Aspectos clave

    • Una recta de regresión por mínimos cuadrados se utiliza para predecir los valores de la variable dependiente para una determinada variable independiente cuando se analizan datos bivariantes.
    • La diferencia entre la variable dependiente observada (\(y_i\)) y la variable dependiente predicha se denomina residuo (\(\epsilon _i\)).
    • La recta de regresión por mínimos cuadrados de de \(y\i) sobre \(x\i) es la que minimiza la suma de los cuadrados de los residuos:

      $$\epsilon _1 ^2 +\epsilon _2 ^2 + \epsilon _3 ^2 + ...$$

      donde \(\epsilon _i\) es el residuo del punto de datos \((x_i,y_i)\).

    • La recta de regresión de \(y\) sobre \(x\) es

      $$y=ax+b$$

      donde \(a=\dfrac{S_{xy}}{S_{xx}}) y \(b=\bar{y}-a\bar{x}}).

    • Los estadísticos de resumen son:
      • \(S_{xy}=suma xy - \dfrac{\suma x \suma y}{n})

        \(S_{xx}=suma x^2 - dfrac{(suma x)^2}{n})

        \(S_{yy}=suma y^2 - \dfrac{(suma y)^2}{n})

    Preguntas frecuentes sobre Regresión Lineal de Mínimos Cuadrados
    ¿Qué es la regresión lineal de mínimos cuadrados?
    La regresión lineal de mínimos cuadrados calcula la línea que mejor ajusta los datos minimizando la suma de los cuadrados de los errores.
    ¿Cómo se calcula la regresión lineal?
    La regresión lineal se calcula usando una fórmula que minimiza los errores al ajustar una línea a los datos dados.
    ¿Cuál es el propósito de la regresión lineal de mínimos cuadrados?
    El propósito es encontrar la relación entre variables y predecir valores futuros basándose en datos observados.
    ¿Qué significa el término 'mínimos cuadrados'?
    El término 'mínimos cuadrados' se refiere a minimizar la suma de los cuadrados de las diferencias entre los valores observados y los valores estimados por el modelo.

    Pon a prueba tus conocimientos con tarjetas de opción múltiple

    La regresión lineal por mínimos cuadrados se utiliza para analizar...

    Se utiliza una recta de regresión por mínimos cuadrados para...

    ¿Qué minimiza una recta de regresión por mínimos cuadrados?

    Siguiente

    Descubre materiales de aprendizaje con la aplicación gratuita StudySmarter

    Regístrate gratis
    1
    Acerca de StudySmarter

    StudySmarter es una compañía de tecnología educativa reconocida a nivel mundial, que ofrece una plataforma de aprendizaje integral diseñada para estudiantes de todas las edades y niveles educativos. Nuestra plataforma proporciona apoyo en el aprendizaje para una amplia gama de asignaturas, incluidas las STEM, Ciencias Sociales e Idiomas, y también ayuda a los estudiantes a dominar con éxito diversos exámenes y pruebas en todo el mundo, como GCSE, A Level, SAT, ACT, Abitur y más. Ofrecemos una extensa biblioteca de materiales de aprendizaje, incluidas tarjetas didácticas interactivas, soluciones completas de libros de texto y explicaciones detalladas. La tecnología avanzada y las herramientas que proporcionamos ayudan a los estudiantes a crear sus propios materiales de aprendizaje. El contenido de StudySmarter no solo es verificado por expertos, sino que también se actualiza regularmente para garantizar su precisión y relevancia.

    Aprende más
    Equipo editorial StudySmarter

    Equipo de profesores de Matemáticas

    • Tiempo de lectura de 9 minutos
    • Revisado por el equipo editorial de StudySmarter
    Guardar explicación

    Guardar explicación

    Sign-up for free

    Regístrate para poder subrayar y tomar apuntes. Es 100% gratis.

    Únete a más de 22 millones de estudiantes que aprenden con nuestra app StudySmarter.

    La primera app de aprendizaje que realmente tiene todo lo que necesitas para superar tus exámenes en un solo lugar.

    • Tarjetas y cuestionarios
    • Asistente de Estudio con IA
    • Planificador de estudio
    • Exámenes simulados
    • Toma de notas inteligente
    Únete a más de 22 millones de estudiantes que aprenden con nuestra app StudySmarter.

    Consigue acceso ilimitado con una cuenta gratuita de StudySmarter.

    • Acceso instantáneo a millones de materiales de aprendizaje.
    • Tarjetas de estudio, notas, exámenes de simulacro, herramientas de AI y más.
    • Todo lo que necesitas para sobresalir en tus exámenes.
    Second Popup Banner