Einfache lineare Regressionsgerade
Diese Gleichung definiert die Ausgleichsgerade, die die Summe der quadrierten Residuen zwischen beobachteten und vorhergesagten Werten für eine lineare Beziehung zwischen zwei Variablen minimiert.
This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.
Core idea
Overview
Die Regressionsgerade wird mit der Methode der kleinsten Quadrate berechnet, die darauf abzielt, die Varianz der Fehler zu minimieren. Die Steigung b1 repräsentiert die erwartete Änderung von y pro Einheit Änderung in x, während der Achsenabschnitt b0 den vorhergesagten Wert von y angibt, wenn x gleich null ist. Zusammen charakterisieren diese Parameter den linearen Trend innerhalb eines Datensatzes.
When to use: Verwende dies, wenn du die Beziehung zwischen zwei stetigen Variablen modellieren und zukünftige Ergebnisse auf Basis linearer Trends vorhersagen möchtest.
Why it matters: Es ist das grundlegende Werkzeug für prädiktive Analytik und ermöglicht Forschern und Unternehmen, Trends vorherzusagen und die Stärke von Beziehungen zwischen Variablen zu quantifizieren.
Symbols
Variables
y^ = Predicted Value, = Slope, = Y-Intercept, x = Independent Variable, n = Sample Size
Walkthrough
Derivation
Herleitung der einfachen linearen Regressionsgeraden
Diese Herleitung nutzt die Methode der kleinsten Quadrate, um die Summe der quadrierten Residuen zwischen beobachteten Datenpunkten und dem linearen Regressionsmodell zu minimieren.
- Die Beziehung zwischen den Variablen x und y ist linear.
- Die Fehler sind unabhängig und identisch verteilt mit einem Mittelwert von Null.
Definition der Summe der quadrierten Residuen (SSR)
Wir definieren die Zielfunktion S als die Summe der Quadrate der vertikalen Abstände zwischen jedem beobachteten Datenpunkt und dem vorhergesagten Wert auf der Regressionsgeraden.
Note: Das Minimieren der quadrierten Residuen stellt sicher, dass positive und negative Abweichungen einander nicht aufheben.
Partielle Differenzierung nach b_0
Um S zu minimieren, bilden wir die partielle Ableitung nach und setzen diese gleich Null, was zur Normalgleichung für den Achsenabschnitt führt.
Note: Die Vereinfachung ergibt die Gleichung = - \bar{x}.
Partielle Differenzierung nach b_1
Wir bilden die partielle Ableitung nach und setzen diese gleich Null, um die Steigung zu finden, die den Fehler minimiert.
Note: Setzen Sie den Ausdruck für aus dem vorherigen Schritt in diese Gleichung ein, um zu isolieren.
Lösen des Systems nach b_1
Durch Einsetzen von in die zweite Normalgleichung und algebraisches Lösen leiten wir die Berechnungsformel für den Steigungskoeffizienten her.
Note: Dies entspricht .
Result
Source: Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis.
Why it behaves this way
Intuition
Stellen Sie sich ein Streudiagramm von Datenpunkten als eine Wolke schwebender Partikel vor. Die Regressionsgerade wirkt wie ein starrer, gewichteter Stab, der durch das Zentrum der Wolke verläuft. Die Formel fungiert als „Gravitationsmechanismus“, der diesen Stab dreht und verschiebt, bis die Summe der vertikalen (quadrierten) Abstände zwischen dem Stab und jedem Punkt in der Wolke ein absolutes Minimum erreicht.
Signs and relationships
- b_1: Das Vorzeichen von gibt die Richtung der Beziehung an: Positiv bedeutet, dass sich beide Variablen in die gleiche Richtung bewegen, während Negativ auf eine inverse Beziehung hindeutet.
- b_0: Dies ist eine additive Konstante, die die gesamte Gerade vertikal verschiebt und sicherstellt, dass die Gerade durch den Schwerpunkt (Mittelwert) der Daten verläuft.
One free problem
Practice Problem
Gegeben sind die Datenpunkte (1, 2), (2, 3) und (3, 5). Berechne die Steigung b1 der Regressionsgeraden.
Hint: Berechne Zähler und Nenner getrennt: n*sum(xy) - sum(x)*sum(y) sowie n*sum() - (sum(x))^2.
The full worked solution stays in the interactive walkthrough.
Where it shows up
Real-World Context
Ein Ökonom verwendet diese Gleichung, um die Beziehung zwischen Marketingausgaben und Gesamtumsatz zu modellieren und vorherzusagen, wie viel Umsatz ein bestimmtes Budget generieren wird.
Study smarter
Tips
- Erstelle immer zuerst ein Streudiagramm, um sicherzustellen, dass die Beziehung tatsächlich linear ist.
- Prüfe auf Ausreißer, da sie die Steigung der Regressionsgeraden unverhältnismäßig stark beeinflussen können.
- Berechne den Korrelationskoeffizienten (r), um die Stärke und Richtung der linearen Beziehung zu quantifizieren.
Avoid these traps
Common Mistakes
- Anzunehmen, dass eine starke Korrelation Kausalität impliziert.
- Die Regressionsgerade weit über den beobachteten x-Datenbereich hinaus zu extrapolieren.
Common questions
Frequently Asked Questions
Diese Herleitung nutzt die Methode der kleinsten Quadrate, um die Summe der quadrierten Residuen zwischen beobachteten Datenpunkten und dem linearen Regressionsmodell zu minimieren.
Verwende dies, wenn du die Beziehung zwischen zwei stetigen Variablen modellieren und zukünftige Ergebnisse auf Basis linearer Trends vorhersagen möchtest.
Es ist das grundlegende Werkzeug für prädiktive Analytik und ermöglicht Forschern und Unternehmen, Trends vorherzusagen und die Stärke von Beziehungen zwischen Variablen zu quantifizieren.
Anzunehmen, dass eine starke Korrelation Kausalität impliziert. Die Regressionsgerade weit über den beobachteten x-Datenbereich hinaus zu extrapolieren.
Ein Ökonom verwendet diese Gleichung, um die Beziehung zwischen Marketingausgaben und Gesamtumsatz zu modellieren und vorherzusagen, wie viel Umsatz ein bestimmtes Budget generieren wird.
Erstelle immer zuerst ein Streudiagramm, um sicherzustellen, dass die Beziehung tatsächlich linear ist. Prüfe auf Ausreißer, da sie die Steigung der Regressionsgeraden unverhältnismäßig stark beeinflussen können. Berechne den Korrelationskoeffizienten (r), um die Stärke und Richtung der linearen Beziehung zu quantifizieren.
References
Sources
- Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis.
- Freedman, D., Pisani, R., & Purves, R. (2007). Statistics.