Regression – Definition, Modelle & Analysetools

05.06.23 Zusammenhangsmaße Lesedauer: 5min

Wie gefällt dir dieser Beitrag?

0 Bewertungen


Regression-01

Egal ob in der Medizin, Wirtschaft oder in der Psychologie – überall werden geeignete Methoden der Statistik verwendet, um aus relevanten Daten aussagekräftige Rückschlüsse zu ziehen. Die Grundlage vieler empirischer Untersuchungen bildet die Regression – sie ermöglicht, Zusammenhänge von Variablen zu analysieren und Vorhersagen über zukünftige Entwicklungen zu treffen.

Regression „einfach erklärt“

Nehmen wir an, du notierst dir immer a) die Anzahl der Stunden, in denen du für Klausuren lernst und b) die erzielte Note. So hättest du vermutlich schnell einige Daten vorliegen, um festzustellen, dass du mit steigendem Lernaufwand bessere Noten schreibst. Die Regression ist eine Methode, um Muster in Zahlen zu finden und daraus wichtige Erkenntnisse für die Zukunft zu ziehen.

Definition: Regression

Das Verfahren zählt zu den statistischen Zusammenhangsmaßen und wird angewandt, um Beziehungen zwischen zwei oder mehreren Variablen zu analysieren und deren zukünftige Entwicklung vorauszusagen.

Bei der Methode wird der Einfluss von mindestens einer unabhängigen (Erklär-)Variable (x) auf eine abhängige (Ziel-)Variable (y) zu untersucht.

Beispielhafte Fragestellungen

Allgemein:

  • Wie beeinflusst eine unabhängige Variable die abhängige Variable?
  • Können die Messwerte der abhängigen Variable durch die der unabhängigen Variable prognostiziert werden?
  • Wie stark ist der Einfluss der unabhängigen Variablen auf die abhängige Variable?

Konkret:

  • Inwiefern wirkt sich der Bildungsgrad auf das Einkommen aus?
  • Steigt der Verkauf an Eis, wenn die Temperaturen steigen?
  • Wie hängt die Körpergröße mit dem Volumen des Gehirns zusammen?

Hierbei wird ein mathematisches Modell erstellt, um auszusagen, inwiefern Veränderungen der unabhängigen Variable auch Veränderungen in der abhängigen Variable hervorrufen. Somit können Art und Stärke eines Zusammenhangs in Zahlen ausgedrückt, Hypothesen getestet und Prognosen auf Basis des Modells aufgestellt werden.

Das Verfahren ist gerade in den Wirtschafts-, Sozial- und Ingenieurwissenschaften sehr bekannt und wird regelmäßig genutzt, um die Auswirkungen von bestimmten Variablen auf andere nachzuvollziehen und relevante Schlussfolgerungen für die Zukunft zu ziehen.

Die digitale Vorschau deiner Arbeit
Du möchtest vor dem Druck wissen, ob deine Arbeit nach deinen Vorstellungen gedruckt werden kann? Kein Problem! Mit der formellen Endkontrolle von BachelorPrint erhältst du eine digitale und kostenlose Vorschau deiner gedruckten Arbeit.

Modelle

Es gibt unterschiedliche Analysemodelle, um auf individuelle Datensätze und Fragestellungen einzugehen. Im Folgenden werden die gängigsten Modelle in der Praxis erläutert.

Einfache lineare Regression

Hierbei handelt es sich um das grundlegendste Modell, welches die Beziehung zweier quantitativer Variablen (z. B.: Größe, Gewicht, Alter oder Einkommen) beschreibt. Dabei gilt es, einen linearen Zusammenhang zwischen einer unabhängigen und einer abhängigen Variablen zu analysieren.  Wenn man sagt, dass zwei Variablen eine positive lineare Korrelation aufweisen, so meint man, dass wenn eine Variable zunimmt, auch die andere Variable zunimmt und umgekehrt ebenso.

Regression_einfacher linearer Zusammenhang

Zum Beispiel kann das Modell verwendet werden, um zu sehen, wie sich mit steigendem Alter das Einkommen verändert.

Multiple lineare Regression

Bei der multiplen Variante wird der simultane Einfluss von mehreren unabhängigen Variablen auf eine abhängige Variable analysiert. Da in vielen Wissenschaften nur selten monokausale Beziehungen untersucht werden, ist das multiple Modell ein unverzichtbares Hilfsmittel in der Forschung.

Regression_Multipler linearer Zusammenhang

Dieses Modell kann beispielsweise in der Arbeitsmarktforschung nützlich sein, um zu verstehen, wie verschiedene Faktoren (wie Alter, Berufserfahrung und Arbeitszeit, etc.) das Einkommen beeinflussen.

Logistische Regression

Dieses Modell wird verwendet, wenn die abhängige Variable kategorisch ist, insbesondere wenn sie binär ist (also zwei Kategorien hat, wie ja/nein oder Erfolg/Misserfolg). Im Gegensatz zum linearen Modell, die die tatsächliche Ausgabe vorhersagt, wird bei der logistischen Variante die Wahrscheinlichkeit vorhergesagt, dass eine Beobachtung zu einer bestimmten Kategorie gehört.

Regression_logistischer Zusammenhang

Dieses Modell kann zum Beispiel im beruflichen Kontext verwendet werden, um vorherzusagen, ob einem Mitarbeiter aufgrund seines Alters, Berufserfahrung und der geleisteten Arbeitszeit eine Beförderung zusteht oder nicht.

Methodik

Zentraler Teil der Regression ist die Methode der kleinsten Quadrate (englisch: Ordinary Least Squares, kurz: OLS), die dazu dient, die Koeffizienten zu schätzen, welche die Beziehung zwischen der unabhängigen und der abhängigen Variable am besten beschreiben.

Die Methode basiert auf der Minimierung der Summe der quadrierten Differenzen (oder „Fehler“) zwischen den tatsächlichen Werten der abhängigen Variablen und den von der Regressionsgleichung vorhergesagten Werten. In anderen Worten, sie findet die „beste“ Linie, die durch die Datenpunkte verläuft.

Regression_Streudiagramm

Analysetools

Es gibt zahlreiche Software- und Programmiersprachen, die zur Durchführung einer Regressionsanalyse verwendet werden können. Die Wahl des Tools hängt von vielen Faktoren ab, einschließlich der eigenen Anforderungen, Erfahrung und Kenntnissen in der Programmierung, dem zur Verfügung stehenden Budget und den Normen im jeweiligen Fachgebiet. Hier die bekanntesten Tools im Vergleich:

Tool Positive Merkmale Negative Merkmale
R + Freie Software
+ Sehr flexibel und leistungsstark
+ Zahlreiche Pakete für alle Analysearten
+ Hervorragende Grafikmöglichkeiten
- Steile Lernkurve
Python + Freie Software
+ Für andere Arten der Datenverarbeitung ist eine Einbindung der Analyse in größere Codes möglich
+ Einfacher zu lernen als R
- Geschwindigkeit der Ausführung kann langsamer sein
SPSS + Userfreundliche grafische Oberfläche
+ Umfangreiche Optionen zur Datenaufbereitung und -manipulation
- Kostenintensive Software
- Möglichkeiten zur Anpassung und Automatisierung sind begrenzter
Excel + Intuitive und den meisten geläufige Benutzeroberfläche
+ Breite Verfügbarkeit für die Masse
+ Grundlegende Analysefunktionen sind enthalten
+ Diagramme und Grafiken können leicht erstellt werden
- Begrenzte Auswahl an statistischen Funktionen
- Kann bei größeren Datensätzen an seine Grenzen stoßen
- Mangel an Reproduzierbarkeit von Analyseprozessen
Drucke deine Arbeit mit BachelorPrint
Bei BachelorPrint kannst du deine Arbeit ganz bequem online konfigurieren und anschließend drucken und binden lassen. Und das Ganze schon ab 7,90 €. Bestelle jetzt und erhalte deine Arbeit schon morgen mit unserem kostenlosen Express-Versand.

Häufig gestellte Fragen

Es handelt sich um ein statistisches Verfahren zur Modellierung und Analyse der Beziehung von einer abhängigen Variable und einer oder mehreren unabhängigen Variablen.

Eine Regression wird in Bereichen verwendet, welche regelmäßig Umgang mit empirischen Daten haben. Sie kann verwendet werden, um Vorhersagen zu machen, Trends zu erkennen, oder um die Auswirkungen von Änderungen einer unabhängigen Variable auf die abhängige Variable zu verstehen.

Die Methode der kleinsten Quadrate basiert auf der Minimierung der Summe der quadrierten Differenzen zwischen den tatsächlichen Werten der abhängigen Variablen und den von der Regressionsgleichung vorhergesagten Werten.

Dies hängt von der Art der Daten und der Fragestellung ab. Jedoch kann man generell zwischen den Modellen der einfachen linearen, multiplen linearen sowie der logistischen Regression unterscheiden.

Beim einfachen linearen Modell wird nur eine einzige unabhängige Variable zur Erklärung einer abhängigen Variable herangezogen. In der multiplen linearen Variante werden mehrere unabhängige Variablen zur Vorhersage der abhängigen Variable betrachtet.