Applied empirical health economics - Exam
Aufgabe 1)
Endogenität und ihre Auswirkungen auf Schätzungen in ökonometrischen ModellenEndogenität beschreibt eine Situation, in der eine oder mehrere erklärende Variablen mit dem Fehlerterm korreliert sind, was zu verzerrten und inkonsistenten Schätzungen führt. Hauptursachen für Endogenität können umgekehrte Kausalität, ausgelassene Variablen oder Messfehler sein. Dies hat zur Folge, dass die Schätzungen der Koeffizienten nicht verlässlich sind. Ein wichtiger Test zur Feststellung der Endogenität ist der Durbin-Wu-Hausman-Test. Zu den Lösungsstrategien gehören die Instrumentalvariablen-Schätzung (IV), die Aufnahme von Kontrollvariablen sowie die Nutzung von Paneldatenmodellen. Ein klassisches Beispiel ist die Untersuchung des Zusammenhangs zwischen Einkommen und Gesundheitsausgaben, wo umgekehrte Kausalität auftreten kann.
b)
Angenommen, Du hast folgende Regressionsgleichung zur Verteilung von Gesundheitsausgaben untersucht: \[HealthExpenses_i = \beta_0 + \beta_1 Income_i + \beta_2 Age_i + \beta_3 Education_i + u_i \] Eine vorläufige Analyse zeigt, dass das Einkommen endogen ist. Erläutere, wie die Instrumentalvariablen-Methode eingesetzt werden kann, um das Problem der Endogenität zu lösen. Definiere dabei ein geeignetes Instrument und erkläre, warum es valide ist. Zeige die Schritte der 2-Stufen-least-squares (2SLS) Methode auf und stelle relevante mathematische Gleichungen vor.
Lösung:
Verwendung der Instrumentalvariablen-Methode zur Lösung des Endogenitätsproblems
Angenommen, wir haben folgende Regressionsgleichung zur Verteilung von Gesundheitsausgaben:\[ \text{{HealthExpenses}}_i = \beta_0 + \beta_1 \text{{Income}}_i + \beta_2 \text{{Age}}_i + \beta_3 \text{{Education}}_i + u_i \]Bei einer vorläufigen Analyse hat sich gezeigt, dass das Einkommen (Income) endogen ist. Um das Endogenitätsproblem zu lösen, kann die Instrumentalvariablen-Methode (IV) eingesetzt werden.
Definition eines geeigneten Instruments
Ein geeignetes Instrument für das Einkommen könnte zum Beispiel die Arbeitsmarkterfahrung (WorkExperience) sein. Damit ein Instrument valide ist, muss es zwei Bedingungen erfüllen:
- Relevanz: Das Instrument muss stark mit der endogenen erklärenden Variablen (Einkommen) korreliert sein, jedoch
- Exogenität: Das Instrument darf nicht mit dem Fehlerterm \(u_i\) korreliert sein.
Die Arbeitsmarkterfahrung könnte ein valides Instrument sein, weil es plausibel ist, dass sie einen Einfluss auf das Einkommen hat (Relevanz), jedoch wenig direkt mit den nicht erklärten Faktoren der Gesundheitsausgaben korreliert ist (Exogenität).
Schritte der 2-Stufen-least-squares (2SLS) Methode
Die 2SLS Methode wird in zwei Schritten durchgeführt:
Schritt 1: Regressiere die endogene erklärende Variable (Einkommen) auf die exogenen Variablen und das Instrument.\[ \text{{Income}}_i = \pi_0 + \pi_1 \text{{WorkExperience}}_i + \pi_2 \text{{Age}}_i + \pi_3 \text{{Education}}_i + v_i \]Speichere die geschätzten Werte \( \widehat{\text{{Income}}}_i \) aus dieser Regression.
Schritt 2: Ersetze die endogene Variable in der ursprünglichen Regressionsgleichung durch die geschätzten Werte aus Schritt 1 und führe die Regression erneut durch.\[ \text{{HealthExpenses}}_i = \beta_0 + \beta_1 \widehat{\text{{Income}}}_i + \beta_2 \text{{Age}}_i + \beta_3 \text{{Education}}_i + e_i \]
Mathematische Details
Die 2SLS Methode kann mathematisch durch folgende Schritte beschrieben werden:1. Erster Schritt: Schätzung der Hilfsregression:\[ \widehat{\text{{Income}}}_i = \pi_0 + \pi_1 \text{{WorkExperience}}_i + \pi_2 \text{{Age}}_i + \pi_3 \text{{Education}}_i \]2. Zweiter Schritt: Ersatz der endogenen Variable durch den geschätzten Wert aus der ersten Stufe:\[ \text{{HealthExpenses}}_i = \beta_0 + \beta_1 \widehat{\text{{Income}}}_i + \beta_2 \text{{Age}}_i + \beta_3 \text{{Education}}_i + e_i \]Durch diese Methode können verzerrte und inkonsistente Schätzungen, die durch Endogenität verursacht wurden, vermieden werden, da das Instrument (hier: Arbeitsmarkterfahrung) eine Korrelation mit dem Einkommen aufweist, jedoch nicht mit dem Fehlerterm der ursprünglichen Gleichung.
Aufgabe 2)
In einer Studie zur Analyse des Einflusses von Bildung auf das Einkommen wird untersucht, ob höhere Bildungsabschlüsse zu höheren Gehältern führen. Es wird jedoch die Befürchtung geäußert, dass der Bildungsabschluss endogen ist. Um das Endogenitätsproblem zu überwinden, werden verschiedene Instrumentalvariablen (IVs) in Betracht gezogen. Du wirst gebeten, relevante IVs zu identifizieren, zu testen und zu schätzen, ob sie für dieses Modell geeignet sind.
a)
Diskutiere, welche Eigenschaften eine gute Instrumentalvariable in diesem Kontext haben sollte. Erkläre ausführlich, warum diese Eigenschaften wichtig sind und wie sie überprüft werden können.
Lösung:
Eigenschaften einer guten Instrumentalvariable (IV)
- Relevanz: Die Instrumentalvariable muss stark mit der erklärenden Variablen korrelieren, die das Einkommen beeinflusst, in diesem Fall der Bildungsabschluss. Eine IV wird als stark angesehen, wenn sie die Variation in der erklärenden Variablen gut erklären kann. Dies kann durch statistische Tests wie den F-Test in der ersten Stufe der Zwei-Stufen-Regression (Two-Stage Least Squares, 2SLS) überprüft werden. Ein F-Wert größer als 10 wird oft als Indikator für eine starke IV angesehen.Formel: In der ersten Stufe eines 2SLS-Regressionsmodells:\[\text{Bildung}_i = \alpha_0 + \alpha_1\text{IV}_i + \ldots + \epsilon_i \]Hier sollte der F-Test für \(\alpha_1\) signifikant sein.
- Exogenität: Die Instrumentalvariable muss exogen sein, das heißt, sie darf nicht mit der Störgröße der Hauptequation korrelieren. Dies stellt sicher, dass die IV nicht durch andere ungemessene Faktoren verzerrt wird, die auch das Einkommen beeinflussen könnten. Um die Exogenität zu überprüfen, kann man den überidentifizierten Test (z.B. Hansen's J-Test) verwenden, wenn es mehr IVs als endogene Variablen gibt.Formel: Überidentifizierungstest:\[J = nR^2 \]
- Exklusionsrestriktion: Die IV sollte das Einkommen nur durch den Bildungsabschluss beeinflussen und nicht direkt das Einkommen beeinflussen. Dies ist schwer direkt zu testen und wird oft durch theoretische Überlegungen und empirische Plausibilität bewertet. Manchmal kann die Validierung durch Vergleich mit früheren Studien erfolgen, die ähnliche Instrumentvariablen verwenden.
Bedeutung der Eigenschaften und Überprüfung
- Relevanz: Wenn eine IV nicht stark mit der erklärenden Variablen korreliert, führt dies zu einem schwachen Instrumentenproblem, das die Schätzungen unzuverlässig und verzerrt macht. Statistische Tests wie der F-Test in der ersten Stufe helfen dabei, dies zu überprüfen.
- Exogenität: Ohne Exogenität können die IV-Schätzungen verzerrt sein, da die IV selbst durch ungemessene Störgrößen beeinflusst wird. Tests wie der Hansen J-Test helfen, die Gültigkeit dieser Annahme zu überprüfen.
- Exklusionsrestriktion: Dies stellt sicher, dass die IV keinen direkten Einfluss auf die abhängige Variable (Einkommen) hat, außer durch die endogene Variable (Bildung). Dies ist vor allem durch theoretische Überlegungen sicherzustellen und erfordert meist keine spezifischen statistischen Tests.
b)
In der Studie stehen zwei potenzielle Instrumentalvariablen zur Verfügung: die geografische Nähe zu Hochschulen und die Bildungsabschlüsse der Eltern. Untersuche und bewerte jede dieser IVs hinsichtlich ihrer Exogenität und Relevanz. Um diese Bewertung zu untermauern, führe einen Overidentifikationstest (Sargan-Test) durch, wenn mehrere IVs gleichzeitig verwendet werden.
Lösung:
Bewertung der Instrumentalvariablen
1. Geografische Nähe zu Hochschulen
- Relevanz: Die geografische Nähe zu Hochschulen kann die Wahrscheinlichkeit erhöhen, dass eine Person eine höhere Bildung erlangt. Dies könnte durch Logistikkosten, Zugänglichkeit und andere Faktoren beeinflusst werden. Eine Regressionsanalyse könnte zeigen, dass die Nähe zu Hochschulen signifikant mit der Bildungswahl korreliert.
- Exogenität: Wenn die geografische Nähe zu Hochschulen zufällig verteilt ist und nicht durch andere Faktoren (wie Einkommensniveau der Eltern oder Qualität der Schulen in der Region) beeinflusst wird, kann sie als exogen betrachtet werden. Es ist jedoch wichtig zu prüfen, ob diese Annahme gerechtfertigt ist, etwa durch demografische und sozioökonomische Kontrollvariablen.
2. Bildungsabschlüsse der Eltern
- Relevanz: Die Bildungsabschlüsse der Eltern sind oft ein starker Prädiktor für den Bildungserfolg der Kinder, da gebildete Eltern tendenziell mehr Wert auf Bildung legen und bessere Unterstützung bieten können. Statistische Tests sollten eine signifikante Korrelation zwischen Elternbildung und Kinderbildung zeigen.
- Exogenität: Eine Herausforderung ist, dass die Bildungsabschlüsse der Eltern möglicherweise nicht exogen sind, da sie auch durch andere Faktoren beeinflusst werden können, die direkt das Einkommen des Kindes beeinflussen (wie soziale Netzwerke und ökonomisches Kapital). Es ist wichtig sicherzustellen, dass die Bildungsabschlüsse der Eltern nicht direkt mit der Störgröße der Hauptequation korrelieren.
Overidentifikationstest (Sargan-Test)
Wenn beide Instrumentalvariablen (geografische Nähe zu Hochschulen und Bildungsabschlüsse der Eltern) gleichzeitig verwendet werden, kann ein Overidentifikationstest (Sargan-Test) zur Überprüfung der Exogenität durchgeführt werden.
- Formel: Der Sargan-Test basiert auf der Restriktion, dass die Instrumentalvariablen exogen sind. Er kann wie folgt formuliert werden: \[ J = nR^2 \] wobei \( n \) die Anzahl der Beobachtungen und \( R^2 \) das Bestimmtheitsmaß der Regression der geschätzten Residuen auf die Instrumentalvariablen und andere exogene Variablen ist.
- Schritt 1: Erhalte die geschätzten Residuen aus der 2SLS-Hauptregression.
- Schritt 2: Regrediere diese Residuen auf alle Instrumentalvariablen und exogenen Variablen.
- Schritt 3: Berechne den J-Statistikwert als \( nR^2 \). Dieser Wert folgt einer Chi-Quadrat-Verteilung mit Grad der Freiheit entsprechend der Anzahl der Überidentifikationsbeschränkungen.
- Ergebnisbewertung: Wenn der p-Wert des Sargan-Tests hoch ist, gibt es keine Evidenz gegen die Nullhypothese der Validität der Instrumente. Ein niedriger p-Wert würde jedoch darauf hindeuten, dass mindestens eine der Instrumentalvariablen nicht exogen ist.
Durch die Durchführung des Sargan-Tests kannst Du die Eignung der Instrumentalvariablen in Deinem Modell bewerten und sicherstellen, dass die verwendeten Instrumente gültig sind.
c)
Führe die Schätzung des Einflusses der Bildung auf das Einkommen mithilfe des IV-Schätzers durch. Nutze die Instrumentalvariable 'geografische Nähe zu Hochschulen' und berechne den Schätzer \[ \hat{\beta}_{IV} = \left( Z'X \right)^{-1} Z'y \]. Zeige alle Schritte und berechne das Ergebnis. Vergleiche die Schätzwerte mit den OLS-Schätzern und diskutiere die Ergebnisse unter Berücksichtigung eines durchgeführten Hausman-Tests.
Lösung:
Schätzung des Einflusses der Bildung auf das Einkommen mithilfe des IV-Schätzers
Instrumental Variable (IV): Geografische Nähe zu Hochschulen
Um den Einfluss der Bildung auf das Einkommen mithilfe des IV-Schätzers zu berechnen, folgen wir den folgenden Schritten:
1. Vorbereitung der Daten
- Y: Einkommen
- X: Bildung
- Z: Geografische Nähe zu Hochschulen (Instrumentalvariable)
2. IV-Schätzer berechnen
Der IV-Schätzer \(\beta_{IV}\) kann wie folgt berechnet werden:
- Formel: \[ \hat{\beta}_{IV} = \left( Z'X \right)^{-1} Z'y \]
Schritte:
- Berechne \( Z'X \): Dies ist das Produkt der transponierten Matrix Z und der Matrix X.
- Berechne \( (Z'X)^{-1} \): Dies ist die Inverse der Matrix \( Z'X \).
- Berechne \( Z'y \): Dies ist das Produkt der transponierten Matrix Z und der Vektors y.
- Multipliziere die berechneten Matrizen: \( (Z'X)^{-1} Z'y \).
3. Vergleich mit OLS-Schätzern
Berechne die OLS-Schätzer für denselben Datensatz und vergleichen Sie die Ergebnisse. Die OLS-Schätzung erfolgt durch die Formel:
- Formel: \[ \hat{\beta}_{OLS} = (X'X)^{-1} X'y \]
4. Durchführung eines Hausman-Tests
Nutze den Hausman-Test, um zu überprüfen, ob die Differenz zwischen den IV- und OLS-Schätzern signifikant ist. Der Hausman-Test hilft zu bestimmen, ob der Unterschied auf die Endogenität der erklärenden Variablen zurückzuführen ist.
- Formel: \[ H = ( \hat{\beta}_{IV} - \hat{\beta}_{OLS} )' \left[ Var( \hat{\beta}_{IV} ) - Var( \hat{\beta}_{OLS} ) \right]^{-1} ( \hat{\beta}_{IV} - \hat{\beta}_{OLS} ) \]
Beispielrechnung und Ergebnisse
Angenommen, wir haben die folgenden fiktiven Daten:
- Y: Einkommen = [50, 60, 70]
- X: Bildung = [10, 12, 14]
- Z: Geografische Nähe zu Hochschulen = [5, 4, 6]
Berechnungsschritte:
- \( Z'X = [5, 4, 6] \cdot [10, 12, 14]' = 5 \cdot 10 + 4 \cdot 12 + 6 \cdot 14 = 50 + 48 + 84 = 182 \)
- \( (Z'X)^{-1} = 1 / 182 \)
- \( Z'y = [5, 4, 6] \cdot [50, 60, 70]' = 5 \cdot 50 + 4 \cdot 60 + 6 \cdot 70 = 250 + 240 + 420 = 910 \)
- \( \hat{\beta}_{IV} = (1 / 182) \cdot 910 = 5 \)
Angenommen, der OLS-Schätzer ergibt \( \hat{\beta}_{OLS} = 4.5 \).
Der Hausman-Test könnte ein Ergebnis liefern, das anzeigt, ob der Unterschied zwischen \( \hat{\beta}_{IV} \) und \( \hat{\beta}_{OLS} \) signifikant ist, was auf Endogenität hinweist.
Diskussion der Ergebnisse
- IV-Schätzer (\( \hat{\beta}_{IV} \)): 5
- OLS-Schätzer (\( \hat{\beta}_{OLS} \)): 4.5
Falls der Hausman-Test signifikant ist, würde dies bestätigen, dass die Variablen endogen sind und die IV-Schätzung vorzuziehen ist. Falls nicht, könnten die Ergebnisse bedeuten, dass der OLS-Schätzer nicht verzerrt ist und ebenfalls zuverlässig ist.
Aufgabe 3)
Du arbeitest an einer empirischen Untersuchung zur Schätzung eines Gesundheitsökonomie-Modells. In Deinem Modell hast Du Lieferzeiten von Hausärzten (Y) als abhängige Variable und das Einkommen der Patienten (X) als eine der unabhängigen Variablen. Um das potenzielle Endogenitätsproblem zu lösen, verwendest Du die Verfügbarkeit von Hausärzten pro 10000 Einwohner in der Region (Z) als Instrumentalvariable. Dabei möchtest Du die Relevanz und Exogenität Deiner Instrumentalvariable testen.
b)
b) Interpretiere das Ergebnis des F-Tests. Was würde ein hoher F-Wert bedeuten? Und wie würdest Du vorgehen, wenn der F-Wert nahe bei 0 liegt?
Lösung:
- b) Interpretiere das Ergebnis des F-Tests. Was würde ein hoher F-Wert bedeuten? Und wie würdest Du vorgehen, wenn der F-Wert nahe bei 0 liegt?
- Interpretation des F-Tests:
- Ein hoher F-Wert deutet darauf hin, dass die Instrumentalvariable (Z) signifikant ist und eine relevante Rolle bei der Erklärung der Variation der abhängigen Variable (Y) spielt. Konkret bedeutet dies, dass der Beitrag der Instrumentalvariable zur Erklärung der Varianz der Lieferzeiten von Hausärzten statistisch signifikant ist. Dies unterstützt die Ablehnung der Nullhypothese \(H_0: \beta_Z = 0\), was darauf hindeutet, dass \(\beta_Z\) tatsächlich ungleich null ist.
- Ein hoher F-Wert zeigt also, dass die Instrumentalvariable geeignet ist und dass es nicht notwendig ist, nach anderen Instrumentalvariablen zu suchen oder das Modell signifikant zu ändern.
- Wenn der F-Wert nahe bei 0 liegt:
- Ein niedriger F-Wert, insbesondere nahe bei 0, würde darauf hinweisen, dass die Instrumentalvariable (Z) keinen signifikanten Beitrag zur Erklärung der Variation der abhängigen Variable (Y) leistet. Dies bedeutet, dass die Regressionsergebnisse keinen signifikanten Zusammenhang zwischen der Instrumentalvariable und der abhängigen Variable zeigen.
- Im Fall eines niedrigen F-Werts solltest Du folgendermaßen vorgehen:
- 1. Überprüfe die Instrumentalvariablen: Überprüfe, ob es andere mögliche Instrumentalvariablen gibt, die relevanter und besser geeignet sind. Vielleicht gibt es andere demografische oder regionale Faktoren, die sich besser als Instrumentalvariable eignen.
- 2. Modelle verbessern: Überprüfe das Modell und die Variablen, um sicherzustellen, dass alle relevanten Faktoren berücksichtigt werden. Möglicherweise sind zusätzliche unabhängige Variablen oder Wechselwirkungen zwischen den Variablen erforderlich.
- 3. Datenqualität: Untersuche die Qualität deiner Daten. Prüfe, ob es Datenprobleme, wie Ausreißer, Fehler oder unvollständige Daten gibt, die die Ergebnissen beeinflussen könnten.
- 4. Anpassung der Methode: Erwäge andere methodische Ansätze, wie z.B. die Nutzung anderer statistischer Techniken oder Modelle, um das Endogenitätsproblem zu lösen.
c)
c) Erläutere die Methode zur Durchführung des Hansen-J-Tests zur Überprüfung der Exogenität. Was ist die Nullhypothese, und wie interpretierst Du das Ergebnis des Tests?
Lösung:
- c) Erläutere die Methode zur Durchführung des Hansen-J-Tests zur Überprüfung der Exogenität. Was ist die Nullhypothese, und wie interpretierst Du das Ergebnis des Tests?
- Hansen-J-Test zur Überprüfung der Exogenität:
- Der Hansen-J-Test, auch bekannt als Sargan-Test (bei identifizierten Modellen) oder J-Test, wird verwendet, um die Exogenität der Instrumentalvariablen zu überprüfen. Hier wird getestet, ob die Instrumentalvariablen tatsächlich exogen sind, d.h., ob sie unkorreliert mit dem Fehlerterm sind.
- Die Methode zur Durchführung des Tests umfasst die folgenden Schritte:
- 1. Schätze das Hauptmodell: Schätze das ursprüngliche Modell unter Verwendung der Instrumentalvariablen. Dies geschieht typischerweise durch eine Zwei-Stufen-Least-Squares-Regression (2SLS).
- 2. Residuen berechnen: Berechne die Residuen der geschätzten Regression aus dem Hauptmodell.
- 3. Hilfsregression durchführen: Führe eine Regression der Residuen auf alle Instrumentalvariablen durch.
- 4. J-Statistik berechnen: Die J-Statistik ist das Produkt der Anzahl der Instrumentalvariablen und dem R² (Bestimmtheitsmaß) dieser Hilfsregression:
- Hierbei ist \(n\) die Anzahl der Beobachtungen und \(R^2\) das Bestimmtheitsmaß der Hilfsregression.
- Nullhypothese: Die zu testende Nullhypothese lautet, dass die Instrumentalvariablen exogen sind, d.h., sie sind unkorreliert mit dem Fehlerterm.
- \(H_0: \text{Instrumentalvariablen sind exogen}\)
- Alternativhypothese: Die Instrumentalvariablen sind nicht exogen.
- \(H_A: \text{Instrumentalvariablen sind nicht exogen}\)
- Interpretation des Tests:
- Der Hansen-J-Test basiert auf der Chi-Quadrat-Verteilung. Der Wert der J-Statistik wird mit dem kritischen Wert der Chi-Quadrat-Verteilung verglichen, der für die Anzahl der überidentifizierten Einschränkungen (Anzahl der Instrumente minus Anzahl der endogenen Variablen) berechnet wird.
- - Wenn der berechnete J-Wert kleiner ist als der kritische Wert, können wir die Nullhypothese nicht ablehnen, was darauf hinweist, dass die Instrumentalvariablen exogen sind.
- - Wenn der berechnete J-Wert größer ist als der kritische Wert, lehnen wir die Nullhypothese ab, was darauf hindeutet, dass die Instrumentalvariablen endogen sind, also korreliert mit dem Fehlerterm sind. Dies würde bedeuten, dass die Instrumentalvariablen ungeeignet sind.
- - Ein signifikanter (hoher) J-Wert (größer als der kritische Wert) bedeutet, dass die Instrumentalvariablen nicht exogen sind und das Modell möglicherweise falsch spezifiziert ist.
- - Ein nicht signifikanter (niedriger) J-Wert (kleiner oder gleich dem kritischen Wert) bedeutet, dass die Instrumentalvariablen als exogen betrachtet werden können.
d)
d) Angenommen, die Stichprobengröße n beträgt 300 und der R-Quadrat-Wert der Regression der Fehlschätzungsfehler auf die Instrumente beträgt 0.02. Berechne den Wert des Hansen-J-Tests und erläutere, ob Du die Nullhypothese der Exogenität ablehnen oder annehmen würdest.
Lösung:
- d) Angenommen, die Stichprobengröße n beträgt 300 und der R-Quadrat-Wert der Regression der Fehlschätzungsfehler auf die Instrumente beträgt 0.02. Berechne den Wert des Hansen-J-Tests und erläutere, ob Du die Nullhypothese der Exogenität ablehnen oder annehmen würdest.
- Formel für den Hansen-J-Test:
- Der Wert der J-Statistik wird wie folgt berechnet:
- Wo:
- \(n\) die Stichprobengröße ist (in diesem Fall 300)
- \(R^2\) das Bestimmtheitsmaß der Hilfsregression ist (in diesem Fall 0.02)
- \(J = 300 \times 0.02 = 6\)
- Der berechnete Wert der J-Statistik ist 6.
- Um die Nullhypothese der Exogenität zu testen, vergleichen wir den berechneten J-Wert mit dem kritischen Wert der Chi-Quadrat-Verteilung. Die Freiheitsgrade dieser Verteilung hängen von der Anzahl der überidentifizierten Instrumente ab. Da wir keine genaue Anzahl der Instrumente oder der endogenen Variablen im Kontext haben, setzen wir hypothetisch an, dass wir 1 Freiheitgrad haben. Im Allgemeinen ist der kritische Wert für Chi-Quadrat-Verteilung bei 1 Freiheitsgrad und einem Signifikanzniveau von 5% etwa 3.841.
- - Wenn der berechnete J-Wert kleiner ist als der kritische Wert, wird die Nullhypothese der Exogenität angenommen.
- - Wenn der berechnete J-Wert größer ist als der kritische Wert, wird die Nullhypothese der Exogenität abgelehnt.
- In diesem Fall:
- Der berechnete J-Wert ist 6, was größer ist als der kritische Wert von 3.841. Das bedeutet, dass wir die Nullhypothese \(H_0\) ablehnen und annehmen müssen, dass die Instrumentalvariable nicht exogen ist.
- Ein J-Wert von 6 ist ein Hinweis darauf, dass die Instrumentalvariable (Z) mit den Fehlern im Modell korreliert ist, und daher möglicherweise nicht geeignet ist.
Aufgabe 4)
Du hast das Ergebnis einer linearen Regression eines Gesundheitsökonomie-Modells vorliegen. In diesem Modell wurde die Auswirkung des Einkommens (income) auf die Gesundheitsausgaben (health_exp) untersucht. Zur Erkennung von Heteroskedastizität hast du den Breusch-Pagan-Test durchgeführt, welcher eine signifikante Heteroskedastizität anzeigt. Nun sollst du diese Heteroskedastizität beheben, indem du robuste Standardfehler verwendest.
a)
(a) Erkläre, warum Heteroskedastizität ein Problem in der linearen Regression darstellt und wie sie die Effizienz der Schätzungen und die Testergebnisse beeinflussen kann.
Lösung:
(a) Heteroskedastizität ist ein Problem in der linearen Regression, weil sie die Annahme verletzt, dass die Varianz der Störgrößen konstant ist. Diese Annahme wird als Homoskedastizität bezeichnet. Wenn Heteroskedastizität vorliegt, ändert sich die Varianz der Fehlerterme in Abhängigkeit von einer oder mehreren erklärenden Variablen. Das hat mehrere Konsequenzen:
- Effizienz der Schätzungen: Die Schätzer der kleinsten Quadrate (OLS), die bei homogener Varianz effizient sind, sind bei heteroskedastischen Fehlern nicht mehr optimal. Das heißt, die Varianzen der OLS-Schätzer sind tendenziell größer, was bedeutet, dass die Schätzungen weniger präzise sind.
- Konsistenz der Standardfehler: Die üblichen Standardfehler der OLS-Schätzer sind nicht korrekt, wenn Heteroskedastizität vorliegt. Das führt dazu, dass die Konfidenzintervalle und Signifikanztests unzuverlässig werden. Insbesondere können die tatsächlichen Fehlerraten der Hypothesentests von den nominalen Fehlerraten abweichen, was dazu führt, dass häufig falsche Schlüsse gezogen werden.
Zusammengefasst beeinflusst Heteroskedastizität die Validität und Zuverlässigkeit der Testergebnisse und führt zu ineffizienten Schätzungen der Regressionskoeffizienten. Um diesen Problemen zu begegnen, verwendet man robuste Standardfehler, die gegenüber Heteroskedastizität unempfindlich sind und somit präzisere Standardfehler und Testergebnisse liefern.
b)
(b) Führe den White-Test auf Heteroskedastizität durch, indem du die folgenden Schritte ausführst:
- Bestimme zunächst die Residuen aus der Regression.
- Schätze eine Hilfsregression der quadrierten Residuen auf alle unabhängigen Variablen der ursprünglichen Regression sowie deren Quadrate und Kreuzprodukte.
- Berechne den entsprechenden Statistik-Wert und beurteile, ob Heteroskedastizität vorliegt.
Gehe von den folgenden fiktiven Daten aus:
Einkommen (income) | Gesundheitsausgaben (health_exp) |
---|
20 | 300 |
30 | 450 |
40 | 600 |
50 | 850 |
60 | 900 |
Lösung:
(b) Um den White-Test auf Heteroskedastizität durchzuführen, gehst Du wie folgt vor:
- Bestimme zunächst die Residuen aus der Regression.
- Schätze eine Hilfsregression der quadrierten Residuen auf alle unabhängigen Variablen der ursprünglichen Regression sowie deren Quadrate und Kreuzprodukte.
- Berechne den entsprechenden Statistik-Wert und beurteile, ob Heteroskedastizität vorliegt.
Gehe von den folgenden fiktiven Daten aus:
Einkommen (income) | Gesundheitsausgaben (health_exp) |
---|
20 | 300 |
30 | 450 |
40 | 600 |
50 | 850 |
60 | 900 |
- Bestimme die Residuen:Führe eine lineare Regression der Gesundheitsausgaben auf das Einkommen durch. Die Regressionsgleichung lautet:
\[ \text{health_exp} = \beta_0 + \beta_1 \times \text{income} \]
Nutze die gegebenen Daten, um die Koeffizienten \(\beta_0\) und \(\beta_1\) zu schätzen. Angenommen, die geschätzte Gleichung lautet:
\[ \text{health_exp} = 75 + 12.5 \times \text{income} \]
Berechne die Residuen \((e_i)\) für jeden Datenpunkt:
- Für \(income = 20\):
\[ e_1 = 300 - (75 + 12.5 \times 20) = 300 - 325 = -25 \]
- Für \(income = 30\):
\[ e_2 = 450 - (75 + 12.5 \times 30) = 450 - 450 = 0 \]
- Für \(income = 40\):
\[ e_3 = 600 - (75 + 12.5 \times 40) = 600 - 575 = 25 \]
- Für \(income = 50\):
\[ e_4 = 850 - (75 + 12.5 \times 50) = 850 - 700 = 150 \]
- Für \(income = 60\):
\[ e_5 = 900 - (75 + 12.5 \times 60) = 900 - 825 = 75 \]
- Schätze eine Hilfsregression: Schätze die Regression der quadrierten Residuen auf \(income\), \(income^2\) und \(income \cdot income\):
\[e_i^2 = \beta_0 + \beta_1 \times \text{income} + \beta_2 \times \text{income}^2 \]
- Benutze dafür die quadrierten Residuen:
- \[ e_1^2 = (-25)^2 = 625 \]
- \[ e_2^2 = 0^2 = 0 \]
- \[ e_3^2 = 25^2 = 625 \]
- \[ e_4^2 = 150^2 = 22500 \]
- \[ e_5^2 = 75^2 = 5625 \]
Diese Regression liefert Schätzwerte für die Koeffizienten \(\beta_0, \beta_1\) und \(\beta_2\).
- Berechne den White-Test-Statistik: Der Test besteht darin, zu prüfen, ob die quadrierten Residuen signifikant von null abweichen. Berechne den \(R^2\)-Wert aus der Hilfsregression:
\[ X^2 = n \times R^2 \]
wobei \(n\) die Anzahl der Beobachtungen ist. Angenommen, \(n = 5\) und \(R^2\)-Wert aus der Hilfsregression sei 0.9:
\[ X^2 = 5 \times 0.9 = 4.5 \]
Vergleiche diesen Wert mit dem kritischen Wert der \(\chi^2\)-Verteilung mit 3 Freiheitsgraden (Anzahl der Variablen - 1).
Der kritische Wert bei einem Signifikanzniveau von 5% beträgt 7.815.
Da die Teststatistik \(4.5\) kleiner ist als der kritische Wert, können wir die Nullhypothese, dass keine Heteroskedastizität vorliegt, nicht ablehnen.
Fazit: Es wurde keine signifikante Heteroskedastizität festgestellt.