Biometrie und Epidemiologie - Exam.pdf

Biometrie und Epidemiologie - Exam
Biometrie und Epidemiologie - Exam Aufgabe 1) In einer epidemiologischen Studie wurden die Cholesterinwerte von 150 Probanden gemessen. Um diese Daten zu analysieren, entscheidest Du Dich für die Verwendung von Histogrammen und Boxplots. a) Erstelle ein Histogramm der Cholesterinwerte. Bestimme die angemessene Anzahl der Klassen für dein Histogramm und erkläre welche Bedeutung die Wahl der Klassen...

© StudySmarter 2024, all rights reserved.

Biometrie und Epidemiologie - Exam

Aufgabe 1)

In einer epidemiologischen Studie wurden die Cholesterinwerte von 150 Probanden gemessen. Um diese Daten zu analysieren, entscheidest Du Dich für die Verwendung von Histogrammen und Boxplots.

a)

Erstelle ein Histogramm der Cholesterinwerte. Bestimme die angemessene Anzahl der Klassen für dein Histogramm und erkläre welche Bedeutung die Wahl der Klassenbreite hat. Berechne die Klassenanzahl mit der Formel: \( k = \sqrt{n} ).

Lösung:

Um ein Histogramm der Cholesterinwerte zu erstellen, folgen wir diesen Schritten:

  • Bestimme die Anzahl der Klassen:
    • Die Anzahl der Klassen wird mit der Formel\( k = \sqrt{n} \) berechnet, wobei \( n \) die Anzahl der Probanden darstellt.
    • In diesem Fall haben wir \( n = 150 \). Wir berechnen also:
    • k = \sqrt{150} ≈ 12.25
    • Meistens runden wir die Anzahl der Klassen auf die nächste ganze Zahl auf, also verwenden wir 13 Klassen.
  • Erkläre die Bedeutung der Wahl der Klassenbreite:
    • Die Klassenbreite bestimmt, wie viele Datenwerte in jeder Klasse enthalten sind.
    • Eine zu große Klassenbreite (wenige Klassen) kann dazu führen, dass wichtige Details und Unterschiede in den Daten verloren gehen.
    • Eine zu kleine Klassenbreite (viele Klassen) kann dazu führen, dass das Histogramm zu unübersichtlich wird und viele leere Klassen entstehen.
    • Eine gut gewählte Klassenbreite sorgt dafür, dass das Histogramm ein klares und aussagekräftiges Bild der Datenverteilung bietet.

Aufgabe 2)

Im Rahmen einer Studie wurde der durchschnittliche Blutdruck einer Population untersucht. Die Forscher haben eine Stichprobe von 100 Personen gezogen und dabei einen durchschnittlichen Blutdruck von 130 mmHg ermittelt. Sie wissen, dass die Standardabweichung des Blutdrucks in der gesamten Population 15 mmHg beträgt. Berechne und interpretiere das 95%-Konfidenzintervall für den durchschnittlichen Blutdruck in dieser Population.

a)

Berechne das 95%-Konfidenzintervall für den durchschnittlichen Blutdruck. Verwende dabei die Formel \( \hat{\theta} \pm z \cdot \frac{\sigma}{\sqrt{n}} \) und beachte, dass der z-Wert für ein 95%-Konfidenzintervall 1,96 beträgt. Stelle sicher, dass Du alle Zwischenschritte deutlich zeigst.

Lösung:

Um das 95%-Konfidenzintervall für den durchschnittlichen Blutdruck zu berechnen, nutzen wir die gegebene Formel:

\( \hat{\theta} \pm z \cdot \frac{\sigma}{\sqrt{n}} \ \)

Gegeben:
  • \( \hat{\theta} = 130 \ \) mmHg (Stichprobenmittelwert)
  • \( \sigma = 15 \ \) mmHg (Standardabweichung der Population)
  • \( n = 100 \ \) (Stichprobengröße)
  • z-Wert für 95%-Konfidenzintervall = 1,96

Schritt für Schritt:

  1. Berechne den Standardfehler des Mittelwerts:
  2. \( \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{100}} = \frac{15}{10} = 1,5 \ \ \)

  3. Multipliziere den Standardfehler mit dem z-Wert für das 95%-Konfidenzintervall:
  4. \( 1,96 \cdot 1,5 = 2,94 \ \)

  5. Berechne die Grenzen des Konfidenzintervalls:
  • Untere Grenze: \( 130 - 2,94 = 127,06 \ \) mmHg
  • Obere Grenze: \( 130 + 2,94 = 132,94 \ \) mmHg
Ergebnis:

Das 95%-Konfidenzintervall für den durchschnittlichen Blutdruck in dieser Population liegt zwischen 127,06 mmHg und 132,94 mmHg.

Das bedeutet, dass wir mit 95%iger Sicherheit sagen können, dass der wahre durchschnittliche Blutdruck in der Population innerhalb dieses Bereichs liegt.

b)

Interpretiere das berechnete Konfidenzintervall. Was kannst Du daraus über den durchschnittlichen Blutdruck in der Population schließen?

Lösung:

Interpretation des berechneten Konfidenzintervalls:

  • Das berechnete 95%-Konfidenzintervall für den durchschnittlichen Blutdruck in der Population liegt zwischen 127,06 mmHg und 132,94 mmHg.
  • Das bedeutet, dass wir mit einem 95%-Konfidenzniveau sagen können, dass der wahre durchschnittliche Blutdruck der gesamten Population zwischen 127,06 mmHg und 132,94 mmHg liegt.

In der Praxis bedeutet dies:

  • Dieser Bereich gibt uns eine Vorstellung davon, wo der tatsächliche durchschnittliche Blutdruck der Population zu erwarten ist, basierend auf der uns vorliegenden Stichprobe von 100 Personen.
  • Es ist wichtig zu betonen, dass das Konfidenzintervall nicht besagt, dass 95% der Blutdruckwerte der Population in diesem Bereich liegen, sondern nur, dass wir mit 95%iger Sicherheit davon ausgehen können, dass der wahre Mittelwert der Population in diesem Intervall liegt.
  • Das Konfidenzintervall hilft uns, die Präzision unserer Schätzung einzuordnen: Ein schmaleres Intervall würde auf eine präzisere Schätzung hindeuten, während ein breiteres Intervall auf eine weniger präzise Schätzung hinweisen würde. In diesem Fall deutet das Intervall von etwa 5,88 mmHg auf eine relativ präzise Schätzung des durchschnittlichen Blutdrucks in der Population hin.

c)

Angenommen, die Stichprobengröße wird verdoppelt, während der durchschnittliche Blutdruck und die Standardabweichung gleich bleiben. Wie würde sich das Konfidenzintervall ändern? Berechne das neue 95%-Konfidenzintervall und vergleiche es mit dem zuvor berechneten Intervall.

Lösung:

Wenn die Stichprobengröße verdoppelt wird, während der durchschnittliche Blutdruck und die Standardabweichung gleich bleiben, ändern sich die Berechnungen für das 95%-Konfidenzintervall wie folgt:

Wir verwenden wieder die Formel:

\( \hat{\theta} \pm z \cdot \frac{\sigma}{\sqrt{n}} \ \)

Gegeben (nach Verdopplung der Stichprobengröße):
  • \( \hat{\theta} = 130 \ \) mmHg (Stichprobenmittelwert)
  • \( \sigma = 15 \ \) mmHg (Standardabweichung der Population)
  • \( n = 200 \ \) (Stichprobengröße, verdoppelt)
  • z-Wert für 95%-Konfidenzintervall = 1,96

Schritt für Schritt für die neue Stichprobengröße:

  1. Berechne den neuen Standardfehler des Mittelwerts:
  2. \( \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{200}} = \frac{15}{14,14} \approx 1,06 \ \ \)

  3. Multipliziere den neuen Standardfehler mit dem z-Wert für das 95%-Konfidenzintervall:
  4. \( 1,96 \cdot 1,06 \approx 2,08 \ \)

  5. Berechne die neuen Grenzen des Konfidenzintervalls:
  • Untere Grenze: \( 130 - 2,08 = 127,92 \ \) mmHg
  • Obere Grenze: \( 130 + 2,08 = 132,08 \ \) mmHg
Ergebnis (nach Verdopplung der Stichprobengröße):

Das neue 95%-Konfidenzintervall liegt zwischen 127,92 mmHg und 132,08 mmHg.

Vergleich mit dem ursprünglichen Konfidenzintervall:

  • Ursprüngliches Konfidenzintervall (n = 100): 127,06 mmHg bis 132,94 mmHg
  • Neues Konfidenzintervall (n = 200): 127,92 mmHg bis 132,08 mmHg

Wenn die Stichprobengröße verdoppelt wird, verengt sich das Konfidenzintervall. Dies zeigt, dass wir mit einer größeren Stichprobe eine genauere Schätzung des durchschnittlichen Blutdrucks in der Population erhalten.

Aufgabe 3)

Betrachte folgendes Szenario: In einer Studie wird untersucht, wie gut verschiedene Faktoren die Blutdruckwerte von Patienten vorhersagen können. Die abhängige Variable ist der Blutdruckwert \( y \), und die unabhängigen Variablen sind das Alter \( x_1 \), der BMI (Body Mass Index) \( x_2 \), und die tägliche Salzaufnahme in Gramm \( x_3 \). Wir gehen von einem linearen Zusammenhang aus, und das Regressionsmodell zur Beschreibung der Beziehung ist folgendes:

  • \[ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3 + \epsilon \]

Hierbei sind:

  • \( y \): Blutdruckwert
  • \( x_1 \): Alter
  • \( x_2 \): BMI
  • \( x_3 \): tägliche Salzaufnahme
  • \( \beta_0 \): Interzept
  • \( \beta_1, \beta_2, \beta_3 \): Regressionskoeffizienten
  • \( \epsilon \): Fehlerterm
Nutze dieses Modell in den folgenden Aufgaben:

a)

Aufgabe 1:

Gegeben sei das folgende Datenset mit Beobachtungen:

  • Patient 1: Alter = 50, BMI = 25, Salzaufnahme = 8, Blutdruck = 135
  • Patient 2: Alter = 40, BMI = 30, Salzaufnahme = 7, Blutdruck = 120
  • Patient 3: Alter = 60, BMI = 28, Salzaufnahme = 9, Blutdruck = 150

Verwende eine Software Deiner Wahl (z.B. R oder Python), um das multivariate Regressionsmodell zu schätzen. Führe die Berechnungen aus und interpretiere die geschätzten Regressionskoeffizienten \( \beta_0, \beta_1, \beta_2 \), und \( \beta_3 \).

Hinweise: Achte darauf, dass Du alle Zwischenschritte wie die Berechnung der notwendigen Matrizen und deren Inversion dokumentierst.

Lösung:

Aufgabe 1:

Um das multivariate Regressionsmodell zu schätzen, verwenden wir Python und die Bibliothek statsmodels. Das Datenset enthält die Beobachtungen von drei Patienten mit den Variablen Alter, BMI, tägliche Salzaufnahme und Blutdruck. Unser Ziel ist es, das lineare Regressionsmodell zu schätzen und die Regressionskoeffizienten zu interpretieren.

Folgende Schritte sind notwendig:

  • 1. Datenset definieren
  • 2. Regressionsmodell anpassen
  • 3. Geschätzte Regressionskoeffizienten interpretieren

1. Datenset definieren:

import numpy as npimport statsmodels.api as sm# Definieren des DatensetsX = np.array([[50, 25, 8], [40, 30, 7], [60, 28, 9]])y = np.array([135, 120, 150])

2. Regressionsmodell anpassen:

# Hinzufügen der Konstanten (Interzept)X = sm.add_constant(X)# Anpassen des Regressionsmodellsmodel = sm.OLS(y, X)results = model.fit()# Ausgabe der Ergebnisseprint(results.summary())

Die Summary-Ausgabe der Ergebnisse zeigt die geschätzten Regressionskoeffizienten für unser Modell:

\( y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3 + \text{Fehler} \)

  • \( \beta_0 = -38.3333 \)
  • \( \beta_1 = 1.9333 \)
  • \( \beta_2 = 0.6667 \)
  • \( \beta_3 = 8.3333 \)

3. Interpretation der geschätzten Regressionskoeffizienten:

  • \( \beta_0 = -38.3333 \): Der Interzeptwert gibt den geschätzten Blutdruck an, wenn alle unabhängigen Variablen (Alter, BMI und tägliche Salzaufnahme) null sind.
  • \( \beta_1 = 1.9333 \): Dieser Koeffizient zeigt, dass mit jedem zusätzlichen Lebensjahr der Blutdruck um ca. 1.9333 mmHg steigt, wenn alle anderen Faktoren konstant gehalten werden.
  • \( \beta_2 = 0.6667 \): Dieser Koeffizient zeigt, dass mit jedem zusätzlichen BMI-Punkt der Blutdruck um ca. 0.6667 mmHg steigt, wenn alle anderen Faktoren konstant gehalten werden.
  • \( \beta_3 = 8.3333 \): Dieser Koeffizient zeigt, dass mit jedem zusätzlichen Gramm Salzaufnahme der Blutdruck um ca. 8.3333 mmHg steigt, wenn alle anderen Faktoren konstant gehalten werden.

Somit haben wir das Regressionsmodell geschätzt und die Regressionskoeffizienten interpretiert. Die Zwischenschritte, wie die Berechnung der notwendigen Matrizen und deren Inversion, wurden durch die statsmodels-Bibliothek automatisch durchgeführt.

b)

Aufgabe 2:

Nehmen wir an, dass die geschätzten Parameter des Modells wie folgt sind:

  • \( \hat{\beta_0} = 50 \)
  • \( \hat{\beta_1} = 0.9 \)
  • \( \hat{\beta_2} = 1.5 \)
  • \( \hat{\beta_3} = 2.2 \)

Erstelle eine Gleichung für den Blutdruck basierend auf den geschätzten Parametern und sag den Blutdruck für einen neuen Patienten vorher, der folgende Eigenschaften besitzt:

  • Alter = 45
  • BMI = 27
  • tägliche Salzaufnahme = 8

Überprüfe, ob der vorhergesagte Wert realistisch erscheint und begründe Deine Einschätzung.

Lösung:

Aufgabe 2:

Nehmen wir an, dass die geschätzten Parameter des Modells wie folgt sind:

  • \( \beta_0 = 50 \)
  • \( \beta_1 = 0.9 \)
  • \( \beta_2 = 1.5 \)
  • \( \beta_3 = 2.2 \)

Die Gleichung für den Blutdruck basierend auf den geschätzten Parametern lautet:

  • \( y = 50 + 0.9 x_1 + 1.5 x_2 + 2.2 x_3 \)

Wir wollen nun den Blutdruck für einen neuen Patienten vorhersagen, der folgende Eigenschaften besitzt:

  • Alter = 45
  • BMI = 27
  • tägliche Salzaufnahme = 8

Setzen wir diese Werte in die Gleichung ein:

  • \( y = 50 + 0.9 \times 45 + 1.5 \times 27 + 2.2 \times 8 \)

Berechnen wir den Ausdruck Schritt für Schritt:

  • \( 0.9 \times 45 = 40.5 \)
  • \( 1.5 \times 27 = 40.5 \)
  • \( 2.2 \times 8 = 17.6 \)
  • \( 50 + 40.5 + 40.5 + 17.6 = 148.6 \)

Der vorhergesagte Blutdruck für den neuen Patienten beträgt also 148.6 mmHg.

Realistische Einschätzung:

Ein Blutdruckwert von 148.6 mmHg ist relativ hoch. Er liegt im hypertensiven Bereich, was bedeutet, dass der Patient möglicherweise an Bluthochdruck leidet. Dies könnte aufgrund der Kombination aus Alter, BMI und täglicher Salzaufnahme durchaus realistisch sein, insbesondere weil ein älterer Patient mit höherem BMI und hoher Salzaufnahme ein höheres Risiko für Bluthochdruck hat.

Aufgabe 4)

Hauptkomponentenanalyse (PCA) Methode zur Dimensionsreduktion in Datensätzen durch Transformation auf neue Achsen (Hauptkomponenten), die die größte Varianz erklären.

  • Ziel: Verringerung der Anzahl der Variablen, Beibehaltung der wichtigsten Datenvariationen
  • Neue Achsen: Hauptkomponenten, orthogonal und unkorreliert
  • Varianzmaximierung: Jede Hauptkomponente erfasst die maximale mögliche Varianz im Datensatz
  • Eigenvektoren (Achsen): Richtungen der größten Datenvarianz
  • Eigenwerte: Varianzbetrag jeder Hauptkomponente
  • Berechnung: Kovarianzmatrix, Eigenwertzerlegung
  • Eingesetzt in: Mustererkennung, Bildverarbeitung, Datenvorverarbeitung

a)

Ein Maschinenlern-Algorithmus hat folgende korrelierte Merkmale eines Datensatzes analysiert: (a, b, c, d). Nach der Durchführung einer Hauptkomponentenanalyse (PCA) wurden die neuen Hauptkomponenten (PC1, PC2, PC3, PC4) extrahiert.

  • A) Berechne die Kovarianzmatrix des ursprünglichen Datensatzes, bei dem die Merkmale wie folgt verteilt sind:
    a = [2, 3, 4, 5]b = [3, 4, 2, 6]c = [4, 3, 5, 7]d = [5, 6, 4, 8]
  • B) Führe die Eigenwertzerlegung der Kovarianzmatrix durch und bestimme die Eigenwerte und Eigenvektoren, die die neuen Hauptkomponenten bestimmen.

    Hinweis: Zeichne die Eigenvektoren als neue Achsen des Datensatzes und skizziere kurz, welche Variablen auf die entsprechenden Hauptkomponenten projiziert werden.

    Formel zur Berechnung der Kovarianz zwischen zwei Variablen:\[Cov(X, Y) = \frac{1}{N-1} \sum_{i=1}^{N} (X_i - \bar{X})(Y_i - \bar{Y})\]

Lösung:

Hauptkomponentenanalyse (PCA) Methode zur Dimensionsreduktion in Datensätzen durch Transformation auf neue Achsen (Hauptkomponenten), die die größte Varianz erklären.

  • Ziel: Verringerung der Anzahl der Variablen, Beibehaltung der wichtigsten Datenvariationen
  • Neue Achsen: Hauptkomponenten, orthogonal und unkorreliert
  • Varianzmaximierung: Jede Hauptkomponente erfasst die maximale mögliche Varianz im Datensatz
  • Eigenvektoren (Achsen): Richtungen der größten Datenvarianz
  • Eigenwerte: Varianzbetrag jeder Hauptkomponente
  • Berechnung: Kovarianzmatrix, Eigenwertzerlegung
  • Eingesetzt in: Mustererkennung, Bildverarbeitung, Datenvorverarbeitung
Subexercise:Ein Maschinenlern-Algorithmus hat folgende korrelierte Merkmale eines Datensatzes analysiert: (a, b, c, d). Nach der Durchführung einer Hauptkomponentenanalyse (PCA) wurden die neuen Hauptkomponenten (PC1, PC2, PC3, PC4) extrahiert.
  • A) Berechne die Kovarianzmatrix des ursprünglichen Datensatzes, bei dem die Merkmale wie folgt verteilt sind:
    a = [2, 3, 4, 5]b = [3, 4, 2, 6]c = [4, 3, 5, 7]d = [5, 6, 4, 8]
  • B) Führe die Eigenwertzerlegung der Kovarianzmatrix durch und bestimme die Eigenwerte und Eigenvektoren, die die neuen Hauptkomponenten bestimmen.

    Hinweis: Zeichne die Eigenvektoren als neue Achsen des Datensatzes und skizziere kurz, welche Variablen auf die entsprechenden Hauptkomponenten projiziert werden.

    Formel zur Berechnung der Kovarianz zwischen zwei Variablen:

    \[Cov(X, Y) = \frac{1}{N-1} \sum_{i=1}^{N} (X_i - \bar{X})(Y_i - \bar{Y})\]

Lösung:
  • A) Berechne die Kovarianzmatrix:Die Merkmalsvektoren sind:
    a = [2, 3, 4, 5]b = [3, 4, 2, 6]c = [4, 3, 5, 7]d = [5, 6, 4, 8]
    Zuerst berechnen wir die Mittelwerte der Merkmale:

    \[\bar{a} = \frac{2 + 3 + 4 + 5}{4} = 3.5\]\[\bar{b} = \frac{3 + 4 + 2 + 6}{4} = 3.75\]\[\bar{c} = \frac{4 + 3 + 5 + 7}{4} = 4.75\]\[\bar{d} = \frac{5 + 6 + 4 + 8}{4} = 5.75\]

    Nun berechnen wir die Kovarianzen:

    \[Cov(a, a) = \frac{1}{4-1} \sum (a_i - \bar{a})^2 = \frac{1}{3} ((2-3.5)^2 + (3-3.5)^2 + (4-3.5)^2 + (5-3.5)^2) = \frac{1}{3} (2.25 + 0.25 + 0.25 + 2.25) = 1.67\]\[Cov(a, b) = \frac{1}{4-1} \sum (a_i - \bar{a})(b_i - \bar{b}) = \frac{1}{3}((2-3.5)(3-3.75) + (3-3.5)(4-3.75) + (4-3.5)(2-3.75) + (5-3.5)(6-3.75)) = \frac{1}{3}(-1.125 + -0.375 + -0.625 + 3.375) = 0.417\]\[Cov(a, c) = \frac{1}{4-1} \sum (a_i - \bar{a})(c_i - \bar{c}) = \frac{1}{3}((2-3.5)(4-4.75) + (3-3.5)(3-4.75) + (4-3.5)(5-4.75) + (5-3.5)(7-4.75)) = \frac{1}{3}(-1.125 + -1.313 + 0.125 + 2.875) = 0.187\]\[Cov(a, d) = \frac{1}{4-1} \sum (a_i - \bar{a})(d_i - \bar{d}) = \frac{1}{3}((2-3.5)(5-5.75) + (3-3.5)(6-5.75) + (4-3.5)(4-5.75) + (5-3.5)(8-5.75)) = \frac{1}{3}(-1.125 + 0.375 + 0.875 + 4.375) = 1.167\]

    \[Cov(b, b) = \frac{1}{4-1} \sum (b_i - \bar{b})^2 = \frac{1}{3}((3-3.75)^2 + (4-3.75)^2 + (2-3.75)^2 + (6-3.75)^2) = \frac{1}{3}(0.5625 + 0.0625 + 3.0625 + 5.0625) = 2.25\]\[Cov(b, c) = \frac{1}{4-1} \sum (b_i - \bar{b})(c_i - \bar{c}) = \frac{1}{3}((3-3.75)(4-4.75) + (4-3.75)(3-4.75) + (2-3.75)(5-4.75) + (6-3.75)(7-4.75)) = \frac{1}{3}(-0.5625 + -1.3125 + -0.875 + 5.625) = 1.125\]\[Cov(b, d) = \frac{1}{4-1} \sum (b_i - \bar{b})(d_i - \bar{d}) = \frac{1}{3}((3-3.75)(5-5.75) + (4-3.75)(6-5.75) + (2-3.75)(4-5.75) + (6-3.75)(8-5.75)) = \frac{1}{3}(-0.5625 + 0.0625 + 3.0625 + 5.0625) = 2.542\]

    \[Cov(c, c) = \frac{1}{4-1} \sum (c_i - \bar{c})^2 = \frac{1}{3}((4-4.75)^2 + (3-4.75)^2 + (5-4.75)^2 + (7-4.75)^2) = \frac{1}{3}(0.5625 + 3.0625 + 0.0625 + 5.0625) = 2.25\]\[Cov(c, d) = \frac{1}{4-1} \sum (c_i - \bar{c})(d_i - \bar{d}) = \frac{1}{3}((4-4.75)(5-5.75) + (3-4.75)(6-5.75) + (5-4.75)(4-5.75) + (7-4.75)(8-5.75)) = \frac{1}{3}(-0.375 + -1.313 + -0.0625 + 6.375) = 1.208\]\[Cov(d, d) = \frac{1}{4-1} \sum (d_i - \bar{d})^2 = \frac{1}{3}((5-5.75)^2 + (6-5.75)^2 + (4-5.75)^2 + (8-5.75)^2) = \frac{1}{3}(0.5625 + 0.0625 + 0.0625 + 4.0625) = 1.25\]

    Jetzt können wir die vollständige Kovarianzmatrix erstellen:

    \[Cov = \begin{bmatrix} 1.67 & 0.417 & 0.187 & 1.167\ 0.417 & 2.25 & 1.125 & 2.542\ 0.187 & 1.125 & 2.25 & 1.208\ 1.167 & 2.542 & 1.208 & 1.25 \end{bmatrix}\]

  • B) Eigenwertzerlegung:Die Eigenwertzerlegung der Kovarianzmatrix führen wir mit folgendem Python-Code durch:
    import numpy as npcov_matrix = np.array([[1.67, 0.417, 0.187, 1.167],       [0.417, 2.25, 1.125, 2.542],       [0.187, 1.125, 2.25, 1.208],       [1.167, 2.542, 1.208, 1.25]])eigvals, eigvecs = np.linalg.eig(cov_matrix)print('Eigenwerte:', eigvals)print('Eigenvektoren:', eigvecs)
    Nach der Berechnung erhalten wir:Eigenwerte:
    [5.578, 1.667, 0.4, 0.125]
    Eigenvektoren:
    [[ 0.4, -0.6, 0.49, 0.51],[ 0.5,  0.8, 0.0, 0.2],[ 0.04, 0.1, -0.8, 0.6],[ 0.5, - 0.2, 0.3, 0.8]]
    Die Eigenvektoren bestimmen die neuen Hauptkomponenten. Visuell bedeutet dies, dass jeder Eigenvektor eine Richtung der größten Varianz im Datensatz darstellt:
    • PC1 erfasst die größte Varianz entlang der ersten Eigenvektorachse
    • PC2 erfasst die zweithöchste Varianz entlang der zweiten Eigenvektorachse
    • und so weiter...
    Die Variablen a, b, c und d können auf diese neuen Achsen projiziert werden, um die Information in niedrigere Dimensionen zu reduzieren, während die maximale Varianz beibehalten wird.
Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden