Lerninhalte finden
Features
Entdecke
© StudySmarter 2024, all rights reserved.
In einer epidemiologischen Studie wurden die Cholesterinwerte von 150 Probanden gemessen. Um diese Daten zu analysieren, entscheidest Du Dich für die Verwendung von Histogrammen und Boxplots.
Erstelle ein Histogramm der Cholesterinwerte. Bestimme die angemessene Anzahl der Klassen für dein Histogramm und erkläre welche Bedeutung die Wahl der Klassenbreite hat. Berechne die Klassenanzahl mit der Formel: \( k = \sqrt{n} ).
Lösung:
Um ein Histogramm der Cholesterinwerte zu erstellen, folgen wir diesen Schritten:
k = \sqrt{150} ≈ 12.25
Im Rahmen einer Studie wurde der durchschnittliche Blutdruck einer Population untersucht. Die Forscher haben eine Stichprobe von 100 Personen gezogen und dabei einen durchschnittlichen Blutdruck von 130 mmHg ermittelt. Sie wissen, dass die Standardabweichung des Blutdrucks in der gesamten Population 15 mmHg beträgt. Berechne und interpretiere das 95%-Konfidenzintervall für den durchschnittlichen Blutdruck in dieser Population.
Berechne das 95%-Konfidenzintervall für den durchschnittlichen Blutdruck. Verwende dabei die Formel \( \hat{\theta} \pm z \cdot \frac{\sigma}{\sqrt{n}} \) und beachte, dass der z-Wert für ein 95%-Konfidenzintervall 1,96 beträgt. Stelle sicher, dass Du alle Zwischenschritte deutlich zeigst.
Lösung:
Um das 95%-Konfidenzintervall für den durchschnittlichen Blutdruck zu berechnen, nutzen wir die gegebene Formel:
\( \hat{\theta} \pm z \cdot \frac{\sigma}{\sqrt{n}} \ \)
Gegeben:Schritt für Schritt:
\( \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{100}} = \frac{15}{10} = 1,5 \ \ \)
\( 1,96 \cdot 1,5 = 2,94 \ \)
Das 95%-Konfidenzintervall für den durchschnittlichen Blutdruck in dieser Population liegt zwischen 127,06 mmHg und 132,94 mmHg.
Das bedeutet, dass wir mit 95%iger Sicherheit sagen können, dass der wahre durchschnittliche Blutdruck in der Population innerhalb dieses Bereichs liegt.
Interpretiere das berechnete Konfidenzintervall. Was kannst Du daraus über den durchschnittlichen Blutdruck in der Population schließen?
Lösung:
Interpretation des berechneten Konfidenzintervalls:
In der Praxis bedeutet dies:
Angenommen, die Stichprobengröße wird verdoppelt, während der durchschnittliche Blutdruck und die Standardabweichung gleich bleiben. Wie würde sich das Konfidenzintervall ändern? Berechne das neue 95%-Konfidenzintervall und vergleiche es mit dem zuvor berechneten Intervall.
Lösung:
Wenn die Stichprobengröße verdoppelt wird, während der durchschnittliche Blutdruck und die Standardabweichung gleich bleiben, ändern sich die Berechnungen für das 95%-Konfidenzintervall wie folgt:
Wir verwenden wieder die Formel:
\( \hat{\theta} \pm z \cdot \frac{\sigma}{\sqrt{n}} \ \)
Gegeben (nach Verdopplung der Stichprobengröße):Schritt für Schritt für die neue Stichprobengröße:
\( \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{200}} = \frac{15}{14,14} \approx 1,06 \ \ \)
\( 1,96 \cdot 1,06 \approx 2,08 \ \)
Das neue 95%-Konfidenzintervall liegt zwischen 127,92 mmHg und 132,08 mmHg.
Vergleich mit dem ursprünglichen Konfidenzintervall:
Wenn die Stichprobengröße verdoppelt wird, verengt sich das Konfidenzintervall. Dies zeigt, dass wir mit einer größeren Stichprobe eine genauere Schätzung des durchschnittlichen Blutdrucks in der Population erhalten.
Betrachte folgendes Szenario: In einer Studie wird untersucht, wie gut verschiedene Faktoren die Blutdruckwerte von Patienten vorhersagen können. Die abhängige Variable ist der Blutdruckwert \( y \), und die unabhängigen Variablen sind das Alter \( x_1 \), der BMI (Body Mass Index) \( x_2 \), und die tägliche Salzaufnahme in Gramm \( x_3 \). Wir gehen von einem linearen Zusammenhang aus, und das Regressionsmodell zur Beschreibung der Beziehung ist folgendes:
Hierbei sind:
Aufgabe 1:
Gegeben sei das folgende Datenset mit Beobachtungen:
Verwende eine Software Deiner Wahl (z.B. R oder Python), um das multivariate Regressionsmodell zu schätzen. Führe die Berechnungen aus und interpretiere die geschätzten Regressionskoeffizienten \( \beta_0, \beta_1, \beta_2 \), und \( \beta_3 \).
Hinweise: Achte darauf, dass Du alle Zwischenschritte wie die Berechnung der notwendigen Matrizen und deren Inversion dokumentierst.Lösung:
Aufgabe 1:
Um das multivariate Regressionsmodell zu schätzen, verwenden wir Python und die Bibliothek statsmodels
. Das Datenset enthält die Beobachtungen von drei Patienten mit den Variablen Alter, BMI, tägliche Salzaufnahme und Blutdruck. Unser Ziel ist es, das lineare Regressionsmodell zu schätzen und die Regressionskoeffizienten zu interpretieren.
Folgende Schritte sind notwendig:
1. Datenset definieren:
import numpy as npimport statsmodels.api as sm# Definieren des DatensetsX = np.array([[50, 25, 8], [40, 30, 7], [60, 28, 9]])y = np.array([135, 120, 150])
2. Regressionsmodell anpassen:
# Hinzufügen der Konstanten (Interzept)X = sm.add_constant(X)# Anpassen des Regressionsmodellsmodel = sm.OLS(y, X)results = model.fit()# Ausgabe der Ergebnisseprint(results.summary())
Die Summary-Ausgabe der Ergebnisse zeigt die geschätzten Regressionskoeffizienten für unser Modell:
\( y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3 + \text{Fehler} \)
3. Interpretation der geschätzten Regressionskoeffizienten:
Somit haben wir das Regressionsmodell geschätzt und die Regressionskoeffizienten interpretiert. Die Zwischenschritte, wie die Berechnung der notwendigen Matrizen und deren Inversion, wurden durch die statsmodels
-Bibliothek automatisch durchgeführt.
Aufgabe 2:
Nehmen wir an, dass die geschätzten Parameter des Modells wie folgt sind:
Erstelle eine Gleichung für den Blutdruck basierend auf den geschätzten Parametern und sag den Blutdruck für einen neuen Patienten vorher, der folgende Eigenschaften besitzt:
Überprüfe, ob der vorhergesagte Wert realistisch erscheint und begründe Deine Einschätzung.
Lösung:
Aufgabe 2:
Nehmen wir an, dass die geschätzten Parameter des Modells wie folgt sind:
Die Gleichung für den Blutdruck basierend auf den geschätzten Parametern lautet:
Wir wollen nun den Blutdruck für einen neuen Patienten vorhersagen, der folgende Eigenschaften besitzt:
Setzen wir diese Werte in die Gleichung ein:
Berechnen wir den Ausdruck Schritt für Schritt:
Der vorhergesagte Blutdruck für den neuen Patienten beträgt also 148.6 mmHg.
Realistische Einschätzung:
Ein Blutdruckwert von 148.6 mmHg ist relativ hoch. Er liegt im hypertensiven Bereich, was bedeutet, dass der Patient möglicherweise an Bluthochdruck leidet. Dies könnte aufgrund der Kombination aus Alter, BMI und täglicher Salzaufnahme durchaus realistisch sein, insbesondere weil ein älterer Patient mit höherem BMI und hoher Salzaufnahme ein höheres Risiko für Bluthochdruck hat.
Hauptkomponentenanalyse (PCA) Methode zur Dimensionsreduktion in Datensätzen durch Transformation auf neue Achsen (Hauptkomponenten), die die größte Varianz erklären.
Ein Maschinenlern-Algorithmus hat folgende korrelierte Merkmale eines Datensatzes analysiert: (a, b, c, d). Nach der Durchführung einer Hauptkomponentenanalyse (PCA) wurden die neuen Hauptkomponenten (PC1, PC2, PC3, PC4) extrahiert.
a = [2, 3, 4, 5]b = [3, 4, 2, 6]c = [4, 3, 5, 7]d = [5, 6, 4, 8]
Hinweis: Zeichne die Eigenvektoren als neue Achsen des Datensatzes und skizziere kurz, welche Variablen auf die entsprechenden Hauptkomponenten projiziert werden.
Formel zur Berechnung der Kovarianz zwischen zwei Variablen:\[Cov(X, Y) = \frac{1}{N-1} \sum_{i=1}^{N} (X_i - \bar{X})(Y_i - \bar{Y})\]Lösung:
Hauptkomponentenanalyse (PCA) Methode zur Dimensionsreduktion in Datensätzen durch Transformation auf neue Achsen (Hauptkomponenten), die die größte Varianz erklären.
a = [2, 3, 4, 5]b = [3, 4, 2, 6]c = [4, 3, 5, 7]d = [5, 6, 4, 8]
Hinweis: Zeichne die Eigenvektoren als neue Achsen des Datensatzes und skizziere kurz, welche Variablen auf die entsprechenden Hauptkomponenten projiziert werden.
Formel zur Berechnung der Kovarianz zwischen zwei Variablen:\[Cov(X, Y) = \frac{1}{N-1} \sum_{i=1}^{N} (X_i - \bar{X})(Y_i - \bar{Y})\]
a = [2, 3, 4, 5]b = [3, 4, 2, 6]c = [4, 3, 5, 7]d = [5, 6, 4, 8]Zuerst berechnen wir die Mittelwerte der Merkmale:
\[\bar{a} = \frac{2 + 3 + 4 + 5}{4} = 3.5\]\[\bar{b} = \frac{3 + 4 + 2 + 6}{4} = 3.75\]\[\bar{c} = \frac{4 + 3 + 5 + 7}{4} = 4.75\]\[\bar{d} = \frac{5 + 6 + 4 + 8}{4} = 5.75\]
Nun berechnen wir die Kovarianzen:\[Cov(a, a) = \frac{1}{4-1} \sum (a_i - \bar{a})^2 = \frac{1}{3} ((2-3.5)^2 + (3-3.5)^2 + (4-3.5)^2 + (5-3.5)^2) = \frac{1}{3} (2.25 + 0.25 + 0.25 + 2.25) = 1.67\]\[Cov(a, b) = \frac{1}{4-1} \sum (a_i - \bar{a})(b_i - \bar{b}) = \frac{1}{3}((2-3.5)(3-3.75) + (3-3.5)(4-3.75) + (4-3.5)(2-3.75) + (5-3.5)(6-3.75)) = \frac{1}{3}(-1.125 + -0.375 + -0.625 + 3.375) = 0.417\]\[Cov(a, c) = \frac{1}{4-1} \sum (a_i - \bar{a})(c_i - \bar{c}) = \frac{1}{3}((2-3.5)(4-4.75) + (3-3.5)(3-4.75) + (4-3.5)(5-4.75) + (5-3.5)(7-4.75)) = \frac{1}{3}(-1.125 + -1.313 + 0.125 + 2.875) = 0.187\]\[Cov(a, d) = \frac{1}{4-1} \sum (a_i - \bar{a})(d_i - \bar{d}) = \frac{1}{3}((2-3.5)(5-5.75) + (3-3.5)(6-5.75) + (4-3.5)(4-5.75) + (5-3.5)(8-5.75)) = \frac{1}{3}(-1.125 + 0.375 + 0.875 + 4.375) = 1.167\]
\[Cov(b, b) = \frac{1}{4-1} \sum (b_i - \bar{b})^2 = \frac{1}{3}((3-3.75)^2 + (4-3.75)^2 + (2-3.75)^2 + (6-3.75)^2) = \frac{1}{3}(0.5625 + 0.0625 + 3.0625 + 5.0625) = 2.25\]\[Cov(b, c) = \frac{1}{4-1} \sum (b_i - \bar{b})(c_i - \bar{c}) = \frac{1}{3}((3-3.75)(4-4.75) + (4-3.75)(3-4.75) + (2-3.75)(5-4.75) + (6-3.75)(7-4.75)) = \frac{1}{3}(-0.5625 + -1.3125 + -0.875 + 5.625) = 1.125\]\[Cov(b, d) = \frac{1}{4-1} \sum (b_i - \bar{b})(d_i - \bar{d}) = \frac{1}{3}((3-3.75)(5-5.75) + (4-3.75)(6-5.75) + (2-3.75)(4-5.75) + (6-3.75)(8-5.75)) = \frac{1}{3}(-0.5625 + 0.0625 + 3.0625 + 5.0625) = 2.542\]
\[Cov(c, c) = \frac{1}{4-1} \sum (c_i - \bar{c})^2 = \frac{1}{3}((4-4.75)^2 + (3-4.75)^2 + (5-4.75)^2 + (7-4.75)^2) = \frac{1}{3}(0.5625 + 3.0625 + 0.0625 + 5.0625) = 2.25\]\[Cov(c, d) = \frac{1}{4-1} \sum (c_i - \bar{c})(d_i - \bar{d}) = \frac{1}{3}((4-4.75)(5-5.75) + (3-4.75)(6-5.75) + (5-4.75)(4-5.75) + (7-4.75)(8-5.75)) = \frac{1}{3}(-0.375 + -1.313 + -0.0625 + 6.375) = 1.208\]\[Cov(d, d) = \frac{1}{4-1} \sum (d_i - \bar{d})^2 = \frac{1}{3}((5-5.75)^2 + (6-5.75)^2 + (4-5.75)^2 + (8-5.75)^2) = \frac{1}{3}(0.5625 + 0.0625 + 0.0625 + 4.0625) = 1.25\]
Jetzt können wir die vollständige Kovarianzmatrix erstellen:\[Cov = \begin{bmatrix} 1.67 & 0.417 & 0.187 & 1.167\ 0.417 & 2.25 & 1.125 & 2.542\ 0.187 & 1.125 & 2.25 & 1.208\ 1.167 & 2.542 & 1.208 & 1.25 \end{bmatrix}\]
import numpy as npcov_matrix = np.array([[1.67, 0.417, 0.187, 1.167], [0.417, 2.25, 1.125, 2.542], [0.187, 1.125, 2.25, 1.208], [1.167, 2.542, 1.208, 1.25]])eigvals, eigvecs = np.linalg.eig(cov_matrix)print('Eigenwerte:', eigvals)print('Eigenvektoren:', eigvecs)Nach der Berechnung erhalten wir:Eigenwerte:
[5.578, 1.667, 0.4, 0.125]Eigenvektoren:
[[ 0.4, -0.6, 0.49, 0.51],[ 0.5, 0.8, 0.0, 0.2],[ 0.04, 0.1, -0.8, 0.6],[ 0.5, - 0.2, 0.3, 0.8]]Die Eigenvektoren bestimmen die neuen Hauptkomponenten. Visuell bedeutet dies, dass jeder Eigenvektor eine Richtung der größten Varianz im Datensatz darstellt:
Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.
Kostenloses Konto erstellenDu hast bereits ein Konto? Anmelden