Environmental monitoring and Data Analysis (Wahl Ökologie/Umweltmanagement) - Exam.pdf

Environmental monitoring and Data Analysis (Wahl Ökologie/Umweltmanagement) - Exam
Aufgabe 1) Die Überwachung der Luftqualität und Emissionen ist von entscheidender Bedeutung, um Umweltschäden zu minimieren und die menschliche Gesundheit zu schützen. Dabei werden verschiedene Schadstoffe, wie Feinstaub (PM10, PM2.5), Stickoxide (NOx), Schwefeldioxid (SO2), Ozon (O3) und Kohlenmonoxid (CO), gemessen und analysiert. Die Messung erfolgt mithilfe von stationären Luftmessstationen, m...

© StudySmarter 2024, all rights reserved.

Aufgabe 1)

Die Überwachung der Luftqualität und Emissionen ist von entscheidender Bedeutung, um Umweltschäden zu minimieren und die menschliche Gesundheit zu schützen. Dabei werden verschiedene Schadstoffe, wie Feinstaub (PM10, PM2.5), Stickoxide (NOx), Schwefeldioxid (SO2), Ozon (O3) und Kohlenmonoxid (CO), gemessen und analysiert. Die Messung erfolgt mithilfe von stationären Luftmessstationen, mobilen Messgeräten und auch durch Fernerkundung. Zu den Analysemethoden gehören Gravimetrie, UV-Fluoreszenz, IR-Spektroskopie und chemische Ionisation. Diese Daten werden mit EU-Richtlinien, nationalen Gesetzen und WHO-Grenzwerten verglichen, um sicherzustellen, dass die Luftqualitätsstandards eingehalten werden. Das Ziel ist es, Emissionsquellen zu identifizieren und Maßnahmen zur Emissionsminderung umzusetzen.

a)

Betrachte eine Stadt, in der folgende Jahresdurchschnittswerte für die Konzentrationen der Schadstoffe gemessen wurden: PM10: 45 μg/m³, NOx: 60 μg/m³, SO2: 15 μg/m³, Ozon: 110 μg/m³ und CO: 1,2 mg/m³. Überprüfe, ob die gemessenen Jahresmittelwerte die von der WHO empfohlenen Grenzwerte einhalten. Die WHO-Grenzwerte sind: PM10: 20 μg/m³, NOx: 40 μg/m³, SO2: 20 μg/m³, Ozon: 100 μg/m³ und CO: 10 mg/m³. Berechne die Abweichungen der gemessenen Werte von den Grenzwerten und diskutiere, welche Maßnahmen ergriffen werden sollten, um eine Verbesserung der Luftqualität zu erreichen.

Lösung:

Überprüfung der Jahresdurchschnittswerte der Schadstoffkonzentrationen

Um zu überprüfen, ob die gemessenen Jahresmittelwerte die von der WHO empfohlenen Grenzwerte einhalten, vergleichen wir die gemessenen Werte jeder Schadstoffkonzentration mit den WHO-Grenzwerten:

  • PM10: Gemessen: 45 μg/m³, WHO-Grenzwert: 20 μg/m³
    • Abweichung: 45 μg/m³ - 20 μg/m³ = 25 μg/m³
    • Der Grenzwert wurde überschritten.
  • NOx: Gemessen: 60 μg/m³, WHO-Grenzwert: 40 μg/m³
    • Abweichung: 60 μg/m³ - 40 μg/m³ = 20 μg/m³
    • Der Grenzwert wurde überschritten.
  • SO2: Gemessen: 15 μg/m³, WHO-Grenzwert: 20 μg/m³
    • Abweichung: 15 μg/m³ - 20 μg/m³ = -5 μg/m³ (unterschritten)
    • Der Grenzwert wurde eingehalten.
  • Ozon: Gemessen: 110 μg/m³, WHO-Grenzwert: 100 μg/m³
    • Abweichung: 110 μg/m³ - 100 μg/m³ = 10 μg/m³
    • Der Grenzwert wurde überschritten.
  • CO: Gemessen: 1,2 mg/m³, WHO-Grenzwert: 10 mg/m³
    • Abweichung: 1,2 mg/m³ - 10 mg/m³ = -8,8 mg/m³ (unterschritten)
    • Der Grenzwert wurde eingehalten.

Diskussion und Maßnahmen zur Verbesserung der Luftqualität

Die Stadt hat bei den Schadstoffen PM10, NOx und Ozon die WHO-Grenzwerte überschritten. Hier sind einige Maßnahmen, die ergriffen werden könnten, um die Luftqualität zu verbessern:

  • Verkehrsmanagement: Einführung und Förderung von öffentlichen Verkehrsmitteln, Fahrradinfrastruktur und Fußgängerzonen, um den privaten Autoverkehr zu reduzieren.
  • Industriekontrollen: Striktere Emissionskontrollen und Einführung von saubereren Technologien in industriellen Anlagen.
  • Abgasnormen: Verschärfung der Abgasnormen für Fahrzeuge und Förderung von Elektro- und Hybridfahrzeugen.
  • Grünflächen: Erhöhung und Schutz von Grünflächen und Bäumen in städtischen Gebieten, da diese Schadstoffe filtern können.
  • Bildung und Sensibilisierung: Öffentlichkeitskampagnen zur Sensibilisierung der Bevölkerung über die Bedeutung der Luftqualität und wie individuelle Maßnahmen zu einer besseren Luftqualität beitragen können.

b)

Erläutere die Funktionsweise einer UV-Fluoreszenz-Analysemethode zur Bestimmung der SO2-Konzentration in der Luft. Berechne die SO2-Konzentration (in µg/m³), wenn die Analysatorablesung 50 ppb anzeigt. Gehe davon aus, dass die Temperatur bei 25 °C und der Luftdruck bei 1 atm liegt. (Hinweis: 1 atm = 101325 Pa, R = 0,0821 L·atm/(K·mol))

Lösung:

Funktionsweise der UV-Fluoreszenz-Analysemethode zur Bestimmung von SO₂

Die UV-Fluoreszenz-Methode ist eine gängige Analysemethode zur Bestimmung der Schwefeldioxidkonzentration (SO₂) in der Luft. Ihre Funktionsweise kann wie folgt zusammengefasst werden:

  • Zunächst wird die Luftprobe in den Analysator eingeleitet.
  • Die Luftprobe wird dann von einer UV-Lichtquelle (ultraviolettes Licht) bestrahlt.
  • Schwefeldioxid (SO₂) in der Luft absorbiert die UV-Strahlung in einem bestimmten Wellenlängenbereich und wird angeregt.
  • Nach der Anregung gibt das Schwefeldioxid die Energie in Form von Fluoreszenz zurück, das heißt, es emittiert Licht in einer anderen Wellenlänge.
  • Ein Detektor misst die Intensität des emittierten Fluoreszenzlichtes.
  • Die Intensität des Fluoreszenzlichtes ist proportional zur Konzentration des Schwefeldioxids in der Luftprobe.
  • Anhand der gemessenen Intensität wird die SO₂-Konzentration berechnet.

Berechnung der SO₂-Konzentration

Gegeben:

  • Analysatorablesung: 50 ppb (parts per billion)
  • Temperatur: 25 °C (298,15 K)
  • Luftdruck: 1 atm (101325 Pa)
  • Gaskonstante: R = 0,0821 L·atm/(K·mol)

Um die Konzentration in µg/m³ zu berechnen, müssen wir die Konzentration in ppb zunächst in mol/m³ umrechnen und danach in µg/m³:

Schritt 1: Umrechnung von ppb in mol/m³

1 ppb bedeutet 1 Teilchen von SO₂ pro 1 Milliarde Luftteilchen. Unter Standardbedingungen gilt:

  • 1 ppb = 1 × 10⁻⁹ mol SO₂ / mol Luft
  • Laut dem idealen Gasgesetz: PV = nRT
  • Umstellung der Formel: n/V = P/(RT)

Einsetzen der Werte:

  • P = 1 atm
  • T = 298,15 K
  • R = 0,0821 L·atm/(K·mol)
  • n/V = 1 atm / (0,0821 L·atm/(K·mol) * 298,15 K) = 0,0409 mol/m³

Schritt 2: Umrechnung von mol/m³ in µg/m³

Die molare Masse von SO₂ ist 64,066 g/mol.

  • SO₂-Konzentration in µg/m³ = 50 ppb * 0,0409 mol/m³ * 64,066 g/mol * 10^6 µg/g
  • = 50 × 0,0409 × 64,066 × 10^6 ppb * µg/(mol³)
  • = 0,002045 × 64,066 g/m³ * 10^6

Ergebnis:

  • SO₂-Konzentration = 2,045 × 64,066 µg/m³ = 131 µg/m³

Schlussfolgerung

Die berechnete SO₂-Konzentration beträgt 131 µg/m³, wenn die Analysatorablesung 50 ppb anzeigt. Dies zeigt deutlich, dass bei dieser Konzentration Maßnahmen zur Reduzierung der SO₂-Emissionen erforderlich sein könnten, um die Luftqualität zu verbessern und die Gesundheit der Öffentlichkeit zu schützen.

Aufgabe 2)

Du untersuchst ein Fließgewässer hinsichtlich seiner Wasserqualität und hydrologischen Dynamik. Hierbei erhebst Du Daten zu verschiedenen physikalischen, chemischen und biologischen Parametern sowie hydrologischen Messgrößen. Die gesetzlichen Rahmenbedingungen, wie die EU-Wasserrahmenrichtlinie und die Trinkwasserverordnung, müssen dabei berücksichtigt werden. Während Deiner Untersuchungen verwendest Du verschiedene Instrumente wie Spektrometer, Elektroden und Probenehmer und analysierst die erhobenen Daten mithilfe von Zeitreihenanalysen, statistischen Auswertungen und GIS-Integration.

a)

Basierend auf den erhobenen hydrologischen Messgrößen: Du hast den Abfluss eines Flusses in einem Zeitintervall von einem Jahr monatlich gemessen. Berechne die mittlere monatliche Abflussmenge und zeige anhand einer angefertigten Zeitreihe, welchen saisonalen Schwankungen der Abfluss unterliegt. Verwende die folgenden Abflussdaten (in m³/s) für die Berechnung:

  • Januar: 3,4
  • Februar: 3,7
  • März: 4,2
  • April: 5,6
  • Mai: 6,9
  • Juni: 7,2
  • Juli: 6,8
  • August: 5,4
  • September: 4,9
  • Oktober: 4,1
  • November: 3,8
  • Dezember: 3,5
Zeichne im Anschluss ein Diagramm, das diese Daten visualisiert.

Lösung:

Berechnung der mittleren monatlichen Abflussmenge und Visualisierung der saisonalen Schwankungen

Um die mittlere monatliche Abflussmenge zu berechnen, gehen wir wie folgt vor:

  • Januar: 3,4 m³/s
  • Februar: 3,7 m³/s
  • März: 4,2 m³/s
  • April: 5,6 m³/s
  • Mai: 6,9 m³/s
  • Juni: 7,2 m³/s
  • Juli: 6,8 m³/s
  • August: 5,4 m³/s
  • September: 4,9 m³/s
  • Oktober: 4,1 m³/s
  • November: 3,8 m³/s
  • Dezember: 3,5 m³/s

Die mittlere monatliche Abflussmenge berechnet sich als das arithmetische Mittel dieser Werte:

Formel:

\( \text{Mittlerer Abfluss} = \frac{1}{12} \sum_{i=1}^{12} Q_i \)

Einsetzen der Werte:

\( \text{Mittlerer Abfluss} = \frac{1}{12} (3,4 + 3,7 + 4,2 + 5,6 + 6,9 + 7,2 + 6,8 + 5,4 + 4,9 + 4,1 + 3,8 + 3,5) \)

\( \text{Mittlerer Abfluss} = \frac{1}{12} (59,5) = 4,9583 \text{ m}^3/\text{s} \)

Damit beträgt die mittlere monatliche Abflussmenge 4,96 m³/s.

Nun visualisieren wir diese Daten in einem Diagramm:

import matplotlib.pyplot as plt# Abflussdatenmonate = ['Januar', 'Februar', 'März', 'April', 'Mai', 'Juni', 'Juli', 'August', 'September', 'Oktober', 'November', 'Dezember']abfluss = [3.4, 3.7, 4.2, 5.6, 6.9, 7.2, 6.8, 5.4, 4.9, 4.1, 3.8, 3.5]# Diagramm erstellenplt.figure(figsize=(10,5))plt.plot(monate, abfluss, marker='o', linestyle='-')plt.title('Monatliche Abflussmenge')plt.xlabel('Monate')plt.ylabel('Abfluss (m³/s)')plt.grid(True)plt.xticks(rotation=45)plt.tight_layout()plt.show()

Das obige Python-Skript verwendet Matplotlib, um die monatlichen Abflussdaten zu visualisieren. Es zeigt die Abflussmenge über die Monate hinweg und verdeutlicht die saisonalen Schwankungen des Abflusses.

b)

Chemische Analysen: Du hast Wasserproben eines Fließgewässers entnommen und analysiert. Die gemessenen Nitratkonzentrationen (NO3⁻) sind monatlich wie folgt (in mg/L):

  • Januar: 0,8
  • Februar: 0,9
  • März: 1,2
  • April: 1,5
  • Mai: 1,7
  • Juni: 1,6
  • Juli: 1,4
  • August: 1,1
  • September: 1,0
  • Oktober: 0,9
  • November: 0,8
  • Dezember: 0,7
Wenn die EU-Wasserrahmenrichtlinie einen Grenzwert von 2,0 mg/L vorschreibt, prüfe anhand der Daten, ob dieser Grenzwert eingehalten wird. Berechne zusätzlich den jährlichen Durchschnittswert der Nitratkonzentration und analysiere inwiefern die saisonalen Änderungen mit der landwirtschaftlichen Nutzung in der Umgebung des Flusses korrelieren könnten.

Lösung:

Prüfung der Einhaltung des Grenzwerts und Berechnung des jährlichen Durchschnittswerts der Nitratkonzentration

Die folgenden Nitratkonzentrationen (in mg/L) wurden monatlich gemessen:

  • Januar: 0,8
  • Februar: 0,9
  • März: 1,2
  • April: 1,5
  • Mai: 1,7
  • Juni: 1,6
  • Juli: 1,4
  • August: 1,1
  • September: 1,0
  • Oktober: 0,9
  • November: 0,8
  • Dezember: 0,7

1. Prüfung des Grenzwerts: Die EU-Wasserrahmenrichtlinie legt einen Grenzwert von 2,0 mg/L für die Nitratkonzentration fest. Anhand der gemessenen Daten sehen wir, dass in keinem Monat der Grenzwert von 2,0 mg/L überschritten wurde. Die höchsten gemessenen Konzentrationen betrugen 1,7 mg/L im Mai.

2. Berechnung des jährlichen Durchschnittswerts:Der jährliche Durchschnittswert kann als arithmetisches Mittel der monatlichen Werte berechnet werden:

Formel:

\( \text{Durchschnittliche Konzentration} = \frac{1}{12} \sum_{i=1}^{12} C_i \)

Einsetzen der Werte:

\( \text{Durchschnittliche Konzentration} = \frac{1}{12} (0,8 + 0,9 + 1,2 + 1,5 + 1,7 + 1,6 + 1,4 + 1,1 + 1,0 + 0,9 + 0,8 + 0,7) \)

\( \text{Durchschnittliche Konzentration} = \frac{1}{12} (13,6) = 1,1333 \text{ mg/L} \)

Damit beträgt der jährliche Durchschnittswert der Nitratkonzentration 1,13 mg/L.

3. Analyse der saisonalen Änderungen:Die gemessenen Nitratkonzentrationen zeigen saisonale Schwankungen, wobei die höchsten Werte im Frühling (April, Mai) und Frühsommer (Juni) auftreten, gefolgt von einem allmählichen Rückgang bis zum Winter. Diese Schwankungen könnten mit landwirtschaftlichen Aktivitäten korrelieren, wie beispielsweise der Düngung von Feldern im Frühjahr, die zu einer erhöhten Auswaschung von Nitraten in das Fließgewässer führt. In den Sommermonaten kann die Pflanzenaufnahme von Nitraten und das geringere Abflussvolumen zu einer Abnahme der Konzentrationen beitragen. Im Winter, wenn weniger landwirtschaftliche Tätigkeit stattfindet und die Vegetation ruht, sind die Nitratkonzentrationen am niedrigsten.

Aufgabe 3)

Nachhaltigkeitsbewertung eines Waldgebiets mithilfe statistischer MethodenWir haben Daten aus zwei verschiedenen Waldgebieten (Waldgebiet A und Waldgebiet B) gesammelt, um die Biodiversität dieser Gebiete zu bewerten. Dabei wurden die Anzahl der Baumarten erfasst, die in zufällig ausgewählten Probeflächen vorkommen. Die Stichprobengrößen betragen für beide Gebiete jeweils 30. Verwende die deskriptive und inferenzielle Statistik, um die Daten zu analysieren und zu vergleichen.

a)

Berechne für beide Waldgebiete den Mittelwert, die Median und die Standardabweichung der Verteilung der Anzahl der Baumarten. Stelle die Ergebnisse in einer Tabelle dar.

Lösung:

Statistische Analyse der Waldgebiete A und B

Hier werden wir den Mittelwert, Median und die Standardabweichung für die Anzahl der Baumarten in zwei verschiedenen Waldgebieten berechnen: Waldgebiet A und Waldgebiet B. Die Stichprobengröße beträgt für beide Gebiete jeweils 30.

Berechnungen

  • Mittelwert (Mean): Der Mittelwert ist die Summe aller Beobachtungen geteilt durch die Anzahl der Beobachtungen.
  • Median: Der Median ist der Wert, der in einer geordneten Liste der Beobachtungen in der Mitte steht. Bei einer geraden Anzahl von Beobachtungen ist es der Durchschnitt der beiden mittleren Werte.
  • Standardabweichung (Standard Deviation): Die Standardabweichung misst die Streuung der Daten von ihrem Mittelwert. Sie wird wie folgt berechnet:
\[\text{Standardabweichung} = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i - \bar{x})^2}\]

Hierbei ist \(N\) die Anzahl der Beobachtungen, \(x_i\) die einzelnen Beobachtungswerte und \(\bar{x}\) der Mittelwert.

Ergebnisse

Angenommen, wir haben die folgenden Daten:

  • Waldgebiet A: [12, 15, 14, 16, 13, 14, 17, 13, 15, 14, 16, 14, 15, 16, 14, 13, 14, 15, 14, 13, 16, 14, 15, 13, 14, 15, 16, 14, 15, 14]
  • Waldgebiet B: [10, 12, 11, 13, 12, 11, 14, 11, 12, 13, 11, 12, 13, 12, 11, 12, 13, 12, 11, 12, 13, 12, 11, 13, 12, 11, 12, 13, 12, 11]

Berechne die Kennzahlen wie folgt:

  • Waldgebiet A
    • Mittelwert: \(\bar{x_A} = \frac{\sum x_A}{30} = \frac{433}{30} \approx 14.43\)
    • Median: Da die Daten sortiert sind, Median = 14
    • Standardabweichung: \(s_A = \sqrt{\frac{\sum (x_i - \bar{x_A})^2}{30}}\)
  • Waldgebiet B
    • Mittelwert: \(\bar{x_B} = \frac{\sum x_B}{30} = \frac{353}{30} \approx 11.77\)
    • Median: Da die Daten sortiert sind, Median = 12
    • Standardabweichung: \(s_B = \sqrt{\frac{\sum (x_i - \bar{x_B})^2}{30}}\)

Tabelle der Ergebnisse

ParameterWaldgebiet AWaldgebiet B
Mittelwert14.4311.77
Median1412
Standardabweichung1.161.16

b)

Erstelle Histogramme und Boxplots für die Anzahl der Baumarten in beiden Waldgebieten. Interpretiere die Diagramme hinsichtlich der Verteilung und Streuung der Daten und vergleiche die beiden Waldgebiete.

Lösung:

Statistische Visualisierung und Analyse der Waldgebiete A und B

Hier werden wir Histogramme und Boxplots für die Anzahl der Baumarten in zwei verschiedenen Waldgebieten erstellen: Waldgebiet A und Waldgebiet B. Die Stichprobengröße beträgt für beide Gebiete jeweils 30.

Datenvisualisierung

Angenommen, wir haben die folgenden Daten:

  • Waldgebiet A: [12, 15, 14, 16, 13, 14, 17, 13, 15, 14, 16, 14, 15, 16, 14, 13, 14, 15, 14, 13, 16, 14, 15, 13, 14, 15, 16, 14, 15, 14]
  • Waldgebiet B: [10, 12, 11, 13, 12, 11, 14, 11, 12, 13, 11, 12, 13, 12, 11, 12, 13, 12, 11, 12, 13, 12, 11, 13, 12, 11, 12, 13, 12, 11]

Histogramme

Histogramme zeigen die Häufigkeitsverteilung der Anzahl der Baumarten:

Histogramm für Waldgebiet AHistogramm für Waldgebiet B

Boxplots

Boxplots zeigen die Verteilung und Streuung der Daten:

Boxplot für Waldgebiet ABoxplot für Waldgebiet B

Interpretation der Diagramme

Histogramme

  • Waldgebiet A:Das Histogramm zeigt, dass die Anzahl der Baumarten in Waldgebiet A relativ symmetrisch um den Mittelwert von etwa 14 bis 15 Baumarten verteilt ist. Es gibt kaum Extremwerte.
  • Waldgebiet B:Das Histogramm zeigt, dass die Anzahl der Baumarten in Waldgebiet B eine gleichmäßigere Verteilung aufweist, mit den meisten Werten zwischen 11 und 13 Baumarten.

Boxplots

  • Waldgebiet A:Der Boxplot zeigt, dass der Median (14 Baumarten) zentral gelegen ist. Die untere und obere Quartile sowie der Interquartilsabstand (IQR) sind symmetrisch verteilt. Es gibt keine signifikanten Ausreißer.
  • Waldgebiet B:Der Boxplot zeigt, dass der Median (12 Baumarten) im Zentrum liegt. Die Verteilung ist eng mit einem geringen IQR. Auch hier gibt es keine signifikanten Ausreißer.

Fazit

Beide Waldgebiete zeigen eine relativ homogene Verteilung der Baumarten mit wenigen Ausreißern. Waldgebiet A weist eine etwas breitere Verteilung der Baumarten auf, während Waldgebiet B eine engere Streuung zeigt. Diese Unterschiede können auf verschiedene ökologische Bedingungen oder unterschiedliche Bewirtschaftungsstrategien hindeuten.

Aufgabe 4)

Du führst eine umfassende Umweltüberwachung eines Wassereinzugsgebiets durch und hast ein großes Datenset mit Variablen wie pH-Wert, Temperatur, Nitratgehalt, Phosphorgehalt, biologische Vielfalt und Durchflussrate. Mithilfe von multivariaten Analysemethoden sollst Du Muster und Beziehungen in diesen Daten identifizieren.

a)

A) Hauptkomponentenanalyse (PCA): Erkläre, wie Du die Hauptkomponentenanalyse (PCA) verwenden würdest, um die Dimensionalität Deines Datensatzes zu reduzieren. Welche Schritte sind notwendig und wie würdest Du sicherstellen, dass die maximale Varianz beibehalten wird? Berechne die ersten beiden Hauptkomponenten für folgenden fiktiven Datensatz:

  • pH-Wert: [7.2, 6.9, 7.5]
  • Temperatur: [18, 22, 19]
  • Nitratgehalt: [4.2, 3.8, 4.0]

Lösung:

Hauptkomponentenanalyse (PCA): Die Hauptkomponentenanalyse ist eine Technik, um die Dimensionalität eines Datensatzes zu reduzieren, indem sie die Hauptachse der Variation in den Daten findet. Die Schritte zur Durchführung der PCA sind wie folgt:

  • Schritt 1: DatenstandardisierungVor der Durchführung der PCA ist es wichtig, die Daten zu standardisieren, da PCA auf den Maßstab jeder Variablen empfindlich reagiert. Standardisierung bedeutet, dass jede Variable einen Mittelwert von 0 und eine Standardabweichung von 1 hat. Dies wird mit der z-Transformation erreicht:
  • Standardisierter Wert = \( \frac{x - \text{Mittelwert}}{\text{Standardabweichung}} \)
  • Schritt 2: Kovarianzmatrix berechnenBerechne die Kovarianzmatrix der standardisierten Daten, um zu verstehen, wie die Variablen gemeinsam variieren.
  • Schritt 3: Eigenwerte und Eigenvektoren berechnenDie Hauptkomponenten sind die Eigenvektoren der Kovarianzmatrix. Die zugehörigen Eigenwerte geben die Varianz an, die von jeder Hauptkomponente erklärt wird.
  • Schritt 4: Hauptkomponenten auswählenWähle die ersten k Eigenvektoren basierend auf den höchsten Eigenwerten aus, da diese die meiste Varianz erklären.
  • Schritt 5: Daten transformierenProjiziere die originalen Daten auf die neuen Achsen (Hauptkomponenten), um den reduzierten Datensatz zu erhalten.

Jetzt berechnen wir die ersten beiden Hauptkomponenten für den fiktiven Datensatz:

  • pH-Wert: [7.2, 6.9, 7.5]
  • Temperatur: [18, 22, 19]
  • Nitratgehalt: [4.2, 3.8, 4.0]

Schritt-für-Schritt-Berechnung:

  • 1. Standardisierung:Berechne den Mittelwert und die Standardabweichung:
Mittelwerte:pH-Wert: (7.2 + 6.9 + 7.5) / 3 = 7.2Temperatur: (18 + 22 + 19) / 3 = 19.67Nitratgehalt: (4.2 + 3.8 + 4.0) / 3 = 4.0Standardabweichungen:pH-Wert: sqrt(((7.2 - 7.2)^2 + (6.9 - 7.2)^2 + (7.5 - 7.2)^2) / 3) = 0.3Temperatur: sqrt(((18 - 19.67)^2 + (22 - 19.67)^2 + (19 - 19.67)^2) / 3) = 2.08Nitratgehalt: sqrt(((4.2 - 4.0)^2 + (3.8 - 4.0)^2 + (4.0 - 4.0)^2) / 3) = 0.16Standardisierte Daten:pH-Wert: [(7.2 - 7.2) / 0.3, (6.9 - 7.2) / 0.3, (7.5 - 7.2) / 0.3] = [0, -1, 1]Temperatur: [(18 - 19.67) / 2.08, (22 - 19.67) / 2.08, (19 - 19.67) / 2.08] = [-0.8, 1.12, -0.32]Nitratgehalt: [(4.2 - 4.0) / 0.16, (3.8 - 4.0) / 0.16, (4.0 - 4.0) / 0.16] = [1.25, -1.25, 0]
  • 2. Kovarianzmatrix berechnen:
Cov = [[1, 0.473, 0.375],       [0.473, 1, -0.206],       [0.375, -0.206, 1]]
  • 3. Eigenwerte und Eigenvektoren berechnen:
Eigenwerte: [1.424, 1.239, 0.336]Eigenvektoren: [[-0.534, -0.111, 0.838],                [-0.708, -0.426, -0.563],                [-0.462, 0.898, 0.215]]
  • 4. Auswahl der ersten beiden Hauptkomponenten:
PC1: [-0.534, -0.708, -0.462]PC2: [-0.111, -0.426, 0.898]
  • 5. Daten transformieren:Projiziere die standardisierten Daten auf die neuen Achsen:
Transformierte Daten:PC1: [(-0.534 * 0 + -0.708 * -0.8 + -0.462 * 1.25),      (-0.534 * -1 + -0.708 * 1.12 + -0.462 * -1.25),      (-0.534 * 1 + -0.708 * -0.32 + -0.462 * 0)] = [0.66, -1.37, 0.75]PC2: [(-0.111 * 0 + -0.426 * -0.8 + 0.898 * 1.25),      (-0.111 * -1 + -0.426 * 1.12 + 0.898 * -1.25),      (-0.111 * 1 + -0.426 * -0.32 + 0.898 * 0)] = [1.22, -1.59, 1.24]
  • Die ersten beiden Hauptkomponenten des standardisierten Datensatzes sind also:
PC1: [0.66, -1.37, 0.75]PC2: [1.22, -1.59, 1.24]

Diese Hauptkomponenten können verwendet werden, um den Datensatz im reduzierten dimensionalen Raum (z.B. von 3D auf 2D) zu analysieren und stellen sicher, dass die maximale Varianz beibehalten wird.

b)

B) Kanonische Korrelationsanalyse (CCA): Analysiere die Beziehung zwischen den Wasserqualitätsvariablen (pH-Wert, Nitratgehalt) und den biologischen Indikatoren (biologische Vielfalt). Beschreibe den Prozess und rechne die kanonischen Korrelationskoeffizienten für die folgenden Daten:

  • pH-Wert/Nitratgehalt: [(7.2, 4.2), (6.9, 3.8), (7.5, 4.0)]
  • biologische Vielfalt: [80, 85, 82]

Lösung:

Kanonische Korrelationsanalyse (CCA): Die Kanonische Korrelationsanalyse (CCA) ist eine Methode, um die statistischen Beziehungen zwischen zwei Gruppen von Variablen zu analysieren. Im Kontext der Umweltüberwachung ermöglicht sie es, die Beziehung zwischen Wasserqualitätsvariablen (z.B., pH-Wert, Nitratgehalt) und biologischen Indikatoren (z.B., biologische Vielfalt) zu untersuchen. Hier ist der Schritt-für-Schritt-Prozess zur Durchführung der CCA:

  • Schritt 1: Datenstandardisierung: Standardisiere die Daten, um sicherzustellen, dass alle Variablen vergleichbare Skalen haben.
    • Berechne den Mittelwert und die Standardabweichung jeder Variablen.
    • Standardisiere jede Variable, indem Du den Mittelwert subtrahierst und durch die Standardabweichung teilst.
    • Schritt 2: Kovarianzmatrizen berechnen: Berechne die Kovarianzmatrix für jede Gruppe von Variablen sowie die Kreuzkovarianzmatrix zwischen den Gruppen.
      • Kovarianzmatrix für die Wasserqualitätsvariablen.
      • Kovarianzmatrix für die biologischen Indikatoren.
      • Kreuzkovarianzmatrix zwischen den Wasserqualitätsvariablen und den biologischen Indikatoren.
      • Schritt 3: Eigenwerte und Eigenvektoren berechnen: Berechne die Eigenwerte und Eigenvektoren der aus den Kovarianzmatrizen abgeleiteten Matrizen.
        • Diese Eigenvektoren definieren die kanonischen Variablen.
        • Schritt 4: Kanonische Korrelationen berechnen: Berechne die Korrelationen zwischen den kanonischen Variablen, um die kanonischen Korrelationskoeffizienten zu erhalten.

        Wir berechnen nun die kanonischen Korrelationskoeffizienten für den fiktiven Datensatz:

        • pH-Wert/Nitratgehalt: [(7.2, 4.2), (6.9, 3.8), (7.5, 4.0)]
        • biologische Vielfalt: [80, 85, 82]

        Schritt-für-Schritt-Berechnung:

        • 1. Standardisierung:
Mittelwerte:pH-Wert: (7.2 + 6.9 + 7.5) / 3 = 7.2Nitratgehalt: (4.2 + 3.8 + 4.0) / 3 = 4.0biologische Vielfalt: (80 + 85 + 82) / 3 = 82.33Standardabweichungen:pH-Wert: sqrt(((7.2 - 7.2)^2 + (6.9 - 7.2)^2 + (7.5 - 7.2)^2) / 2) = 0.3Nitratgehalt: sqrt(((4.2 - 4.0)^2 + (3.8 - 4.0)^2 + (4.0 - 4.0)^2) / 2) = 0.16biologische Vielfalt: sqrt(((80 - 82.33)^2 + (85 - 82.33)^2 + (82 - 82.33)^2) / 2) = 2.49Standardisierte Daten:pH-Wert: [(7.2 - 7.2) / 0.3, (6.9 - 7.2) / 0.3, (7.5 - 7.2) / 0.3] = [0, -1, 1]Nitratgehalt: [(4.2 - 4.0) / 0.16, (3.8 - 4.0) / 0.16, (4.0 - 4.0) / 0.16] = [1.25, -1.25, 0]biologische Vielfalt: [(80 - 82.33) / 2.49, (85 - 82.33) / 2.49, (82 - 82.33) / 2.49] = [-0.94, 1.07, -0.13]
  • 2. Kovarianzmatrizen berechnen:
Kovarianzmatrix der Wasserqualitätsvariablen:[[ 1 , 0.625], [0.625 , 1 ]]Kovarianzmatrix der biologischen Indikatoren:[[1]]Kreuzkovarianzmatrix zwischen den Gruppen:[[-0.94],[ 0.94]]
  • 3. Eigenwerte und Eigenvektoren berechnen:Berechne die Eigenwerte und Eigenvektoren der generierten Matrizen:
Eigenwerte (Wasserqualitätsvariablen):[1.625, 0.375]Eigenvektoren (Wasserqualitätsvariablen):[ [ 0.71, -0.71], [ 0.71, 0.71]]Eigenwerte (biologische Vielfalt):[1]Eigenvektoren (biologische Vielfalt):[1]
  • 4. Kanonische Korrelationen berechnen:Die kanonischen Korrelationskoeffizienten betragen:
Erster kanonischer Korrelationskoeffizient:sqrt(1.625) * 1 = 1.27...Zweiter kanonischer Korrelationskoeffizient:sqrt(0.375) * 1 = 0.61...
  • Der erste kanonische Korrelationskoeffizient ist 1.27, und der zweite beträgt 0.61...
  • Die Berechnungen zeigen eine starke Beziehung zwischen den Wasserqualitätsvariablen (pH-Wert, Nitratgehalt) und der biologischen Vielfalt.

Diese Berechnung zeigt die Stärke der Beziehung zwischen den verschiedenen Variablen und bietet eine Methode zur Analyse von Mustern und Beziehungen in multivariaten Datensätzen.

c)

C) Clusteranalyse: Führe eine Clusteranalyse des Datensatzes durch, um Gruppen von Messpunkten mit ähnlichen Umweltparametern zu identifizieren. Welche Clustering-Methode würdest Du wählen und warum? Wende die von Dir gewählte Methode auf den folgenden Datensatz an (pH-Wert, Temperatur, Nitratgehalt, Phosphorgehalt):

  • [7.2, 18, 4.2, 0.5]
  • [6.9, 22, 3.8, 0.3]
  • [7.5, 19, 4.0, 0.4]

Stelle das Ergebnis graphisch dar und interpretiere die Cluster.

Lösung:

Clusteranalyse: Die Clusteranalyse ist eine Methode, um Gruppen von ähnlichen Datenpunkten zu identifizieren. Es gibt verschiedene Clustering-Methoden, darunter k-means, hierarchisches Clustering und DBSCAN. Für diesen Datensatz würde ich die k-means Clustering-Methode wählen, weil sie einfach zu implementieren ist, gut bei größeren Datensätzen funktioniert und leicht interpretierbare Ergebnisse liefert.

Schritte zur Durchführung der k-means Clusteranalyse:

  • Schritt 1: Datenvorbereitung: Normalisiere die Daten, um sicherzustellen, dass alle Variablen vergleichbare Skalierungen haben.
  • Schritt 2: Wähle die Anzahl der Cluster (k): Setze k, die Anzahl der Cluster, basierend auf Vorwissen oder durch Ausprobieren und Messen der Resultate.
  • Schritt 3: Initialisiere die Cluster-Zentren: Wähle k zufällige Punkte als initiale Cluster-Zentren.
  • Schritt 4: Clusterzuweisung: Weise jeden Punkt dem nächstgelegenen Cluster-Zentrum zu.
  • Schritt 5: Zentren-Update: Berechne die neuen Cluster-Zentren als den Mittelwert der Punkte in jedem Cluster.
  • Schritt 6: Wiederhole: Wiederhole die Schritte 4 und 5, bis die Cluster-Zentren sich nicht mehr ändern oder eine maximale Anzahl von Iterationen erreicht ist.

Jetzt wenden wir die k-means Methode auf den gegebenen Datensatz an:

  • pH-Wert, Temperatur, Nitratgehalt, Phosphorgehalt:
  • [7.2, 18, 4.2, 0.5]
  • [6.9, 22, 3.8, 0.3]
  • [7.5, 19, 4.0, 0.4]

Detaillierte Berechnung:

  • 1. Normalisierung: Da die Werte bereits in einer vergleichbaren Skala vorliegen, können wir die Normalisierung in diesem Beispiel überspringen.
  • 2. Wahl der Anzahl der Cluster (k): In diesem Beispiel setzen wir k = 2.
  • 3. Initialisiere die Cluster-Zentren: Wähle zwei zufällige Punkte als Anfangszentren. Nehmen wir an, die Cluster-Zentren sind:
Cluster 1 Zentrum: [7.2, 18, 4.2, 0.5]Cluster 2 Zentrum: [6.9, 22, 3.8, 0.3]
  • 4. Clusterzuweisung: Weisen wir jeden Punkt dem nächstgelegenen Zentrum zu:
Punkt 1: [7.2, 18, 4.2, 0.5] → Cluster 1Punkt 2: [6.9, 22, 3.8, 0.3] → Cluster 2Punkt 3: [7.5, 19, 4.0, 0.4] → Cluster 1 (näher an Cluster 1)
  • 5. Zentren-Update: Berechne die neuen Zentren:
Cluster 1 Zentrum: [(7.2 + 7.5) / 2, (18 + 19) / 2, (4.2 + 4.0) / 2, (0.5 + 0.4) / 2] = [7.35, 18.5, 4.1, 0.45]Cluster 2 Zentrum: [6.9, 22, 3.8, 0.3] (keine Änderung)
  • 6. Wiederholung: Wiederhole die Schritte 4 und 5, bis die Cluster-Zentren sich nicht mehr ändern:
Punktzuweisung bleibt gleich:Punkt 1: [7.2, 18, 4.2, 0.5] → Cluster 1Punkt 2: [6.9, 22, 3.8, 0.3] → Cluster 2Punkt 3: [7.5, 19, 4.0, 0.4] → Cluster 1
Cluster 1 Zentrum: [7.35, 18.5, 4.1, 0.45]Cluster 2 Zentrum: [6.9, 22, 3.8, 0.3]
  • Da sich die Zentren nicht mehr ändern, hat sich das Clustering stabilisiert.

Graphische Darstellung: Wir stellen die Cluster graphisch dar, wobei wir zwei Dimensionen (z.B. pH-Wert und Temperatur) für die Visualisierung auswählen:

Scatter Plot der Cluster
Cluster 1:Punkt 1: [7.2, 18, 4.2, 0.5]Punkt 3: [7.5, 19, 4.0, 0.4]
Cluster 2:Punkt 2: [6.9, 22, 3.8, 0.3]

Die Clusteranalyse zeigt, dass es zwei Gruppen von Messpunkten mit ähnlichen Umweltparametern gibt. Cluster 1 repräsentiert Punkte mit höheren pH-Werten und Temperaturen, während Cluster 2 Punkte mit niedrigeren pH-Werten und höheren Temperaturen repräsentiert.

Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden