Mathematische Modellbildung und Statistik für Naturwissenschaftler - Exam.pdf

Mathematische Modellbildung und Statistik für Naturwissenschaftler - Exam
Mathematische Modellbildung und Statistik für Naturwissenschaftler - Exam Aufgabe 1) Stell Dir vor, Du forscht an der Populationsdynamik einer seltenen Vogelart in einem Naturschutzgebiet. Du möchtest ein Modell entwickeln, um die Populationsentwicklung dieser Vogelart über die nächsten 10 Jahre vorherzusagen. Beobachtung: Die Population der Vögel schwankt saisonal. Zudem gibt es Prädatoren, die d...

© StudySmarter 2024, all rights reserved.

Mathematische Modellbildung und Statistik für Naturwissenschaftler - Exam

Aufgabe 1)

Stell Dir vor, Du forscht an der Populationsdynamik einer seltenen Vogelart in einem Naturschutzgebiet. Du möchtest ein Modell entwickeln, um die Populationsentwicklung dieser Vogelart über die nächsten 10 Jahre vorherzusagen.

  • Beobachtung: Die Population der Vögel schwankt saisonal. Zudem gibt es Prädatoren, die die Anzahl der Vögel beeinflussen.
  • Hypothese: Die Population der Vögel wird durch eine Kombination aus Geburtenrate, Sterberate und Prädation beeinflusst.
  • Mathematisierung: Die Wachstumsrate der Population lässt sich durch ein logistisches Wachstumsmodell sowie durch prädatorische Einflüsse beschreiben.
  • Analyse: Untersuchung des Modells auf Stabilität und kritische Werte.
  • Simulation: Numerische Lösung der Gleichungen mit gegebenen Anfangsbedingungen.
  • Validierung: Vergleich der Modellvorhersagen mit empirischen Daten aus den letzten fünf Jahre.
  • Optimierung: Anpassung der Modellparameter basierend auf den Validierungsergebnissen.

a)

Wähle eine geeignete mathematische Formulierung für die Beschreibung der Populationsdynamik der Vogelart basierend auf den gegebenen Beobachtungen und Hypothesen. Leite eine allgemeine Differenzialgleichung ab, welche die Wachstums- und Sterberate sowie den Einfluss der Prädation berücksichtigt.

Lösung:

Um die Populationsdynamik der seltenen Vogelart in einem Naturschutzgebiet zu modellieren, basierend auf den gegebenen Beobachtungen und Hypothesen, wird eine Differenzialgleichung verwendet, die Geburtenrate, Sterberate und prädatorische Einflüsse berücksichtigt. Ein logisches Modell, das diese Faktoren einschließt, ist das erweiterte logistische Wachstumsmodell.

  • Logistisches Wachstumsmodell:

Das logistische Wachstumsmodell beschreibt das Wachstum einer Population unter Berücksichtigung der Umweltkapazität, und ist ideal für Situationen, in denen das Ressourcenangebot der Umwelt eine Rolle spielt. Die entsprechende Gleichung lautet:

  • \[\frac{dN}{dt} = rN \left(1 - \frac{N}{K}\right)\]

Wo:

  • \(N\): Größe der Vogelpopulation
  • \(r\): intrinsische Wachstumsrate
  • \(K\): Umweltkapazität

Da die Population saisonalen Schwankungen unterliegt und Prädatoren eine Rolle spielen, müssen wir diese Einflüsse ebenfalls in unser Modell einbeziehen.

  • Einfluss der Prädation:

Die Sterberate der Vögel durch Prädation kann als Funktion der Anzahl der Vögel und der Anzahl der Prädatoren bezeichnet werden. Dies kann als:

  • \[m = a P N\]

Wo:

  • \(m\): Sterberate durch Prädation
  • \(a\): Effektivität der Prädation (Konstante)
  • \(P\): Anzahl der Prädatoren
  • \(N\): Anzahl der Vögel

Gesamtdifferenzialgleichung:

Indem wir die logistische Wachstumsrate mit der Sterberate durch Prädation kombinieren, erhalten wir die Differenzialgleichung, die das Verhalten der Vogelpopulation beschreibt:

  • \[\frac{dN}{dt} = rN \left(1 - \frac{N}{K}\right) - a P N\]

Diese Gleichung spiegelt die natürliche Wachstumsrate der Populationsgröße wider, begrenzt durch die Umweltkapazität, und verringert durch die Sterberate aufgrund von Prädation.

Darüber hinaus können saisonale Schwankungen durch Einbindung einer saisonal variierenden Funktion \( S(t) \) in das Modell übernommen werden:

  • \[\frac{dN}{dt} = rN \left(1 - \frac{N}{K}\right) - a P N + S(t)\]

Wo:

  • \(S(t)\): eine Funktion, die die saisonalen Schwankungen der Geburten- und Sterberate beschreibt.

Diese erweiterte Form der Differenzialgleichung ermöglicht eine genauere Modellierung der Population unter Berücksichtigung aller gegebenen Faktoren.

b)

Löse die abgeleitete Differenzialgleichung analytisch oder numerisch für eine Anfangspopulation von 100 Vögeln und einem Zeitraum von 10 Jahren. Nutze dabei plausible Werte für die Geburtenrate, Sterberate und den Einfluss der Prädation.

population = 100birth_rate = 0.1death_rate = 0.05predation_effect = 0.02timesteps = 1000time = np.linspace(0, 10, timesteps)

Lösung:

Um die abgeleitete Differenzialgleichung zu lösen, kannst Du numerische Methoden wie das Runge-Kutta-Verfahren verwenden. Hier ist ein Beispiel in Python, um die Population der Vogelart über einen Zeitraum von 10 Jahren zu simulieren.

Stellen wir zunächst die Differenzialgleichung bereit:

  • \[\frac{dN}{dt} = rN \left(1 - \frac{N}{K}\right) - a P N\]

Mit den initial gegebenen Werten:

  • Anfangspopulation: 100 Vögel
  • Geburtenrate (Wachstumsrate): 0.1
  • Sterberate: 0.05 (Dieser Wert wird modifiziert, um die logistische Wachstumsrate zu definieren)
  • Einfluss der Prädation: 0.02

Wir nehmen außerdem an, dass die Anzahl der Prädatoren konstant ist und eine plausible Umweltkapazität setzen.

<pre><!DOCTYPE html>import numpy as npimport matplotlib.pyplot as pltfrom scipy.integrate import odeint# Parameterdefinitionenpopulation = 100birth_rate = 0.1death_rate = 0.05predation_effect = 0.02carrying_capacity = 500  # Umweltkapazitätpredator_population = 20 timesteps = 1000time = np.linspace(0, 10, timesteps)# Differenzialgleichungdef population_model(N, t):  r = birth_rate  K = carrying_capacity  a = predation_effect  P = predator_population  dN_dt = r * N * (1 - N / K) - a * P * N  return dN_dt# AnfangsbedingungN0 = population# Lösen der Differenzialgleichungpopulation_over_time = odeint(population_model, N0, time)# Plotten der Ergebnisseplt.plot(time, population_over_time)plt.title('Populationsdynamik der seltenen Vogelart')plt.xlabel('Zeit (Jahre)')plt.ylabel('Population')plt.grid(True)plt.show()</pre>

Erklärung des Codes:

  • Parameterdefinition: Enthält die Startwerte für die Population, Geburtenrate, Sterberate, den Einfluss der Prädation, die Umweltkapazität und die Anzahl der Prädatoren.
  • Differenzialgleichung: Die Gleichung, die die Populationsdynamik beschreibt.
  • odeint: Ein scipy-Tool zur numerischen Lösung von Differenzialgleichungen.
  • Plotten der Ergebnisse: Visualisierung der Population der Vögel über einen Zeitraum von 10 Jahren.

Auf diese Weise kannst Du die Populationsentwicklung der Vogelart über die nächsten 10 Jahre vorhersagen.

c)

Überprüfe die Stabilität des Modells. Berechne die kritischen Werte, ab denen die Population der Vögel unaufhaltsam wächst oder stirbt. Diskutiere die Parameterbereiche, in denen das Modell stabil ist.

Lösung:

Um die Stabilität des Modells zu überprüfen und die kritischen Werte zu berechnen, ab denen die Population der Vögel unaufhaltsam wächst oder stirbt, müssen wir die Gleichgewichtspunkte des Systems sowie deren Stabilität analysieren. Die verwendete Differentialgleichung lautet:

  • \[\frac{dN}{dt} = rN \left(1 - \frac{N}{K}\right) - a P N\]

Die Parameter sind:

  • \(r\): intrinsische Wachstumsrate
  • \(K\): Umweltkapazität
  • \(a\): Effektivität der Prädation
  • \(P\): Anzahl der Prädatoren
  • \(N\): Vögel Population

Gleichgewichtspunkte bestimmen:

Ein Gleichgewichtspunkt ist erreicht, wenn \(\frac{dN}{dt} = 0\). Dies ergibt:

  • \[0 = rN \left(1 - \frac{N}{K}\right) - a P N\]

Faktorisieren wir \(N\) heraus:

  • \[N \left(r \left(1 - \frac{N}{K}\right) - a P\right) = 0\]

Die obige Gleichung ergibt zwei Gleichgewichtspunkte:

  • \[N = 0\]
  • \[r \left(1 - \frac{N}{K}\right) - a P = 0\]

Für den zweiten Gleichgewichtspunkt lösen wir für \(N\):

  • \[r - r \frac{N}{K} - a P = 0\]
  • \[r = r \frac{N}{K} + a P\]
  • \[r - a P = r \frac{N}{K}\]
  • \[N = K \left(\frac{r - a P}{r}\right)\]

Daher sind die Gleichgewichtspunkte:

  • \(N_1 = 0\)
  • \(N_2 = K \left(\frac{r - a P}{r}\right)\)

Stabilitätsanalyse:

Um die Stabilität der Gleichgewichtspunkte zu überprüfen, untersuchen wir das Vorzeichen der Ableitung \(\frac{d}{dN}\left(rN \left(1 - \frac{N}{K}\right) - a P N\right)\) an diesen Punkten.

Die Ableitung ist:

  • \[\frac{d}{dN}\left(rN \left(1 - \frac{N}{K}\right) - a P N\right) = r \left(1 - \frac{2N}{K}\right) - a P\]

Am ersten Gleichgewichtspunkt \(N_1 = 0\):

  • \[r \left(1 - \frac{2 (0)}{K}\right) - a P = r - a P\]

\(r - a P > 0\): Stabil (Population wächst)

Am zweiten Gleichgewichtspunkt \(N_2 = K \left(\frac{r - a P}{r}\right)\):

  • \[r \left(1 - \frac{2 K \left(\frac{r - a P}{r}\right)}{K}\right) - a P\]
  • \[r \left(1 - 2 \left(\frac{r - a P}{r}\right)\right) - a P\]
  • \[r \left(1 - 2 + \frac{2aP}{r}\right) - a P\]
  • \[r \left(-1 + \frac{2aP}{r}\right) - a P\]
  • \[-r + 2aP - a P\]
  • \[-r + a P\]

\(-r + a P < 0\): Stabilisierung bei kleiner Populationsgröße

Kritische Werte:

Stabilität und kritische Werte hängen von den Parameterbereichen ab:

  • Ein positiver Wert für \(r - a P\) impliziert Wachstum der Population.
  • Wenn \(a P\) gleich oder größer als \(r\), wird die Population abnehmen, außer wenn \(N = 0\), was degeneriert und unstabil ist.

Diskussion der Stabilität:

  • Wenn \(a P < r\), bewegt sich das System zum stabilen Gleichgewichtspunkt \(N_2 = K \left(\frac{r - a P}{r}\right)\).
  • Wenn \(a P \ge r\), sinkt die Population bis auf Null (\(N_1 = 0\)), was stark instabil ist und wahrscheinlich zu langfristigem Aussterben führt.
  • Ein angemessener Bereich für stabilen Zustand erfordert \(a P < r\), was prädatorischen Einfluss eindämmt und sicheres Wachstum bietet.

d)

Validiere Dein Modell, indem Du es mit tatsächlichen Populationsdaten aus den letzten fünf Jahren vergleichst. Schätze dabei die Unsicherheiten in den Parametern ab und passe Dein Modell gegebenenfalls an, um die Übereinstimmung zu verbessern.

Lösung:

Um das Modell zu validieren, vergleichen wir zunächst die Modellvorhersagen mit tatsächlichen Populationsdaten aus den letzten fünf Jahren. Dabei schätzen wir auch die Unsicherheiten in den Modellparametern ab und passen sie an, um eine bessere Übereinstimmung zu erzielen. In diesem Beispiel verwenden wir Python, um diesen Vergleich und die Anpassung durchzuführen.

Angenommen, wir haben bereits Daten über die Vogelpopulation für die letzten fünf Jahre (Urbaneingehen). Diese Daten umfassen die beobachteten Populationsgrößen jährlich. Der grobe Ablauf dieser Aufgabe besteht aus folgenden Schritten:

  • 1. Einlesen der tatsächlichen Populationsdaten.
  • 2. Durchführung von Simulationen mit dem Modell.
  • 3. Anpassung der Modellparameter basierend auf den Validierungsergebnissen.

Gegebenenfalls verwenden wir scipy-optimize zur Feinjustierung der Modellparameter.

Hier ist ein Beispiel für die Implementierung in Python:

<pre><!DOCTYPE html>import numpy as npimport matplotlib.pyplot as pltfrom scipy.integrate import odeintfrom scipy.optimize import curve_fit# Parameter Anfangswertepopulation = 100birth_rate = 0.1death_rate = 0.05predation_effect = 0.02carrying_capacity = 500predator_population = 20time_years = np.linspace(0, 5, 6)  # 5 Jahre, jährliche Datenactual_data = [100, 110, 105, 115, 108, 112]  # Beispiel-Daten# Differenzialgleichungdef population_model(N, t, r, K, a, P):  dN_dt = r * N * (1 - N / K) - a * P * N  return dN_dt# Simulationsfunktiondef simulate_population(params):  r, K, a, P = params  initial_population = actual_data[0]  simulated_population = odeint(population_model, initial_population, time_years, args=(r, K, a, P))  return simulated_population.flatten()# Verlustfunktion zur Optimierungdef loss(params):  simulated_population = simulate_population(params)  return np.sum((simulated_population - actual_data)**2)# Optimierung der Parameterinitial_params = [birth_rate, carrying_capacity, predation_effect, predator_population]opt_params = curve_fit(lambda t, r, K, a, P: simulate_population([r, K, a, P]), time_years, actual_data, p0=initial_params)[0]# Beste Parameterwerteoptimized_birth_rate, optimized_carrying_capacity, optimized_predation_effect, optimized_predator_population = opt_params# Simulation mit optimierten Parameternoptimized_simulation = simulate_population(opt_params)# Plotten der Ergebnisseplt.plot(time_years, actual_data, 'o', label='Beobachtete Daten')plt.plot(time_years, optimized_simulation, '-', label='Modell Simulation')plt.title('Validierung der Populationsdynamik')plt.xlabel('Zeit (Jahre)')plt.ylabel('Population')plt.legend()plt.grid(True)plt.show()</pre>

Erklärung des Codes:

  • Einlesen der tatsächlichen Populationsdaten: Die tatsächlichen Daten der Vogelpopulation über fünf Jahre werden eingelesen (hier als Beispiel).
  • Differenzialgleichung und Simulationsfunktion: Die vorher entwickelte Gleichung wird verwendet, um die Bevölkerung zu simulieren.
  • Verlustfunktion: Eine Verlustfunktion wird definiert, die die Differenz zwischen simulierten und tatsächlichen Populationsdaten minimiert.
  • Optimierung der Parameter: Scipy`s curve_fit wird verwendet, um die optimalen Parameterwerte zu finden, die die Verlustfunktion minimieren.
  • Plottung und Vergleich: Die beobachteten Daten werden mit den simulierten Daten verglichen und geplottet.

Auf diese Weise kannst du das Modell validieren und gegebenenfalls die Parameter anpassen, um eine bessere Übereinstimmung zwischen Modell und beobachteten Daten zu erreichen.

Aufgabe 2)

Du wurdest von einer Forschungsgruppe beauftragt, das Populationswachstum einer bestimmten Bakterienspezies zu modellieren. Für die Modellierung werden dir zwei Optionen vorgestellt: ein deterministisches und ein stochastisches Modell. Das deterministische Modell basiert auf festen Wachstumsraten, während das stochastische Modell zufällige Wachstumsfaktoren berücksichtigt, die durch Umwelteinflüsse oder andere variable Bedingungen verursacht werden.

a)

Erkläre, wie das deterministische Modell für das Populationswachstum der Bakterien mathematisch beschrieben würde. Verwende dabei die allgemeine Form der deterministischen Wachstumsgleichung \(\frac{dx}{dt} = f(x,t)\). Gehe davon aus, dass die Wachstumsrate konstant ist und keine äußeren Einflüsse vorliegen.

Lösung:

Das deterministische Modell für das Populationswachstum der Bakterien kann mathematisch durch die Gleichung \(\frac{dx}{dt} = f(x, t)\) beschrieben werden. Wenn wir annehmen, dass die Wachstumsrate konstant ist und keine äußeren Einflüsse vorliegen, dann wird die Population mit einer festen Rate wachsen.

In diesem Fall ist die allgemeine Wachstumsgleichung:

  • \(\frac{dx}{dt} = r \times x\)

Hierbei ist:

  • \(x\) die Populationsgröße der Bakterien zu einem beliebigen Zeitpunkt,
  • \(r\) die konstante Wachstumsrate, und
  • \(\frac{dx}{dt}\) die Änderungsrate der Populationsgröße über die Zeit.

Diese Gleichung besagt, dass die Änderungsrate der Population direkt proportional zur derzeitigen Population ist, mit der Proportionalitätskonstanten \(r\).

Um die Populationsgröße zu einem bestimmten Zeitpunkt t zu bestimmen, kann diese Gleichung integriert werden. Diese ergibt dann eine Exponentialfunktion:

  • \(x(t) = x(0) \times e^{rt}\)

Hierbei ist:

  • \(x(0)\) die anfängliche Populationsgröße zum Zeitpunkt \(t = 0\), und
  • \(e\) die Eulersche Zahl (ungefähr 2,718).

Zusammengefasst beschreibt das deterministische Modell, dass bei konstanter Wachstumsrate \(r\) die Populationsgröße der Bakterien exponentiell über die Zeit wächst.

b)

Das stochastische Modell berücksichtigt zufällige Wachstumsvariationen. Angenommen, die Wachstumsrate ist nicht konstant, sondern variiert zufällig durch die Störgröße \(\eta(t)\). Schreibe die entsprechende stochastische Differentialgleichung auf und beschreibe, welche zusätzliche Informationen du zur Lösung dieses Modells benötigen würdest.

Lösung:

Das stochastische Modell berücksichtigt zufällige Wachstumsvariationen, die durch die Störgröße \(\eta(t)\) verursacht werden. Um das Populationswachstum der Bakterien mit diesen zufälligen Variationen zu modellieren, verwenden wir eine stochastische Differentialgleichung (SDE). Eine mögliche Form dieser Gleichung lautet:

  • \( dx = r \cdot x \cdot dt + \sigma \cdot x \cdot dW_t \)

Hierbei ist:

  • \(x\) die Populationsgröße der Bakterien,
  • \(r\) die mittlere Wachstumsrate,
  • \(dt\) ein infinitesimal kleiner Zeitschritt,
  • \(\sigma\) die Standardabweichung der Wachstumsrate, welche die Intensität der zufälligen Variationen angibt,
  • \(dW_t\) das differentielle Element eines Wiener-Prozesses oder Brown'schen Bewegungs, welches die zufälligen Schwankungen modelliert.

Diese Gleichung besagt, dass die Änderungsrate der Population sowohl eine deterministische Komponente \(r \cdot x \cdot dt\) als auch eine stochastische Komponente \(\sigma \cdot x \cdot dW_t\) hat.

Um dieses stochastische Modell zu lösen, benötigen wir zusätzliche Informationen:

  • Anfangsbedingungen: die anfängliche Populationsgröße \(x(0)\).
  • Parameter: die mittlere Wachstumsrate \(r\) und die Standardabweichung \(\sigma\), welche die Intensität der zufälligen Variationen beschreibt.
  • Statistische Eigenschaften des Wiener-Prozesses: insbesondere, dass der Wiener-Prozess \(W_t\) eine normale Verteilung mit Mittelwert 0 und Varianz \(t\) hat.

Diese zusätzlichen Informationen ermöglichen die numerische Lösung der stochastischen Differentialgleichung, z.B. durch Monte-Carlo-Simulationen oder andere geeignete numerische Verfahren.

c)

Vergleiche die beiden Ansätze hinsichtlich ihrer Anwendbarkeit und Aussagekraft für die Prognose des Populationswachstums der Bakterien. Welche Vorteile bringt ein stochastisches Modell in diesem Kontext? In welchen Situationen wäre das deterministische Modell möglicherweise ausreichend?

Lösung:

Beide Modelle, das deterministische und das stochastische Modell, haben spezifische Vor- und Nachteile, die sie für unterschiedliche Kontexte mehr oder weniger geeignet machen. Hier ist ein Vergleich hinsichtlich ihrer Anwendbarkeit und Aussagekraft:

Deterministisches Modell:

  • Anwendbarkeit: Das deterministische Modell ist sinnvoll, wenn die Umweltbedingungen relativ stabil sind und die Wachstumsrate der Bakterien konstant bleibt. Dieses Modell ist einfacher zu lösen und benötigt weniger Daten.
  • Aussagekraft: Es liefert klare und vorhersehbare Ergebnisse, so dass genaue Vorhersagen über die Populationsgröße in der Zukunft gemacht werden können. Allerdings ignoriert es zufällige Schwankungen und ist daher nur bei stabilen Bedingungen realistisch.
  • Vorteile: Einfachheit und geringerer Rechenaufwand. Nützlich zur schnellen Einschätzung von Wachstumsverläufen unter idealen Bedingungen.

Stochastisches Modell:

  • Anwendbarkeit: Das stochastische Modell ist sinnvoll, wenn die Umweltbedingungen variabel sind und zufällige Einflüsse eine signifikante Rolle spielen. Dieses Modell erfordert detailliertere Daten und ist komplexer zu lösen.
  • Aussagekraft: Es kann besser die Unsicherheit und die Variabilität des Populationswachstums unter echten Bedingungen widerspiegeln. Es ermöglicht die Modellierung und Vorhersage von Wahrscheinlichkeitsverteilungen und Extremereignissen.
  • Vorteile: Realistischere Resultate unter wechselnden Bedingungen und Berücksichtigung zufälliger Umweltfaktoren. Es ermöglicht zudem flexible Szenarienanalysen und Risikobewertungen.

Situationen, in denen das deterministische Modell ausreichend wäre:

  • Wenn die Umweltbedingungen konstant und kontrollierbar sind.
  • Für erste Überschlagsrechnungen und grundlegende Einschätzungen über das Wachstumsverhalten der Population.
  • Wenn die genaue Präzision der Prognose weniger wichtig ist und es nur auf einen allgemeinen Trend ankommt.

Situationen, in denen das stochastische Modell bevorzugt eingesetzt werden sollte:

  • Wenn die Umweltbedingungen stark variieren und es viele unvorhersehbare Einflüsse gibt.
  • Für detaillierte Risikoanalysen und um Wahrscheinlichkeiten von besonders hohen oder niedrigen Populationsgrößen zu berechnen.
  • Wenn eine realistische und detaillierte Prognose erforderlich ist, die die Unsicherheiten und möglichen Schwankungen berücksichtigt.

Zusammengefasst bietet das stochastische Modell eine größere Aussagekraft und Flexibilität, insbesondere unter variablen Umweltbedingungen. Das deterministische Modell ist jedoch in stabilen Umgebungen und für eine schnelle, einfachere Modellierung ausreichend.

Aufgabe 3)

In einem biologischen Experiment soll untersucht werden, wie sich die Konzentration eines bestimmten Enzyms (abhängige Variable y) in Abhängigkeit von der Dosierung eines Medikaments (unabhängige Variable x) verhält. Zusätzlich soll überprüft werden, ob verschiedene Gruppen, die unterschiedlich oft mit dem Medikament behandelt wurden, signifikante Unterschiede in ihren Enzymkonzentrationen (y) aufweisen.

a)

(a) Bestimme die Parameterschätzung der linearen Regression für die Daten gegeben durch:

  • Dosis x: [1, 2, 3, 4, 5]
  • Enzymkonzentration y: [2, 2.5, 3.5, 3, 4.5]
  • Schreibe die Schätzfunktion für die Beziehung zwischen der Dosis und der Enzymkonzentration auf.

    Lösung:

    Um die Parameterschätzung der linearen Regression für die gegebenen Daten zu bestimmen, müssen wir die Regressionsgleichung der Form

    \( y = a + bx \)

    finden, wobei \(a\) der y-Achsenabschnitt und \(b\) die Steigung der Geraden ist.

    • Dosis x: [1, 2, 3, 4, 5]
    • Enzymkonzentration y: [2, 2.5, 3.5, 3, 4.5]

    Zur Bestimmung der Koeffizienten \(a\) und \(b\) verwenden wir die folgenden Formeln:

    • \( b = \frac{{n \sum (xy) - \sum x \sum y}}{{n \sum (x^2) - (\sum x)^2 }} \)
    • \( a = \bar{y} - b \bar{x} \)

    Hierbei stehen:

    • n = Anzahl der Datenpunkte
    • \( \sum (xy) = \) Summe der Produkte von x und y
    • \( \sum x = \) Summe der x-Werte
    • \( \sum y = \) Summe der y-Werte
    • \( \sum (x^2) = \) Summe der Quadrate der x-Werte
    • \( \bar{x} = \) Mittelwert von x
    • \( \bar{y} = \) Mittelwert von y

    Berechnen wir nun die notwendigen Summen:

    • \( \sum x = 1 + 2 + 3 + 4 + 5 = 15 \)
    • \( \sum y = 2 + 2.5 + 3.5 + 3 + 4.5 = 15.5 \)
    • \( \sum (xy) = 1 * 2 + 2 * 2.5 + 3 * 3.5 + 4 * 3 + 5 * 4.5 = 40.5 \)
    • \( \sum (x^2) = 1^2 + 2^2 + 3^2 + 4^2 + 5^2 = 55 \)

    Setzen wir die Werte in die Formeln ein:

    • \( b = \frac{{5 * 40.5 - 15 * 15.5}}{{5 * 55 - 15^2}} = \frac{{202.5 - 232.5}}{{275 - 225}} = \frac{{-30}}{{50}} = -0.6 \)
    • \( \bar{x} = \frac{15}{5} = 3 \)
    • \( \bar{y} = \frac{15.5}{5} = 3.1 \)
    • \( a = 3.1 - (-0.6 * 3) = 3.1 + 1.8 = 4.9 \)

    Die Schätzfunktion für die Beziehung zwischen der Dosis und der Enzymkonzentration ist also:

    \( y = 4.9 - 0.6x \)

    b)

    (b) Führe eine Einweg-ANOVA durch, um zu testen, ob es signifikante Unterschiede in den Enzymkonzentrationen zwischen drei Gruppen gibt, die unterschiedlich oft mit dem Medikament behandelt wurden:

    • Gruppe 1 (0 Behandlungen): y = [1.8, 2.0, 2.2]
    • Gruppe 2 (1 Behandlung): y = [2.5, 2.7, 2.9]
    • Gruppe 3 (2 Behandlungen): y = [3.0, 3.2, 3.4]
    • Berechne den F-Wert und interpretiere das Ergebnis.

      Lösung:

      Um eine Einweg-ANOVA (Analyse der Varianz) durchzuführen, um zu testen, ob es signifikante Unterschiede in den Enzymkonzentrationen zwischen den drei Gruppen gibt, die unterschiedlich oft mit dem Medikament behandelt wurden, gehen wir wie folgt vor:

      • Gruppe 1 (0 Behandlungen): y = [1.8, 2.0, 2.2]
      • Gruppe 2 (1 Behandlung): y = [2.5, 2.7, 2.9]
      • Gruppe 3 (2 Behandlungen): y = [3.0, 3.2, 3.4]

      Schritte zur Durchführung der Einweg-ANOVA:

  1. Berechne die Mittelwerte jeder Gruppe:
  • \(\bar{y}_1 = \frac{(1.8 + 2.0 + 2.2)}{3} = 2.0\)
  • \(\bar{y}_2 = \frac{(2.5 + 2.7 + 2.9)}{3} = 2.7\)
  • \(\bar{y}_3 = \frac{(3.0 + 3.2 + 3.4)}{3} = 3.2\)
  • Bestimme den Gesamtmittelwert aller Beobachtungen:
    • \(\bar{y}_{gesamt} = \frac{(1.8 + 2.0 + 2.2 + 2.5 + 2.7 + 2.9 + 3.0 + 3.2 + 3.4)}{9} = 2.6\)
  • Berechne die Summe der Quadrate zwischen den Gruppen (SSbetween):
    • \(SS_{between} = n_1 (\bar{y}_1 - \bar{y}_{gesamt})^2 + n_2 (\bar{y}_2 - \bar{y}_{gesamt})^2 + n_3 (\bar{y}_3 - \bar{y}_{gesamt})^2\)
    • \(SS_{between} = 3(2.0 - 2.6)^2 + 3(2.7 - 2.6)^2 + 3(3.2 - 2.6)^2\)
    • \(SS_{between} = 3(-0.6)^2 + 3(0.1)^2 + 3(0.6)^2\)
    • \(SS_{between} = 3(0.36) + 3(0.01) + 3(0.36) = 3 * 0.36 + 3 * 0.01 + 3 * 0.36 = 1.08 + 0.03 + 1.08 = 2.19\)
  • Berechne die Summe der Quadrate innerhalb der Gruppen (SSwithin):
    • SSwithin = \sum\sum (y_{ij} - \bar{y}_i)^2
    • Gruppe 1: \( (1.8 - 2.0)^2 + (2.0 - 2.0)^2 + (2.2 - 2.0)^2 = 0.04 + 0.00 + 0.04 = 0.08\)
    • Gruppe 2: \( (2.5 - 2.7)^2 + (2.7 - 2.7)^2 + (2.9 - 2.7)^2 = 0.04 + 0.00 + 0.04 = 0.08\)
    • Gruppe 3: \( (3.0 - 3.2)^2 + (3.2 - 3.2)^2 + (3.4 - 3.2)^2 = 0.04 + 0.00 + 0.04 = 0.08\)
    • SSwithin = 0.08 + 0.08 + 0.08 = 0.24
  • Berechne die Freiheitsgrade für die beiden Varianzquellen:
    • dfbetween = k - 1 = 3 - 1 = 2
    • dfwithin = N - k = 9 - 3 = 6
  • Berechne die mittlere Quadratsumme (MS) für zwischen und innerhalb der Gruppen:
    • MSbetween = \frac{SS_{between}}{df_{between}} = \frac{2.19}{2} = 1.095
    • MSwithin = \frac{SS_{within}}{df_{within}} = \frac{0.24}{6} = 0.04
  • Bestimme den F-Wert:
    • F = \frac{MS_{between}}{MS_{within}} = \frac{1.095}{0.04} = 27.375

    Vergleiche den F-Wert mit dem kritischen F-Wert aus der F-Verteilungstabelle bei einem Signifikanzniveau von 0.05 und den Freiheitsgraden (2, 6). Der kritische F-Wert bei diesen Freiheitsgraden und einem Signifikanzniveau von 0.05 ist ca. 5.143.

    Da unser berechneter F-Wert von 27.375 deutlich größer als der kritische F-Wert von 5.143 ist, liegt ein signifikanter Unterschied in den Enzymkonzentrationen zwischen den Gruppen vor.

    Interpretation: Es gibt signifikante Unterschiede in den Enzymkonzentrationen zwischen den Gruppen, die unterschiedlich oft mit dem Medikament behandelt wurden.

    c)

    (c) Stelle die Lineare-Regressionsgleichung, die Du in Teil (a) berechnet hast, grafisch dar. Trage die Datenpunkte und die Regressionsgerade in ein Koordinatensystem ein.

    Lösung:

    Um die Lineare-Regressionsgleichung und die Datenpunkte grafisch darzustellen, verwenden wir die in Teil (a) berechnete Gleichung:

    \( y = 1.1 + 0.7x \)

    Die Dosis (x) und die Enzymkonzentrationen (y) sind:

    • Dosis x: [1, 2, 3, 4, 5]
    • Enzymkonzentration y: [2, 2.5, 3.5, 3, 4.5]

    Hier ist der Python-Code zur Erstellung der grafischen Darstellung mittels Matplotlib:

    import matplotlib.pyplot as pltimport numpy as np# Datenpunktex = np.array([1, 2, 3, 4, 5])y = np.array([2, 2.5, 3.5, 3, 4.5])# Lineare-Regression-Gleichung# y = 1.1 + 0.7xdef linear_regression(x):    return 1.1 + 0.7 * x# Erstellen eines neuen Bereichs von x-Werten für die Regressionsgeradex_range = np.linspace(1, 5, 100)y_pred = linear_regression(x_range)# Plotplt.scatter(x, y, color='red', label='Datenpunkte')plt.plot(x_range, y_pred, color='blue', label='Regressionsgerade (y = 1.1 + 0.7x)')# Achsenbeschriftungen und Titelplt.xlabel('Dosis (x)')plt.ylabel('Enzymkonzentration (y)')plt.title('Lineare Regression: Enzymkonzentration vs. Dosis')plt.legend()plt.grid(True)plt.show()

    Dieser Code erzeugt eine grafische Darstellung mit den Datenpunkten und der Regressionsgeraden. Im Folgenden werden die Schritte des Codes erläutert:

    • Importiere das Matplotlib- und Numpy-Modul.
    • Definiere die Datenpunkte (x und y) als Numpy-Arrays.
    • Definiere die lineare Regressionsfunktion.
    • Erstelle einen neuen Bereich von x-Werten für die Regressionsgerade.
    • Berechne die vorhergesagten y-Werte für die Regressionsgerade.
    • Erzeuge ein Streudiagramm für die Datenpunkte und plotte die Regressionsgerade.
    • Beschrifte die Achsen, füge einen Titel hinzu und zeige die Legende an.
    • Zeige das Diagramm an.

    d)

    (d) Erkläre, was die Varianz innerhalb der Gruppen und zwischen den Gruppen bedeutet und wie sie in der Einweg-ANOVA verwendet wird, um den F-Wert zu berechnen.

    Welche Bedeutung hat der F-Wert in diesem Kontext?

    Lösung:

    In der Einweg-ANOVA (Analyse der Varianz) werden zwei Arten von Varianz betrachtet: die Varianz innerhalb der Gruppen und die Varianz zwischen den Gruppen. Diese Varianzen helfen uns zu verstehen, ob es signifikante Unterschiede zwischen den Gruppen gibt.

    1. Varianz innerhalb der Gruppen (SSwithin):
    • Diese Varianz misst die Streuung der Enzymkonzentrationen innerhalb jeder Gruppe. Sie zeigt, wie unterschiedlich die Enzymkonzentrationen in den einzelnen Gruppen sind.
    • Sie wird berechnet, indem die Abweichungen jedes Datenpunktes vom Gruppenmittelwert quadriert und summiert werden.
    • Formel: \(SS_{within} = \sum \sum (y_{ij} - \bar{y}_i)^2\), wobei \(y_{ij}\) die Enzymkonzentration des j-ten Individuums in Gruppe i und \(\bar{y}_i\) der Mittelwert der Gruppe i ist.
    2. Varianz zwischen den Gruppen (SSbetween):
    • Diese Varianz misst die Streuung der Gruppenmittelwerte um den Gesamtmittelwert. Sie zeigt, wie unterschiedlich die Mittelwerte der Enzymkonzentrationen der verschiedenen Gruppen sind.
    • Sie wird berechnet, indem die Abweichungen jedes Gruppenmittelwertes vom Gesamtmittelwert quadriert, mit der Anzahl der Beobachtungen in der Gruppe multipliziert und dann summiert werden.
    • Formel: \(SS_{between} = n_i (\bar{y}_i - \bar{y}_{gesamt})^2\), wobei \(n_i\) die Anzahl der Beobachtungen in Gruppe i, \(\bar{y}_i\) der Mittelwert der Gruppe i und \(\bar{y}_{gesamt}\) der Gesamtmittelwert ist.
    Berechnung des F-Wertes:
    • Der F-Wert ist das Verhältnis der mittleren Quadratsumme zwischen den Gruppen (MSbetween) zur mittleren Quadratsumme innerhalb der Gruppen (MSwithin). Er gibt an, ob die zwischen den Gruppen beobachteten Unterschiede signifikant größer sind als die innerhalb der Gruppen beobachteten Unterschiede.
    • Formel: \(F = \frac{MS_{between}}{MS_{within}}\), wobei \(MS_{between} = \frac{SS_{between}}{df_{between}}\) und \(MS_{within} = \frac{SS_{within}}{df_{within}}\).

    Bedeutung des F-Wertes in diesem Kontext:

    • Der F-Wert hilft uns zu bestimmen, ob die Gruppenmittelwerte der Enzymkonzentrationen signifikant unterschiedlich sind.
    • Ein hoher F-Wert deutet darauf hin, dass die Varianz zwischen den Gruppen im Vergleich zur Varianz innerhalb der Gruppen groß ist, was bedeutet, dass es wahrscheinlich signifikante Unterschiede zwischen den Gruppen gibt.
    • Um zu entscheiden, ob der beobachtete F-Wert signifikant ist, vergleichen wir ihn mit einem kritischen F-Wert aus der F-Verteilungstabelle, basierend auf dem gewählten Signifikanzniveau (z.B. 0.05) und den Freiheitsgraden.
    • Ist der berechnete F-Wert größer als der kritische F-Wert, lehnen wir die Nullhypothese ab und folgern, dass es signifikante Unterschiede zwischen den Gruppen gibt.

    Zusammenfassend zeigt ein signifikanter F-Wert in diesem Experiment, dass die Anzahl der Behandlungen mit dem Medikament einen signifikanten Einfluss auf die Enzymkonzentrationen in den verschiedenen Gruppen hat.

    Aufgabe 4)

    Explorative Datenanalyse und Visualisierung:In dieser Aufgabe nutzen wir eine fiktive Datensammlung von Pflanzenwachstumsdaten. Jeder Datensatz enthält die folgenden Informationen für 100 Pflanzen:

    • Höhe in Zentimetern
    • Blattanzahl
    • Tage seit dem Keimen
    • Sonnenlichtstunden pro Tag
    • Wasserverbrauch pro Woche in Litern
    Decken alle notwendigen Schritte der explorativen Datenanalyse ab, um Erkenntnisse aus diesen Daten zu gewinnen.

    a)

    Datenbereinigung: Lade den vorliegenden Datensatz mittels Python (Pandas) und bereinige ihn. Entferne fehlerhafte Datenwerte und identifiziere Ausreißer in den Variablen 'Höhe' und 'Blattanzahl'. Nutze z.B. den Z-Score, um Ausreißer zu identifizieren. Dokumentiere die Schritte der Bereinigung und die Anzahl der entfernten Datenpunkte.

    import pandas as pdimport numpy as npfrom scipy import stats# Lade den Datensatzurl = 'URL_ZUM_DATENSET'daten = pd.read_csv(url)# Z-Score Methode zur Ausreißer-Identifikationz_scores = np.abs(stats.zscore(daten[['Höhe', 'Blattanzahl']]))ausreißer = np.where(z_scores > 3)daten_bereinigt = daten.drop(ausreißer[0], axis=0)# Ausgabe der Anzahl der entfernten Datenpunkteentfernte_punkte = len(daten) - len(daten_bereinigt)

    Lösung:

    Explorative Datenanalyse und Visualisierung:In dieser Aufgabe nutzen wir eine fiktive Datensammlung von Pflanzenwachstumsdaten. Jeder Datensatz enthält die folgenden Informationen für 100 Pflanzen:

    • Höhe in Zentimetern
    • Blattanzahl
    • Tage seit dem Keimen
    • Sonnenlichtstunden pro Tag
    • Wasserverbrauch pro Woche in Litern
    Deck alle notwendigen Schritte der explorativen Datenanalyse ab, um Erkenntnisse aus diesen Daten zu gewinnen. Datenbereinigung: Lade den vorliegenden Datensatz mittels Python (Pandas) und bereinige ihn. Entferne fehlerhafte Datenwerte und identifiziere Ausreißer in den Variablen 'Höhe' und 'Blattanzahl'. Nutze z.B. den Z-Score, um Ausreißer zu identifizieren. Dokumentiere die Schritte der Bereinigung und die Anzahl der entfernten Datenpunkte.
    import pandas as pdimport numpy as npfrom scipy import stats# Lade den Datensatzurl = 'URL_ZUM_DATENSET'daten = pd.read_csv(url)# Datenbereinigung - Entfernen von fehlerhaften Datenwerten# Hier kann man annehmen, dass fehlerhafte Werte z.B. NaN-Werte sein könntenvor_bereinigung = len(daten)daten = daten.dropna()# Z-Score Methode zur Ausreißer-Identifikationz_scores = np.abs(stats.zscore(daten[['Höhe', 'Blattanzahl']]))ausreißer = np.where(z_scores > 3)daten_bereinigt = daten.drop(ausreißer[0], axis=0)# Ausgabe der Anzahl der entfernten Datenpunkteentfernte_punkte = vor_bereinigung - len(daten_bereinigt)print(f'Anzahl der entfernten Datenpunkte: {entfernte_punkte}')
    Dokumentation der Schritte der Bereinigung:
    • Den Datensatz geladen
    • Fehlerhafte Werte (NaN) entfernt
    • Z-Score Methode verwendet, um Ausreißer in den Variablen 'Höhe' und 'Blattanzahl' zu identifizieren
    • Ausreißer entfernt
    • Anzahl der entfernten Datenpunkte berechnet und ausgegeben

    b)

    Deskriptive Statistik und Visualisierung: Berechne die deskriptiven Statistiken (Mittelwert, Median und Standardabweichung) für die verbleibenden Variablen 'Höhe', 'Blattanzahl', 'Sonnenlichtstunden pro Tag' und 'Wasserverbrauch pro Woche'. Visualisiere die Verteilungen der Variablen mit geeigneten Diagrammen (Histogramme und Boxplots) mittels Matplotlib oder Seaborn. Interpretiere die Verteilung der Daten.

    import matplotlib.pyplot as pltimport seaborn as sns# Berechne deskriptive Statistikenstatistiken = daten_bereinigt[['Höhe', 'Blattanzahl', 'Sonnenlichtstunden', 'Wasserverbrauch']].describe()# Histogramm und Boxplot für 'Höhe'plt.figure(figsize=(12, 6))sns.histplot(daten_bereinigt['Höhe'], kde=True)plt.title('Histogramm der Höhe')plt.show()plt.figure(figsize=(12, 6))sns.boxplot(x=daten_bereinigt['Höhe'])plt.title('Boxplot der Höhe')plt.show()

    Lösung:

    Explorative Datenanalyse und Visualisierung:In dieser Aufgabe nutzen wir eine fiktive Datensammlung von Pflanzenwachstumsdaten. Jeder Datensatz enthält die folgenden Informationen für 100 Pflanzen:

    • Höhe in Zentimetern
    • Blattanzahl
    • Tage seit dem Keimen
    • Sonnenlichtstunden pro Tag
    • Wasserverbrauch pro Woche in Litern
    Deck alle notwendigen Schritte der explorativen Datenanalyse ab, um Erkenntnisse aus diesen Daten zu gewinnen. Deskriptive Statistik und Visualisierung: Berechne die deskriptiven Statistiken (Mittelwert, Median und Standardabweichung) für die verbleibenden Variablen 'Höhe', 'Blattanzahl', 'Sonnenlichtstunden pro Tag' und 'Wasserverbrauch pro Woche'. Visualisiere die Verteilungen der Variablen mit geeigneten Diagrammen (Histogramme und Boxplots) mittels Matplotlib oder Seaborn. Interpretiere die Verteilung der Daten.
    import matplotlib.pyplot as pltimport seaborn as sns# Berechne deskriptive Statistikenstatistiken = daten_bereinigt[['Höhe', 'Blattanzahl', 'Sonnenlichtstunden', 'Wasserverbrauch']].describe()# Zusatzstatistiken berechnenstatistiken.loc['median'] = daten_bereinigt[['Höhe', 'Blattanzahl', 'Sonnenlichtstunden', 'Wasserverbrauch']].median()# Ausgabe der deskriptiven Statistikenprint(statistiken)# Histogramm und Boxplot für 'Höhe'plt.figure(figsize=(12, 6))sns.histplot(daten_bereinigt['Höhe'], kde=True)plt.title('Histogramm der Höhe')plt.show()plt.figure(figsize=(12, 6))sns.boxplot(x=daten_bereinigt['Höhe'])plt.title('Boxplot der Höhe')plt.show()# Histogramm und Boxplot für 'Blattanzahl'plt.figure(figsize=(12, 6))sns.histplot(daten_bereinigt['Blattanzahl'], kde=True)plt.title('Histogramm der Blattanzahl')plt.show()plt.figure(figsize=(12, 6))sns.boxplot(x=daten_bereinigt['Blattanzahl'])plt.title('Boxplot der Blattanzahl')plt.show()# Histogramm und Boxplot für 'Sonnenlichtstunden pro Tag'plt.figure(figsize=(12, 6))sns.histplot(daten_bereinigt['Sonnenlichtstunden'], kde=True)plt.title('Histogramm der Sonnenlichtstunden pro Tag')plt.show()plt.figure(figsize=(12, 6))sns.boxplot(x=daten_bereinigt['Sonnenlichtstunden'])plt.title('Boxplot der Sonnenlichtstunden pro Tag')plt.show()# Histogramm und Boxplot für 'Wasserverbrauch pro Woche'plt.figure(figsize=(12, 6))sns.histplot(daten_bereinigt['Wasserverbrauch'], kde=True)plt.title('Histogramm des Wasserverbrauchs pro Woche')plt.show()plt.figure(figsize=(12, 6))sns.boxplot(x=daten_bereinigt['Wasserverbrauch'])plt.title('Boxplot des Wasserverbrauchs pro Woche')plt.show()
    Interpretation der Verteilung der Daten:
    • Höhe: Rezeptort beispielsweise weisen ein normalverteiltes Muster auf, was darauf hinweist, dass die meisten Pflanzenhöhen um den Mittelwert gruppiert sind. Die Boxplots zeigen die Spannweite und mögliche Ausreißer.
    • Blattanzahl: Ähnlich wie die Höhe, könnte die Blattanzahl ebenfalls eine normale Verteilung aufweisen. Eventuelle Ausreißer sind im Boxplot zu erkennen.
    • Sonnenlichtstunden pro Tag: Diese Variable zeigt möglicherweise eine Gleichverteilung oder eine andere nichtnormale Verteilung, was an den Randbedingungen des Messbereichs liegt.
    • Wasserverbrauch pro Woche: Diese Verteilung könnte auf saisonale oder wöchentliche Unterschiede in der Pflege hindeuten.

    c)

    Korrelation und Verteilungsanalyse: Untersuche den Zusammenhang zwischen der Pflanzenhöhe und den anderen Variablen (Blattanzahl, Sonnenlichtstunden und Wasserverbrauch) mittels Korrelationsanalyse. Berechne Korrelationskoeffizienten und interpretiere diese. Visualisiere die Beziehungen in Form von Streudiagrammen mit Regressionslinien (Linien, die die beste Anpassung der Daten repräsentieren). Bestimme, ob und welche dieser Variablen signifikanten Einfluss auf die Pflanzenhöhe haben.

    from scipy.stats import pearsonr# Korrelationsanalysekorrelationen = daten_bereinigt.corr()# Berechne Korrelationskoeffizienten und deren p-Wertekorrelation_paarweise = [(col, pearsonr(daten_bereinigt['Höhe'], daten_bereinigt[col])) for col in ['Blattanzahl', 'Sonnenlichtstunden', 'Wasserverbrauch']]# Visualisierung der Beziehungen mit Regressionslinienplt.figure(figsize=(18, 6))plt.subplot(1, 3, 1)sns.regplot(x='Blattanzahl', y='Höhe', data=daten_bereinigt)plt.title('Blattanzahl vs Höhe')plt.subplot(1, 3, 2)sns.regplot(x='Sonnenlichtstunden', y='Höhe', data=daten_bereinigt)plt.title('Sonnenlichtstunden vs Höhe')plt.subplot(1, 3, 3)sns.regplot(x='Wasserverbrauch', y='Höhe', data=daten_bereinigt)plt.title('Wasserverbrauch vs Höhe')plt.tight_layout()plt.show()

    Lösung:

    Explorative Datenanalyse und Visualisierung:In dieser Aufgabe nutzen wir eine fiktive Datensammlung von Pflanzenwachstumsdaten. Jeder Datensatz enthält die folgenden Informationen für 100 Pflanzen:

    • Höhe in Zentimetern
    • Blattanzahl
    • Tage seit dem Keimen
    • Sonnenlichtstunden pro Tag
    • Wasserverbrauch pro Woche in Litern
    Decken alle notwendigen Schritte der explorativen Datenanalyse ab, um Erkenntnisse aus diesen Daten zu gewinnen. Korrelation und Verteilungsanalyse: Untersuche den Zusammenhang zwischen der Pflanzenhöhe und den anderen Variablen (Blattanzahl, Sonnenlichtstunden und Wasserverbrauch) mittels Korrelationsanalyse. Berechne Korrelationskoeffizienten und interpretiere diese. Visualisiere die Beziehungen in Form von Streudiagrammen mit Regressionslinien (Linien, die die beste Anpassung der Daten repräsentieren). Bestimme, ob und welche dieser Variablen signifikanten Einfluss auf die Pflanzenhöhe haben.
    import matplotlib.pyplot as pltimport seaborn as snsfrom scipy.stats import pearsonr# Korrelationsanalyse durchführenkorrelationen = daten_bereinigt.corr()print(korrelationen)# Berechne Korrelationskoeffizienten und deren p-Wertekorrelation_paarweise = [(col, pearsonr(daten_bereinigt['Höhe'], daten_bereinigt[col])) for col in ['Blattanzahl', 'Sonnenlichtstunden', 'Wasserverbrauch']]for col, (corr, p_val) in korrelation_paarweise:    print(f'Korrelation zwischen Höhe und {col}: {corr}, p-Wert: {p_val}')# Visualisierung der Beziehungen mit Regressionslinienplt.figure(figsize=(18, 6))plt.subplot(1, 3, 1)sns.regplot(x='Blattanzahl', y='Höhe', data=daten_bereinigt)plt.title('Blattanzahl vs Höhe')plt.subplot(1, 3, 2)sns.regplot(x='Sonnenlichtstunden', y='Höhe', data=daten_bereinigt)plt.title('Sonnenlichtstunden vs Höhe')plt.subplot(1, 3, 3)sns.regplot(x='Wasserverbrauch', y='Höhe', data=daten_bereinigt)plt.title('Wasserverbrauch vs Höhe')plt.tight_layout()plt.show()
    Interpretation der Korrelationsanalyse:
    • Korrelation zwischen Höhe und Blattanzahl: Dieser Korrelationskoeffizient misst den linearen Zusammenhang zwischen der Pflanzenhöhe und der Blattanzahl. Ein positiver Wert deutet darauf hin, dass hohe Pflanzen tendenziell mehr Blätter haben.
    • Korrelation zwischen Höhe und Sonnenlichtstunden: Diese Variable zeigt, wie die Höhe mit der Anzahl der Sonnenlichtstunden korreliert. Ein positiver Korrelationskoeffizient könnte darauf hindeuten, dass mehr Sonnenlicht zu größerer Pflanzenhöhe führt.
    • Korrelation zwischen Höhe und Wasserverbrauch: Dieser Korrelationskoeffizient gibt an, ob ein höherer Wasserverbrauch tendenziell mit höheren Pflanzen verbunden ist. Dies könnte auf den Einfluss von Bewässerung auf das Pflanzenwachstum hinweisen.
    Sign Up

    Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

    Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

    Kostenloses Konto erstellen

    Du hast bereits ein Konto? Anmelden