Wenn Du auf ein Date gehst und nicht weißt, wie groß deine Verabredung ist, kannst Du anhand der statistischen Verteilung der Körpergröße die minimale und maximale Größe abschätzen. Alle zwischen diesen beiden Werten liegenden Körpergrößen sind Dein "Konfidenzintervall".
Konfidenzintervall – wichtige Definitionen
Das Konfidenzintervall wird dann gebraucht, wenn du einen wahrscheinlichen Parameter (z. B. Mittelwert der Körpergröße) aus einem großen Datensatz (alle Körpergrößen einer Zielgruppe) anhand mehrerer Stichproben abschätzen möchtest. Wie wahrscheinlich dieser geschätzte Mittelwert sein soll, bestimmst Du selbst.
Das Konfidenzintervall (oder auch Vertrauensintervall) ist die Abschätzung eines Intervalls, in der ein festgelegter Parameter zu einer festgelegten Wahrscheinlichkeit (Konfidenzniveau) liegen soll.
Es ist nicht das Intervall, in denen der Parameter mit der gegebenen Wahrscheinlichkeit liegt, sondern das Intervall, welches sich aus dem Schätzverfahren ergibt.
Das Konfidenzniveau ist eine wichtige Vorgabe, mit der Du festlegen kannst, wie genau oder wie tolerant Dein ausgerechnetes Konfidenzintervall zum Schluss ist.
Die Wahrscheinlichkeit, dass sich der festgelegte Parameter im bestimmten Konfidenzintervall befindet, heißt Konfidenzniveau (oder auch Überdeckungswahrscheinlichkeit oder Vertrauenswahrscheinlichkeit).
Das Konfidenzniveau wird im Vorfeld bestimmt und gibt dann an, wie tolerant Dein Intervall ist. Wenn die Wahrscheinlichkeit eines Treffers hoch sein soll, muss das Intervall entsprechend breit werden.
Möchtest Du, dass die Wahrscheinlichkeit, dass die korrekte mittlere Körpergröße in 19 von 20 Fällen im Konfidenzintervall liegt, ist das Konfidenzniveau 95 % .
Natürlich kann es passieren, dass die 95 % eben nicht eintreffen und Du Dich eben bei deiner Einschätzung der wahrscheinlichen Körpergröße irrst. Die Wahrscheinlichkeit dafür hat auch einen Namen.
Die Irrtumswahrscheinlichkeit ist die Wahrscheinlichkeit, mit der der festgelegte Parameter sich nicht im Konfidenzintervall befindet.
Diese ergibt sich dann einfach aus der Differenz des Konfidenzniveaus mit den maximal möglichen 100 %.
Die Irrtumswahrscheinlichkeit unseres Beispiels liegt bei 5 %.
Abbildung 1: Konfidenzintervall zwischen -1,96 und 1,96
Die Wahrscheinlichkeit, dass der gesuchte Parameter zwischen den orangenen Strichen liegt, heißt Konfidenzniveau. Die Wahrscheinlichkeit, dass er im Bereich außerhalb ist, wird durch die Irrtumswahrscheinlichkeit bestimmt.
Das Konfidenzintervall wird durch zwei Werte begrenzt. Links ist die Untergrenze und rechts ist die Obergrenze.
Wenn man annimmt, dass die Körpergröße der möglichen Verabredungen gleichverteilt ist (was realistisch nicht der Fall ist), ist die Wahrscheinlichkeit, dass der wahre Wert unter der Untergrenze liegt, 2,5 % und dass er oberhalb der Obergrenze liegt, ebenso 2,5 %. Damit ergibt sich für die übrige Gesamtwahrscheinlichkeit wieder95 %.
Konfidenzintervall – Formel
Wenn Du im Speziellen ein Konfidenzintervall für den Mittelwert berechnen möchtest, ergibt sich folgende Formel
Dabei ergibt sich der z-Wert aus dem Konfidenzniveau und der dazugehörigen Tabelle.
Standardabweichung σ und Stichprobengröße n ergeben sich aus der genommenen Stichprobe.
Du musst das Konfidenzintervall nicht um einen Mittelwert bestimmen, sondern kannst es um jede beliebige durchgeführte Punktschätzung durchführen. Dann setzt Du den geschätzten Punkt anstatt σ ein.
Wobei das "+" dann die Obergrenze und das "-" dann die Untergrenze ergibt.
Dabei sind:
- : Mittelwert
- z: z-Wert (des Konfidenzniveaus)
- σ: Standardabweichung
- n: Stichprobengröße
Übungsaufgaben zum Konfidenzintervall
Hier siehst Du ein paar Beispielrechnungen, auf die Du treffen könntest.
Die erste Aufgabe ist eine Einfache zum Bestimmen und Einsetzen der korrekten Werte in die Formel.
Aufgabe 1
Du hast einen sehr großen Datensatz mit einem Mittelwert von und berechnest eine Standardabweichung bei 200 von diesem Datensatz genommenen Daten. Von welcher Unter- bis zu welcher Obergrenze geht das Konfidenzintervall, in dem der Mittelwert zu 80 % (z-Wert 1,282) liegt?
Wenn Du in die Tabelle für die z-Werte zu der Standardnormalverteilung schaust, wird Dir auffallen, dass zu 0,9 gehört. Die fehlenden 0,1 sind auf jeder Seite einmal vertreten.
LösungFasse die Aufgabe zunächst in gegebene und gesuchte Größen zusammen:
Gegeben | Gesucht |
Mittelwert z-Wert Standardabweichung Stichprobengröße | | Konfidenzintervall KI |
Bei einem Blick in die Formel für das Konfidenzintervall:
fällt auf, dass alle Werte rechts vom Gleichheitszeiten gegeben sind. Du kannst diese direkt in Unter- und Obergrenze einsetzen:
Anhand dieses Ergebnisses kannst Du auch sehen, wie sehr sich eine große Stichprobe und eine hohe Fehlertoleranz (niedrige angestrebte Treffsicherheit in Prozent) zu einem verhältnismäßig schmalen Konfidenzintervall führen. Wir können mit relativ großer Sicherheit sagen, dass der Mittelwert zwischen den beiden ausgerechneten Werten liegt.
In der zweiten Aufgabe kannst Du selbst aus einem Datensatz die Ausgangswerte ermitteln:
Aufgabe 2
Bestimme Unter- und Obergrenze für das 95 Konfidenzintervall folgender vier Messdaten einer Stichprobe:
Lösung
Fang beispielsweise mit dem Mittelwert an. Die Definition für den Mittelwert lautet:
Die xi hast Du oben alle einzeln gegeben und kannst einfach alle vier davon aufaddieren und einsetzen:
Das z ergibt sich aus der gewünschten Größe für das Konfidenzintervall und ist laut Tabelle 1,96.
Die Standardabweichung σ ergibt sich wie oben gezeigt aus der Varianz σ2.
Die gegebenen Werte eingesetzt in die Formel für die Varianz σ2 ergeben:
Die Standardabweichung kannst Du dann aus der Varianz (oder direkt mit der Wurzel in der Formel berechnen:
Und mit der Stichprobengröße hast Du dann die vollständigen Formeln für Unter- und Obergrenze des Intervalls:
Die letzte Aufgabe ist eine Sachaufgabe, in der Du genau überlegen musst, welche vorkommende Zahl für welchen Teil im Term gilt:
Aufgabe 3
In einer Fabrik werden Nüsse nach Gewicht eingepackt. Der Leiter möchte, dass die angestrebte Gesamtzahl von 100 Nüssen pro Packung am Ende aber höchstens um 10 schwankt und dass höchstens 1 % der Verpackungen zu viele oder zu wenige Nüsse enthalten. Wie hoch darf die Standardabweichung bei 10 Stichproben höchstens sein?
Lösung
Nimm zuerst die Aufgabenstellung genau auseinander. Die angestrebte Gesamtzahl ist der Wert, um den man sich bewegt. Das ist also der Mittelwert .
Dieser soll um 10 schwanken, damit geht er von 90 bis 110. Alles, was da rausfällt, ist nicht im angestrebten Intervall. Also müssen das Unter- und Obergrenze für das Konfidenzintervall sein. Bei 1 % maximaler Fehlerquote haben wir in der Tabelle rechts und links jeweils einen halben Prozent, der fehlen darf. Das heißt, jeweils für Ober- und Untergrenze ergibt sich ein z-Wert von .
n ist die Stichprobenanzahl und sie liegt bei 30.
Gegeben | Gesucht |
Mittelwert z-Wert Untergrenze Obergrenze Stichprobengröße | | Standardabweichung |
Beim Blick auf die zentrale Formel, zum Beispiel konkret für die Untergrenze,
wird klar, dass nur ein Wert (hier σ) gesucht wird und die anderen alle gegeben sind. Also musst Du nur die Formel umstellen, einsetzen und bist fertig!
Addiere also zuerst den Term mit dem gesuchten σ auf beide Seiten und subtrahiere die Untergrenze. Dann hast Du auf der linken Seite nur noch einen Bruch und ein Produkt um Deinen gesuchten Wert.
Jetzt musst Du nur noch durch z dividieren und mit multiplizieren.
Und jetzt, da Du eine finale Formel für den gesuchten Wert hast, musst Du nur noch einsetzen:
Und das ergibt dann exakt und gerundet für die erlaubte Standardabweichung jeweils:
Du kannst als Übung für das Umstellen der Formel das Ganze nochmal für die Obergrenze durchführen. Du wirst auf die gleiche Standardabweichung kommen, da Du dann nicht Untergrenze von Mittelwert, sondern Mittelwert von Obergrenze abziehst und bei beiden die Differenz 10 ist.
Konfidenzintervall – Das Wichtigste
- Ein Bereich der möglichen Ergebnisse einer Punktschätzung (meist ein Mittelwert).
- Ist breiter, enthält den korrekten Wert aber wahrscheinlicher, wenn du das Konfidenzniveau (in Prozent) erhöhst.
- Hat das Formelzeichen KI und die Formel mit den Werten
: Mittelwert
- z: z-Wert (des Konfidenzniveaus)
- σ: Standardabweichung
- n: Stichprobengröße.