Signifikanz, statistisch

Die statistische Signifikanz ist eine Aussage über die Wahrscheinlichkeit, dass die Messreihen von zwei oder mehr verschiedenen Gruppen aus einer (in der Regel fiktiven bzw. hypothetischen) gemeinsamen Grundgesamtheit von Messwerten stammen. Signifikanztests sind statistische Verfahren, bei denen begründet auf Modellen der Wahrscheinlichkeitsrechnung aus den gemessenen Daten (mind. zweier Gruppen) diese statistische Signifikanz berechnet wird.

Wenn eine klinische Studie durchgeführt wird, angenommen mit zwei Gruppen, die unterschiedlich behandelt werden, wobei in jeder Gruppe je 30 Patienten wären, dann wird im Rahmen der Auswertung der Daten nachher "gedanklich so getan", also ob diese Gruppen Stichproben aus einer sehr, sehr großen Grundgesamtheit von Patienten gewesen wären. Anders gesagt, als könnte man die Studie wie ein Experiment im Labor, theoretisch sehr oft (theoretisch unendlich viele Male) wiederholen.

Auf diesem Grundgedanken, dass jede Studie auch die einmalige Durchführung eines beliebig oft wiederholbaren Ziehens von Stichproben ist, basierte die Anwendung der Regeln und Modelle der Wahrscheinlichkeitsrechnung.

Große Unterschiede sind, wenn man eine Anzahl von Stichprobenpaaren aus einer Grundgesamtheit zieht, unwahrscheinlicher als kleine Unterschiede.

Ist die in einer konkreten Studie errechnete Wahrscheinlichkeit für das Auftreten des gefundenen Unterschieds zwischen den Gruppen (hinsichtlich ihrer Mittel- und Streuungswerte) bei hypothetischer Annahme, dass beide Stichproben aus der gleichen Grundgesamtheit stammen, sehr klein (5% oder kleiner), dann gilt es als zu unwahrscheinlich, dass man einen solchen Unterschied bei einer einmaligen Durchführung (die gesamte Studie wird also wie ein Zufallsexperiment betrachtet) erhalten würde. Die Wahrscheinlichkeit von 5% bedeutet, dass es im Schnitt 20 Wiederholungen bedarf, um einmal einen so hohen Unterschied zu produzieren, wenn beide Messwertreihen aus der hypothetisch angenommen gemeinsamen Grundgesamtheit stammen würde.

Bei sehr kleinen Wahrscheinlichkeiten, die durch einen p-Wert von 0,05 (5%) oder kleiner ausgedrückt werden, geht man davon aus, dass die Messwertreihen nicht aus einer gemeinsamen, sondern aus zwei verschiedenen Grundgesamtheiten "gezogen" wurden.

Diese Modellvorstellung aus der Wahrscheinlichkeitsrechnung wird dann wieder in die Realität zurückübersetzt und inhaltlich interpretiert, dass die Unterschiede zwischen den Gruppen überzufällig sind. Folglich wird dies bei einem solchen statistischen Befund als Beleg für die Wirksamkeit der Therapie betrachtet (vorausgesetzt natürlich, die mit der zu überprüfenden Therapie behandelte Gruppe hatte die besseren Messwerte!). Auch Korrelationen werden nach der gleichen Logik auf Signifikanz hin überprüft.

Die Methodik der Signifikanztests ist kein "Trick", sondern ein Versuch, auf objektivem Wege eine Aussage darüber zu bekommen, ob gefundene Unterschiede auch rein zufällig hätten zustande kommen können.

Es gibt eine Vielzahl von Signifikanztests. Welcher für welches Datenmaterial geeignet ist, hängt vor allem ab von

dem Messniveau (Skalenniveau), auf dem die Daten erhoben wurden,
ob sie wahrscheinlich aus einer normalverteilten Grundgesamtheit stammen oder nicht,
ob sie paarig (z.B. von einem Proband zu zwei Messzeitpunkten) oder unpaarig erhoben wurden.

Die Planung der Datenauswertung ist ein integraler Bestandteil jeder Studienplanung.
Warnungen:

Der statistischen Signifikanz wird viel Bedeutung zugemessen, die klinische Signifikanz oft vernachlässigt.

Je größer Stichproben, desto eher werden auch kleinere Unterschied statistisch signifikant. Dies ist auf die Modelle der Wahrscheinlichkeitsrechnung zurückzuführen (also kein Betrug).
Um Signifikanztests durchführen zu "dürfen", sind vom Datenmaterial her jeweils bestimmte, unterschiedlich strenge Voraussetzungen zu erfüllen.

Die Orientierung an der Logik der Signifikanztests und vor allem an "signifikanten Ergebnissen" in der Publikationspraxis wird in der methodologischen Literatur zunehmend kritischer diskutiert.

Literatur

Bortz J., Döring N. (2002) "Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler". Springer-Verlag, Berlin, Heidelberg, New York
Bortz J. (1999) "Statistik für Sozialwissenschaftler". Springer-Verlag, Berlin, Heidelberg, New York
Munro B.H. (2001) "Statistical Methods for Health Care Research". Verlag Lippincott, Philadelphia, New York, Baltimore
Scherfer E. (2003) "Was bedeutet eigentlich "Signifikanz" und was drückt ein p-Wert aus?" Zeitschrift für Physiotherapeuten, Vol. 55, Nr. 4, S. 638-644
Sim J., Reid N. (1999) "Statistical Inference by Confidence Intervals: Issues of Interpretation and Utilization". Physical Therapy; Vol. 79, Nr. 2, S. 186-195
Sterne J.A.C., Smith G.D. (2001) "Sifting the Evidence - what's wrong with significance tests?" Physical Therapy, Vol. 81, Nr. 8, S. 1464-1469

siehe auch: Alpha-Fehler, Alternativhypothese, Beta-Fehler, Korrelation, p-Wert, Signifikanz, klinisch, Varianzanalyse