Reliabilität

"Zuverlässigkeit, Verlässlichkeit". Reliabilität ist neben Validität eines der beiden wichtigsten Gütekriterien von Messungen, Tests und Assessments.

Bei Reliabilität geht es darum, mit welcher Verlässlichkeit bzw. in welchem Maße mehrfache Durchführungen einer Messung (wiederholt oder gleichzeitig) oder eines Tests zu gleichen Ergebnissen führen, vorausgesetzt natürlich, dass das zu Messende sich nicht verändert. - Reliability is a measure of concordance, consistency or repeatability of experimental outcomes. It represents the ability of one examiner, test or treatment to agree with or replace another? (Haas 1991a).

Ein Messinstrument, dass nicht verlässlich misst, also zu starke Schwankungen der Messergebnisse zulässt, kann nicht valide sein. Allerdings ist Verlässlichkeit des Messinstruments möglich, ohne dass dieses valide im Zusammenhang mit der Forschungsfrage ist. So mag die Messung des ROM einigermaßen verlässlich, also reliabel, sein, doch dürfte unmittelbar einleuchten, dass interpretiert im Sinne von "Unabhängigkeit" oder "Kraft" die Ergebnisse wenig valide wären.

Das Konzept der Reliabilität ist auf der abstrakten Ebene scheinbar leicht zu fassen, entfaltet aber die "Tücke des Objekts" bei näher gehender Betrachtung. Oder, wie Streiner und Norman (1995, 6) konstatieren: "The concept of reliability is, on the surface, deceptively simple."

Hinzu kommt, dass der abstrakte Begriff, das Konzept der Reliabilität von Lehrbuch zu Lehrbuch anders aufbereitet sein kann, was häufig auf die professionelle Wurzeln der AutorInnen zurückzuführen ist, je nachdem ob diese eher in der Psychologie (hier wurde Reliabilität zuerst diskutiert), in der Medizin oder der Sozialforschung liegen, oder ob die AutorInnen eher in der klinischen Forschung, der Forschung mit Apparaten, oder in der Befragung von Probanden "zu Hause" sind.

Eine mögliche Differenzierung des Konzepts der Reliabilität besteht darin, einerseits zwischen dem Konzept der "internen Konsistenz" und andererseits dem der "Stabilität" eines Tests zu unterscheiden.

Viele Tests oder Assessment-Verfahren bestehen aus einer Reihe von Fragen bzw. auch Aufgaben. Bei der Untersuchung der internen Konsistenz kommt es darauf an, zu klären, ob die verschiedenen Fragen bzw. Aufgaben auch wirklich das gleiche Konstrukt (z.B. Sturzgefährdung) "anzapfen", dass gemessen werden soll. Dann müssten die zusammengehörigen Fragen oder Tests auch ähnliche Resultate erzielen, d.h. es müssten sich deutliche Korrelationen zwischen den Ergebnissen. Die interne Konsistenz wird statistisch ermittelt. Im Prinzip handelt es sich um den Durchschnitt der Korrelationen zwischen allen Einzelergebnissen eines aus mehreren Aufgabe oder Fragen bestehenden Tests (Streiner, Norman 1995).

"Stabilität" lassen sich wiederum unterscheiden nach Inter-Rater, Intra-Rater und Test-Retest-Reliabilität. insofern die Reliabilität personenbezogen ermittelt wird. Ferner betrachtet man die Instrumenten-Reliabilität, bei der die Zuverlässigkeit eines "Apparates" auf dem Prüfstand steht. Allerdings werden in der Literatur auch weitere "Typen" von Reliabilität unterschieden; besser sollte man aber von Aspekten des Konzepts Reliabilität sprechen. Nicht alle Aspekte der Reliabilität lassen sich jedoch trennscharf voneinander abgrenzen; manchmal ist es unvermeidlich, mit einem Aspekt von Reliabilität auch einen anderen mit zu messen. So ist eine Intra-Tester-Reliabilitätsmessung nicht zu trennen von einer Test-Retest-Reliabilitätsmessung.

Untersuchungen zur Inter-Rater-Reliabilität (auch Inter-Tester-R.) prüfen, inwiefern zwei oder mehr Untersucher bei der Durchführung eines Tests zu den gleichen Ergebnissen kommen. Untersuchungen zur Intra-Rater-Reliabilität prüfen, inwiefern ein Untersucher, der wiederholt zu verschiedenen Messzeitpunkten einen Test, ein Assessment durchführt, dabei zu den gleichen Ergebnissen kommt.

Test-Retest-Reliabilität behandelt, inwieweit die wiederholte Durchführung einer Messung zu den gleichen Ergebnissen führt. Während bei den zuvor genannten Aspekten von Reliabilität eher die oder der UntersucherIn(nen) auf dem Prüfstand steht oder stehen, geht es hierbei eher darum, ob die Angaben von Probanden (bzw. im Alltag der Patienten) reproduzierbar sind.

Die Messung von Reliabilität setzt natürlich voraus, dass der zu messende Parameter, sei er "Sturzgefährdung", "ROM", "funktionelle Unabhängigkeit bei ADL" oder was auch immer, sich zwischen den Messungen nicht verändert.

Es gibt eine Reihe von statistischen Verfahren, die zur Anwendung kommen, und eine eigene Methodologie von Reliabilitätsstudien. Bei diesen Studien werden Koeffizienten errechnet, die das Maß der Reliabilität quantifizieren sollen. Typische und geeignete statistische Reliabilitätsmaße sind: Kappa und die auf der Varianzanalyse basierenden Intraklassen-Koeffizienten. Reliabilität über Signifikanztests (t-Tests, Chi-Quadrat) oder Korrelationskoeffizienten (Pearson‘s r) zu testen, ist methodologisch nicht haltbar. Näheres zur Statistik der Reliabilität finden Interessierte in der angegebenen Literatur.

Die Komplexität der "Reliabilität" macht es schwierig, durch eine oder zwei Studien zu einem umfassenden Urteil über einzelne Tests und Assessments zu kommen, da notwendigerweise immer viele Faktoren, die statistisch errechnete Reliabilität beeinflussen. Deswegen ist auch die Angabe nur eines Koeffizienten zu einem Test, ohne nähere Informationen über die Studie, wenig aussagekräftig.

Physiotherapeutische Tests haben hinsichtlich ihrer Reliabilität nicht immer gut abgeschnitten (Fritz und Wainner 2001). Dabei muss man aber bedenken, dass therapeutische Entscheidungen wohl selten mit nur einem Testergebnis begründet werden, ohne dass Anamnese, aktuelles Beschwerdebild, Ergebnisse ärztlicher Diagnostik sowie von Inspektion, Palpation und Funktionsuntersuchungen berücksichtigt werden.
Das Gesamtergebnis physiotherapeutischer Untersuchungen muss deswegen nicht notwendigerweise so kritisch gesehen werden, wie es bei einzelnen Tests der Fall ist. Allerdings wäre auch dies noch zu zeigen.

Die Forschung zur Reliabilität der im physiotherapeutischen Alltag eingesetzten Tests und Assessments ist sowohl spannend und voller Bedeutung für unser tägliches Handeln als auch voller methodologischer Herausforderungen. Die Relevanz der Reliabilität unserer Untersuchungen ist auch vor dem Hintergrund des Konzepts der Evidenzbasierung bzw. Evidenzbasierten Praxis zu sehen. Denn da, wo schon die Tests nicht reliabel sind, wird es auch sehr schwierig werden, die Effektivität von Behandlungen zu belegen, die auf den Ergebnissen dieser Tests basieren.

 

Literatur

  • Domholdt E. (2000) "Physical Therapy Research. Principles and Applications". Verlag W.B. Saunders, Philadelphia, London, Toronto, S. 231-235
  • Fritz J.M., Wainner R.S. (1991) "Examining Diagnostic Tests. An Evidence-Based Perspective". Physical Therapy, Vol. 81, Nr. 9, S. 1546-1564
  • Haas M. (1991) "Statistical Methodology for Reliability Studies". Journal of Manipulative and Physiological Therapeutics, Vol. 14, Nr. 2, S. 120-132
  • Haas M. (1991) "The Reliability of Reliability". Journal of Manipulative and Physiological Therapeutics, Vol. 14, Nr. 3, S. 199-208
  • Rothstein J.M. (2001) "Sick and Tired of Reliability?" Physical Therapy, Vol. 81, Nr. 2
  • Streiner D.L., Norman G.R. (1995) "Health Measurement Scales. A Practical Guide to their Development and Use". Oxford Medical Publications, Oxford University Press; Oxford, New York
  • ...ferner sei auf unsere ausführliche spezielle Literaturliste  zum Thema "Tests und Assessments" hingewiesen.

 

 

siehe auch: Assessment, Outcome, Validität, Korrelation, Evidenzbasierte Praxis