Goal Attainment Scaling
Goal Attainment Scaling
56 psychiatric patients in day-hospitals and 12 outpatients in psychotherapy have been evaluated by goal-attainment-scaling:
That method itself has been questioned and scrutinized.
 
 

Goal attainment scaling in der randomisiert-kontrollierten Evaluation der Qualitätssicherung von 7 Berliner allgemeinpsychiatrischen Tageskliniken {1}

Wolfgang Bolm
Bockenem-Hary 2013 (letzte Korrektur: 5.6.2020)


 

Wenn von Qualitätsstandards in der Psychiatrie die Rede ist, werden unter anderem auch individuelle, mit Patient {2}, Umfeld und im Behandlerteam abgestimmte Therapiepläne ziemlich übereinstimmend gefordert: So zur Zeit der Planung dieser Studie der vom Bundesministerium für Gesundheit 1996 herausgegebene Leitfaden zur Qualiätsbeurteilung in psychiatrischen Kliniken [1] , danach z.B. die 2006 erschienene Behandlungsleitlinie Schizophrenie( Hg: Deutsche Gesellschaft für Psychiatrie, Psychotherapie und Nervenheilkunde) [2]. Dem gesetzlichen Auftrag zur Qualitätssicherung (QS) genügen und statt Datenfriedhöfen Impulse zu klinisch fruchtbaren Entwicklungen schaffen und das Verständnis der Mitarbeiter für die Anliegen von Patienten und Angehörigen vertiefen- kann so etwas gelingen? Im Kern muss jede Qualitätssicherung den Nutzen des Patienten mehren. Wie Ciompi, Dauwalder und Ague [3] schon 1979 belegten, ist für den Therapieerfolg der realistische Optimismus von Patient und Umfeld ein prognostisch wichtiger Indikator; zu ihm eröffnet das Goal-attainment-scaling (GAS, Kiresuk & Shermann, 1968) [4] einen evaluativen Zugang. Die teamöffentliche Rückmeldung über die im Einzelfall erreichte oder verfehlte Qualität des Therapieplans sollte die individuellen Therapieziele realistischer und relevanter machen; ob solche Qualitätssicherung (QS) gelingt und das Behandlungsergebnis verbessert, sollte geklärt werden. Soweit die Fragestellung dieser Studie ( Bolm, 1995) [5].
Das GAS misst den Therapieerfolg auf 3-5 für jeden Patienten individuell erstellten 5-stufigen Skalen. Den Nullpunkt jeder Skala bildet in überprüfbaren Worten ein wahrscheinlich erreichbares Therapieziel, die Extremwerte skizzieren Behandlungsergebnisse, die viel besser bzw. schlechter als erwartet ausfallen (Tab. 1).



Tabelle 1:Beispiel einer Goal-Attainment-Scale
  Ziel 1 Ziel 2 Ziel 3 Ziel 4
  Haus verloren Wohnung Arbeit Krankheitseinsicht
Ergebnis viel weniger als erwartet führt Prozesse, dringt ins Haus ein, maßt sich Eigentümerrechte an Wohnarrangement platzt, vollstationäre Aufnahme verliert wegen Diebstahls Platz in interner Arbeitstherapie (AT) Verleugnung nimmt zu
etwas weniger als erwartet     interne AT in „Cafebar“ # „ich bin krank, will aber nicht hinsehen“; lehnt Teilnahme an Psychosegruppe ab
wie erwartet kein stabiler Verzicht, anerkennt den Verlust für den Augenblick, lässt Gespräch darüber zu # * hält Wohnung trotz zunehmender Schwierigkeiten interne AT im Büro in Vorbereitung lässt vereinzelt Informationen über Krankheit zu # *
etwas mehr als erwartet   hält Wohnung mit Schwierigkeiten (Diebstahl, übernimmt zuviel Putzen) #    
viel mehr als erwartet stabiler Verzicht aufs Haus punktuell besseres Einwohnen, äußert Wünsche adäquater vs. Mitbewohner, oder findet andere Wohnung für betreutes Einzelwohnen * erste Bewährung in Büro oder anderer externer AT * Rückbesinnung auf Krankheitsgegeschichte
Anmerkungen: Diese für das QS-Projekt vom Verf. entworfene Skala wurde bereits bei Dahling 2006, S 42 [7] publiziert und für diesen Text leicht modifiziert. Der Ausgangszustand wird mit „#“ markiert, der Zustand nach drei Monaten oder bei Entlassung mit „* “. Für den selben Zeitraum lautete der CGI-Veränderungswert „Zustand ist viel besser“, der CGI-Schweregrad war von „deutlich krank“ auf „mäßig krank“, der GAF-Wert von 30 auf 55 (von 100) Punkten gebessert, die Frage, ob die bisherige Behandlung hier für sie hilfreich gewesen sei, beantwortete Pat. bei der Nachuntersuchung negativer (5 vs. 8 von 10 möglichen Punkten).


Am Ziel 1 dieses Beispiels ist die Verhütung einer Verschlimmerung als Ziel zu erkennen, Ziel 2 formuliert die Erwartung einer Verschlimmerung: Das ist klinischer Alltag der Chronikerversorgung, der in nomothetischen Skalen zu Unrecht als Nullresultat oder gar Fehlschlag bewertet würde. Dieser individuelle, prognoseabhängige Erfolgsmaßstab schärft den Blick auf das Potential des Patienten, legt offen, wie weit eine völlige Gesundung als Ziel aufgegeben wurde und erleichtert die Koordination des Teams. Die größte Anerkennung des Grundgedankens des GAS hierzulande stellt sicher dar, dass die Basisdokumentation in der Psychotherapie, „Psy-BaDo“, (Hg. Heuft und Senf 1998 [6]), ein von zehn medizinischen Fachgesellschaften erarbeitetes Verfahren zur QS , individuelle Therapieziele einschließt unter Betonung ihrer Erreichbarkeit aber auch ev. erwartbarer „Restsymptome“. Andererseits verschweigt der Literaturüberblick über das GAS von Dahling 2006 [7] nicht die zahlreichen methodischen Probleme, u.a. „eine maximal mittlere Interraterreliabilität“(S.45).


Methoden


 

Mit Einverständnis des Pat. wurde er und nach Möglichkeit ein Angehöriger von einem Mitarbeiter einer anderen Tagesklinik (TK) auf die Qualität der Therapieziele hin befragt und darüber vor dem Team ein Bericht gegeben (peer-review), wobei ein Mitarbeiter einer dritten TK diese Teamsitzung moderierte. Anschließend erstellte der zuständige Therapeut einen neuen Therapieplan mit dem Patienten zusammen im Format des GAS {3} . 3 Monate später oder bei Entlassung des Patienten bewertete der Therapeut das Behandlungsergebnis. Die Zufallsauswahl des Patienten aus der ICD-Gruppe mit schizophrener oder schizoaffektiver Psychose (es sollte eine möglichst große und homogene Stichprobe werden) soweit noch ca. dreimonatige Behandlung zu erwarten war, erfolgte durch eine von der der Ärztekammer Berlin finanzierte Projektmitarbeiterin. Die Aufgaben der besuchten TK , des Besuchers und der Moderation wechselten unter den 7 beteiligten TK; die TK des Moderierenden schlug analog für die Zufallsauswahl drei nach Schweregrad der Erkrankung möglichst ähnliche Kontrollgruppenpatienten vor, der von der Projektmitarbeiterin ausgeloste erhielt die übliche Behandlung und wurde ebenfalls vor- und nachuntersucht: Bei allen Patienten wurde als nomothetischer Vergleichsstandard der Schweregrad der Erkrankung mit dem Global Assessment of Functioning (GAF : Wittchen, Koehler & Zaudig ,1989)[9] und den Clinical Global Impressions (CGI :Collegium Internationale Psychiatriae Scalarum, 1996)[10], vom Therapeuten erfasst; weiter wurde die Zufriedenheit des Patienten mit dem Klientenbogen zur Behandlungsbewertung erhoben (KliBB : Gruyters & Priebe 1994 )[11] , in der Experimentalgruppe auch vor dem Besuch die Prognose mit der Skala von Strauss und Carpenter (vom Verfasser übersetzt nach Kokes, Strauss & Klorman, 1977)[12] , gekürzt in der Version von Händel, Bailer, Bräuer et al (1996)[13] , sowie die Zufriedenheit von besuchtem Team und Besuchern mit 10-stufigen ad hoc Fragebögen (visuelle Analogskalen; z.B. lautete eine Frage an das besuchte Team: „Wie nützlich war diese kollegiale Beratung über Therapieziele für die weitere Behandlung ?“ (völlig unnütz = 1, sehr nützlich = 10).
Teilgenommen über die ganze Phase der patientenbezogenen Arbeit (2/1998 -5/2000) haben 6 von 15 eingeladenen Berliner allgemeinpsychiatrischen Tageskliniken (TK) , die Klinik Phönix musste wegen Schließung ihrer TK infolge des Krankenhausplans bereits 11/1999 aussteigen. Deshalb verzögerte sich auch die Auswertung, die aber längst mit der Dissertation von Dahling (2006) [7] und einem ergänzenden Manuskript zur Patientenzufriedenheit (Dahling 2008) [8] vorliegt. Der folgende Text- fokussiert auf eine Methodenkritik des GAS- vertieft und hinterfragt diese Arbeiten punktuell und muss der Kürze wegen oft auf sie verweisen. Die statistischen Berechnungen sind mit dem Programmpaket SPSS durchgeführt worden.


Ergebnisse


 

1. Das wichtigste Ergebnis bei der Abschlussbesprechung war - trotz deutlicher Ängste zu Beginn - die große Zustimmung zu dieser Art "bottom-up" Qualitätssicherung bei den Vertretern der beteiligten TK, die mehrheitlich gern ein ähnliches Projekt fortgeführt hätten und aus zwei TK berichteten, es seien Teile des Verfahrens in die Routine übernommen worden. Es gab aber auch Kritik, dass nicht alle Mitarbeiter geschult wurden, Kritik an der Moderation, an dem zu großen Dokumentationsaufwand und der zu zaghaften Kritik mancher Besucher. Aus vier TK wurde über eine erhebliche Arbeitsverdichtung während der Laufzeit des Projekts berichtet, die den Mitarbeitern die Zeit für das Projekt beschnitt.
Die Einbeziehung der Angehörigen ist misslungen- sei es, dass die Patienten dem nicht zustimmten, sei es, dass die Angehörigen die Einladung zum Gespräch mit dem externen Besucher nicht annahmen- es kam nur eine Handvoll solcher Gespräche zustande.

Der Klientenbogen zur Behandlungsbewertung (KliBB : Gruyters & Priebe 1994) [11] eignet sich nicht zur Messung des Behandlungserfolgs; Dahling hat 2008)[8] schlüssig dargelegt, “dass sich erwartete Effekte auf die Patientenzufriedenheit nicht mit dem KliBB abbilden liessen“.

2. Von 84 in die Studie aufgenommenen Patienten blieben 66 (68 %) zur vorliegenden Auswertung übrig: zwei mussten wegen der Diagnose, der Rest wegen fehlender Daten ausgeschlossen werden. Ob diese Selektion Einfluss auf das Ergebnis hatte, wurde nicht erfasst.

3. "Peer-review" gelang mit allen wichtigen Berufsgruppen des TK-Teams als Besucher ohne Einbuße an Wirksamkeit und Akzeptanz (Tab. 2).



Tabelle 2: Erfolgskriterien, Besucher und Gruppe
  Experimentalgruppe Kontrollgruppe
  Berufstatus der Besucher  
  Akademiker dabei kein Akademiker dabei  
Erfolgskriterien N M SD N M SD N M SD
CGI-Veränderungswert 24 3,8 1,1 10 3,6 1,0 32 3,9 0,8
CGI-Differenzwert 24 -0,7 0,8 10 -1,1 0,7 32 0,6 1,0
GAF-Differenzwert 24 9,0 11,3 10 12 13,8 32 5,5 11,3
Patientenzufriedenheit 22 -0,3 1,4 10 0,3 1,7 29 0,2 2,6
Tage Aufnahme-Entlassung 22 202 137 10 122 75 29 168 136
Mittlerer GAS-Endbefund 24 3,2 0,6 10 3,2 1,0 - - -
Anmerkungen:
CGI: clinical global impression, Veränderungswert des Schweregrades der Krankheit: 3 = viel besser, 4 = nur wenig besser.
CGI-Differenzwert : Schweregrad der Erkrankung nachher minus vorher : 2 = normal, 8 = extrem schwer, negative Werte = Besserung.
GAF: global assessment of functioning; Differenzwert nachher – vorher; Skalenwerte 1-100 ( 100 = hervorragend)
Patientenzufriedenheit : Frage 7, KLiBB (Differenzwert nachher-vorher):“Ist die bisherige Behandlung hier für Sie hilfreich gewesen ?“ 0=gar nicht, 10 = ja, auf jeden Fall.
GAS: goal attainment scaling: 3= wie erwartet, 4= etwas mehr als erwartet; Werte liegen nur für die Experimentalgruppe vor.
Paarweise T-Tests bei unabhängigen Stichproben: alle n.s.


Die Zufriedenheit der besuchten Teams mit dem peer-review zeigte keinen Unterschied zwischen akademischen und nicht akademischen Besuchern.

4. Einen Erfolg der QS im Sinne eines gebesserten Behandlungserfolgs, wie ihn Dahling (2006, S. 66 ff) [7] für die Veränderung von CGI und GAF meint signifikant nachweisen zu können, muss man bestreiten: Es ist bei der Bildung der Kontrollgruppe zu einem Überwiegen schwer Kranker gekommen (Tab.3 ) , was dann auch zu einer nichtsignifikanten Tendenz zu geringeren Erfolgen führte, wie weiter oben in Tab.2 zu sehen.



Tabelle 3 Bias in der Kontrollgruppenzusammensetzung:
CGI-Eingangsbefund
  leicht bis deutlich krank schwer krank Gesamt
Experimentalgruppe 30 4 34
Kontrollgruppe 22 10 32
Gesamt 52 14 66
Anmerkung:
CGI= clinical global impression
Sommers d (CGI-Eingangsbefund = abhängig): p kleiner 0,0495


5. In einer Goal-Attainment-Scale (Beispiel s. Tab.1) soll zu Beginn der Therapie in den 3-5 wichtigsten Problembereichen in überprüfbaren Worten wenigstens das Ausgangsproblem, das erwartete Ergebnis und Ergebnisse beschrieben werden, die viel besser bzw. schlechter als erwartet wären. In diesen Möglichkeitsräumen soll nach der Therapie das tatsächliche Ergebnis verortet werden- es wird also an den spezifischen Erwartungen gemessen, nicht an einer für alle gleichen Norm. Diese Mini-Skizzen habe ich daraufhin bewertet, in welchem Maße damit dem Patienten eine gute oder schlechte Prognose attestiert wird, das ist ein vorzügliches Mittel, therapeutischen Optimismus oder Pessimismus zu erfassen. Tab.4 zeigt, dass die Therapeuten sehr ungünstige Prognosen viel seltener vergeben als sehr günstige, sogar, wenn sie das worst case scenario skizzieren.



Tabelle 4: Welche Prognosen implizieren die Texte in den einzelnen Feldern der GAS-Skala ?
Summe der GAS-Skalenfelder mit erwartetem Behandlungsergebnis...
  "...viel schlechter als erwartet" "...wie erwartet" "...viel besser als erwartet"
implizierte Prognose N=129 N=131 N=127
sehr günstig = 1 0 10 56
etwas günstig = 2 4 28 35
durchschnittlich = 3 73 69 30
etwas ungünstig = 4 49 24 6
sehr ungünstig = 5 3 0 0
Mittelwert des Prognoseratings 3,4 2,8 1,9
Anmerkung:
GAS = goal-attainment-scaling
T-Tests der paarweisen Mittelwertvergleiche jeweils p kleiner 0.0005


6: Die Prognose nach der Skala von Carpenter & Strauss korrelierte nicht mit den Veränderungen in CGI und GAF (Dahling 2006, S.91) [7], ebenso wenig mit dem Mittelwert der GAS-Endbefunde (Spearmann r = 0.1 ).
Neben dieser expliziten Prognose nach Strauss & Carpenter gestattet die Art der Konstruktion der GAS-Skala auch Rückschlüsse auf die implizite Prognose des Therapeuten, der die Skala aufstellt: Je nachdem, in welche Zeile man das Ausgangsproblem stellt, lässt man viel oder wenig "Platz" für einen guten Verlauf : Wider Erwarten zeigt diese implizite Prognose keinerlei Zusammenhang mit dem Therapieerfolg.

7: Qualitätssicherung kann nur so glaubwürdig sein, wie die Güte ihrer Messinstrumente. Deshalb soll versucht werden, die Übereinstimmungsvalidität (concurrent validity) der verwendeten Erfolgskriterien exemplarisch in zweierlei Weise genauer zu bestimmen: Idealerweise sollte jeder Fall den gleichen Erfolg in jedem der verglichenen Erfolgsmaße aufweisen, tatsächlich zeigt schon ihre Interkorrelation (Tab.5) eher mäßige Übereinstimmungen, die erwartete Abbildung eines Erfolgs in einer Zunahme der Patientenzufriedenheit bleibt ganz aus.



Tabelle 5: Korrelation der Erfolgsmaße (Spearman-Rho)
Summe der GAS-Skalenfelder mit erwartetem Behandlungsergebnis
  CGI-Differenzwert GAF-Differenzwert GAS: mittlerer Endwert Patienten - zufriedenheit
CGI-Veränderungswert ,68 * -,65 * -,57 * -,19
CGI-Differenzwert   -,67 * -,58 * -,29
GAF-Differenzwert     -,63 * -,28
GAS: mittlerer Endwert       -,17
Anmerkung:
* :Signifikanz: 2-seitig, p kleiner 0,0005
Die Polung der CGI-Skalen ist den übrigen Skalen entgegengesetzt, die negativen Vorzeichen bedeuten hier also gleichgerichtete Zusammenhänge
CGI- Veränderungswert: clinical global impression, Veränderung des Schweregrades der Krankheit: 3 = viel besser, 4 = nur wenig besser.
CGI-Differenzwert : Schweregrad der Erkrankung nachher minus vorher : 2 = normal, 8 = extrem schwer, negative Werte = Besserung.
GAF: global assessment of functioning; Differenzwert nachher – vorher; Skalenwerte 1-100 ( 100 = hervorragend).
GAS: goal attainment scaling: 3= wie erwartet, 4= etwas mehr als erwartet; Werte liegen nur für die Experimentalgruppe vor.
Patientenzufriedenheit : Frage 7, KLiBB (Differenzwert nachher- vorher):“Ist die bisherige Behandlung hier für Sie hilfreich gewesen ?“ 0 = gar nicht, 10 = ja, auf jeden Fall.


7.1: Nach Bland & Altman (1986)[14] kann man die Übereinstimmung einer etablierten und einer neuen Messmethode besser als üblicherweise mit einer Korrelation aus der Differenz der jeweiligen Werte pro Fall ablesen. Sie kritisieren die Korrelation vielmehr als „totally inappropriate method“ ! Wegen der unterschiedlichen Graduierung muss zunächst eine Vergleichbarkeit durch Standardisierung hergestellt werden, der besseren Verständlichkeit halber werden hierzu die Rohwerte in Prozent vom jeweiligen Range (Perzentilwerte) umgeformt. Ab welchem Betrag wird nun eine solche Differenz nicht nur statistisch, sondern auch klinisch bedeutsam zu groß, die „neue Methode“ also inakzeptabel ungenau? Als Kriterium jenseits der von der Fallzahl abhängigen Signifikanz bietet sich die „minimal important difference“ (MID) an (Wyrwich et al., 2005;[16] :Bei einer Veränderungsmessung sollte eine geringe Effektstärke d nach Cohen (1992)[15], d.h. 20% der Standardabweichung des Ausgangswertes von den Messfehlern (im Folgenden operationalisiert als Differenzwerte nach Bland & Altman) von CGI, GAF oder GAS nicht überschritten werden. Ein Messfehler einer neuen Methode sollte nicht einen geringen Effekt vortäuschen können. Weiterführende Literatur zur Problematik des MID bei Beaton et al.,2002 [17] und Kemmler et al.,2010 [18] .
Da nicht bekannt ist, ob CGI, GAF oder GAS den wahren Erfolg misst, sei der Reihe nach so getan, als ob jeweils einer der Goldstandard, die anderen daran zu messende „neue Verfahren“ wie bei Bland & Altman seien: Tab. 6 zeigt jedoch, dass alle mittleren Differenzwerte dieses Gütekriterium verletzen.

7.2: Als Ersatz für eine von Wyrwich et al. [16] als weiteren Königsweg zum MID beschriebene Verankerung an einem Außenkriterium sei die Verankerung am CGI-Veränderungswert untersucht, da der CGI als eins der ältesten Globalmasse in der Psychiatrie zur Validierung zahlreicher neuerer Skalen gedient hat. Eine Skalen-Stufe im CGI-Veränderungswert ist offensichtlich der MID, entspricht 20% vom Range. Tab 6 zeigt, dass dieses Gütekriterium von keinem der mittleren Differenzwerte signifikant verletzt wird.



Tabelle 6: Übereinstimmungsvalidierung der Erfolgsmaße: Überschreiten die mittleren Differenzwerte nach Bland und Altman zwei Kriterien für "minimal important difference" (MID) ?
Anteil das Kriterium verletzender Differenzwerte (%)
Differenzwerte nach Bland und Altman Kriterium geringe Effektstärke Kriterium eine Stufe im CGI-Veränderungswert
  % Signifikanz* % Signifikanz
GAF-Differenzwert minus mittlerer GAS-Endbefund 91 0,0005 41 n.s.
CGI-Veränderungswert minus mittlerer GAS-Endbefund -   32 n.s.
CGI-Differenzwert minus mittlerer GAS-Endbefund 88 0,0005 38 n.s.
CGI-Differenzwert minus GAF-Differenzwert 77 0,0005 53 n.s.
CGI-Veränderungswert minus GAF-Differenzwert -   53 n.s.
CGI-Veränderungswert minus CGI-Differenzwert -   35 n.s.
Anmerkung:
*T-Test bei einer Stichprobe, Mittelwert gegen Testwert; dieser Testwert beträgt 5,3% beim Kriterium „geringe Effektstärke“ für Vergleiche mit dem mittleren GAS-Endbefund und 4,5% für Vergleiche mit dem GAF-Differenzwert; der Testwert beim Kriterium „eine Stufe im CGI-Veränderungswert“ beträgt 20%. Die Kriterien für MID werden in Abschnitt 7.1 begründet.
„ - „ : keine Angaben.
CGI: clinical global impression, Veränderungswert des Schweregrades der Krankheit.
CGI-Differenzwert : Schweregrad der Erkrankung nachher minus vorher.
GAF: global assessment of functioning; Differenzwert nachher – vorher.
GAS: goal attainment scaling.


 

Disskussion


 

 


Zu 3: Die Zufriedenheit der Patienten reagiert nicht auf das treatment (Tab.2, ein Mangel, den Dahling 2008 [8] ausführlicher analysiert, z.B. in Bezug zum ceiling-effect bei insgesamt sehr hoher Behandlungszufriedenheit oder er leitet aus der Literatur zum Thema ab, es „könnte eine geringere globale Behandlungszufriedenheit (zum Zeitpunkt der Nachuntersuchung, W.B.) als Zeichen eines höheren Anspruchniveaus im Genesungsprozess“ verstanden werden (a.a.O. S.18). Wie Dahling (2006, S.100 ff.)[7] für den Mittelwert aller Berufsgruppen darstellt, ist die Zufriedenheit der Besuchten mit dem Nutzen der kollegialen Beratung nie sehr stark; womöglich konnte das Projekt auch deshalb insgesamt keinen sehr starken Nutzen für die Patienten abwerfen. Obwohl eine Zufallsauswahl von Experimental-und Kontrollgruppe wie beschrieben organisiert wurde, stellt das Sample keine repräsentative Stichprobe dar: Die Auswahl der Tageskliniken, der besuchenden und moderierenden Mitarbeiter, die Verteilung der unvollständigen Datensätze und- wie unter 4 beschrieben- die ungewollte Überrepräsentation der schwer Kranken in der Experimentalgruppe führen zu einer einmaligen Konstellation. Weil außerdem die rapiden Veränderungen der Krankenhauslandschaft und der Anforderungen an die Qualitätssicherung ohnehin eine Wiederholung einer vergleichbaren Erhebung unmöglich machen, wird das argumentative Gewicht der mitgeteilten Signifikanztests stark relativiert- auch eingedenk der vernichtenden Kritik am Ritual des Null-Hypothesen-Testens (vgl. das Themenheft der Zeitschrift für Psychologie 2009, darin u.a. Fidler und Loftus) [19].
Die vorliegende ist die einzige mir bekannte empirische Untersuchung zum Thema unter Beteiligung aller Berufsgruppen des psychiatrischen Tagesklinikteams an der Qualitätssicherung, natürlich bedarf sie der Replizierung an einem größeren Sample. Dennoch dürfte das beschriebene Verfahren einen Beitrag zur Teamentwicklung und zum Empowerment der Beteiligten leisten.


Zu 4: Die Scheu, schwer Kranken die Strapaze eines Gesprächs mit einem Fremden zuzumuten und häufigere Verweigerungen der Teilnahme durch schwer Kranke dürften die Gründe für ein Überwiegen dieser Patienten in der Kontrollgruppe gewesen sein.
Auch wenn Dahling [7] für CGI und GAF mittels Kovarianzanalyse nach Bereinigung für den Ausgangswert mit p < 0,04 einen signifikant positiven Einfluss in der Experimentalgruppe fand : Bei der Anzahl von sieben verwendeten Erfolgskriterien (Verkürzung der Verweildauer, Vermeidung von Behandlungsabbruch oder vollstationärer Verlegung, Verbesserung im Differenz- oder Veränderungswert des CGI, Verbesserung im Differenzwert des GAF, Verbesserung der Behandlungszufriedenheit der Patienten) ist bei der Bewertung der statistischen Signifikanz im Rahmen des multiplen Testens eine siebenmal niedrigere Irrtumswahrscheinlichkeit (Bonferroni-Korrektur; Victor et al. 2010 [20]) , also p=0,007 statt p=0,05 zu fordern. Es gibt meines Wissens demnach für die Gruppe der Schizophrenen doch noch keinen Beweis, dass QS die Patienten gesünder macht ! Das gilt leider auch für die sehr große, mit beeindruckendem methodischen Aufwand durchgeführte Benchmarking-Studie in 9 rheinischen Kliniken (Janssen et al , 2011) [21].
Den meisten Teilnehmern des Projekts war immer wieder evident, dass die Prozessqualität verbessert wird, dafür hat die Auswertung von Dahling (2006, S.85, S.87, S 103) [7] Belege geliefert. Dass dennoch eine günstige Auswirkung auf die Ergebnisparameter nicht zu sichern war, entspricht der Einschätzung von Weinmann et al. (2008) [22]: „Gerade in der Psychiatrie ist die Variabilität des Behandlungsergebnisses jedoch in hohem Maß Patientenmerkmalen zuzuschreiben, ohne dass gute Verlaufsprädiktoren existieren. Damit kann eine Fehlattribution von Behandlungseffekten zu bestimmten Prozessen erfolgen…, ohne dass eine Änderung der Prozesse zur Verbesserung der Ergebnisse führen würde.“


zu 5: Woher weiß man, wie optimistisch oder pessimistisch die Extremwerte der GAS-Skala wirklich ausfallen dürfen ? Hier könnte ein Blick auf vergleichbare, ebenfalls mit der Prognoseskala nach Händel, Bailer, Bräuer, Laubenstein und Rey (1996) [13] erhobenen Daten helfen: Gegenüber den vollstationären Ersterkrankten jener Studie kann man sinnvollerweise nur Prognosefaktoren zum Vergleich einbeziehen, die nicht die lange Anamnese berücksichtigen: Die Berliner Tagesklinik-Experimentalgruppe hat im Vergleich eine geringfügig schlechtere Prognose (arithmetisches Mittel=1,9 vs. 2,2; Skala von 0 = schlechteste bis 4 = beste Prognose; E.-R. Rey, persönliche Mitteilung). Die Verteilung der Prognose-Summenscores insgesamt ist keineswegs zu den guten Prognosen hin verschoben: 53% der Fälle der Experimentalgruppe liegen unterhalb der Mitte des möglichen Range von 0 bis 48 Punkten: Das über 18 mal häufigere Vorkommen von sehr günstigen „best case scenarios“ versus sehr ungünstigen „worst case scenarios“ (Tab. 4) dokumentiert eine Verzerrung des prognostischen Blicks in den besprochenen Feldern der GAS-Skalen ; (im McNemar Test beträgt die Signifikanz dieses Extremwertvergleich p <0,0005 ) der ganze Aufwand an QS in diesem Projekt hat sie nicht beseitigen können. Dies Ergebnis regt zu der Frage an , ob nicht der aktuelle Trend zur Ressourcenorientierung und Normalisierung allzu viel von dem in der Geschichte unseres Fachs zu sehr betonten "abgründigen Unterschied zwischen Persönlichkeit und Prozesspsychosen" ( Jaspers, 1923) [23] nivelliert hat. Einen anderen Aspekt dieses Ergebnisses beleuchtet eine ironische Bemerkung Balints von 1957 [24] : “Wir meinen mit der apostolischen Sendung oder Funktion in erster Linie, dass jeder Arzt eine vage, aber fast unerschütterlich feste Vorstellung davon hat, wie ein Mensch sich verhalten soll, wenn er krank ist. Obwohl diese Vorstellung keineswegs klar und konkret ist, ist sie unglaublich zäh und durchdringt…praktisch jede Einzelheit der Arbeit des Arztes mit seinem Patienten. Es war fast, als ob jeder Arzt eine Offenbarung darüber besäße, was das Rechte für seine Patienten sei, was sie also hoffen sollten, dulden müssten, und als ob es seine , des Arztes, heilige Pflicht sei, die Unwissenden und Ungläubigen unter den Patienten zu diesem seinem Glauben zu bekehren.“ Wie auch immer die Ergebnisse der Tab. 4 erklärt werden, sie wecken Zweifel an der Konstruktvalidität des GAS.


Zu 6: Ältere Studien mit der Skala von Strauss & Carpenter haben wesentlich längere Beobachtungsintervalle als die hier betrachteten 3 Monate untersucht: Gaebel & Pietzcker (1987) [25] referieren eine WHO-Studie mit 2 und 5-jähriger Katamnese und eigene Erhebungen mit einjähriger Beobachtungszeit, wobei nur die Hälfte der übrigen Erfolgs-Kriterien signifikant mit der Skala von Carpenter & Strauss korrelierte. Händel et.al. (1996) [13] fanden über 36 Monate eine gute Vorhersage der sozialen Behinderung, nicht aber der Akutsymptomatik und der Rehospitalisierung: sie warnen jedoch ausdrücklich davor, die Prognose eines einzelnen Patienten mit dieser Skala vorhersagen zu wollen, zu gering sei der Anteil erklärter Varianz. Nicht nur die fragwürdige Verwendung eines Prognoseinstruments für einen relativ zur Literatur zu kurzen Zeitraum und für die nur teilweise damit vorhersagbare Akutsymptomatik (die ja in CGI und GAF ganz entscheidend einfließt) könnte das "Versagen" der Prognoseskala erklären: Psychiatrische Prognosen sind bekanntlich ungenau, z.T. unmöglich, wofür exemplarisch auf die Arbeit von Hugulet et al. (1995) [26] verwiesen werden kann. Natürlich steht damit wiederum die Konstruktvalidität des GAS sehr in Frage: Wenn schon vielfach in der Gruppenstatistik keine Vorhersage möglich ist, wie glaubwürdig und brauchbar ist dann im Einzelfall eine Prognose und ein davon abhängiges Erfolgsmaß ? Ich hoffe, dieses Problem mit einem kasuistischen Ansatz besser zu verstehen und werte dafür in meiner Psychotherapiepraxis Verläufe der Therapieziele aus.(Bolm 2015)[32]


Zu 7: Die von den Gründungsvätern des GAS immer wieder beschworene Überlegenheit individueller über nomothetische Erfolgsmaßstäbe findet sich in diesem gruppenstatistischen Material auch nach akribischster Suche nicht: Bei Patienten mit unverändertem oder verschlechterten Befund im CGI oder GAF z.B. erlaubt GAS nicht überzeugend einen relativen Erfolg am individuellen Maßstab darzulegen. Andererseits erwecken die Daten der Tab.6 den Verdacht, dass ein ziemlicher Anteil der auf der Grundlage von CGI- oder GAF behaupteten Effekte –soweit es sich um geringe Effektstärken handelt- artefizieller Natur ist. Selbstverständlich bedarf dies der Überprüfung an größeren Samples. Immerhin hatte eine der wenigen Studien zur Interrater-Reliabilität des CGI den Veränderungswert sehr in Frage gestellt. (Dahlke, Lohaus & Gutzmann, 1992) [27] Ohne das Verfahren von Bland & Altman [14] wäre dieses Problem nicht in den Blick gekommen. Von den zwei vorgeschlagenen Relevanzkriterien für grade noch hinnehmbare Einschränkungen der Übereinstimmungsvalidität erwies sich das an der geringen Effektstärke orientierte für alle untersuchten Differenzwerte als „K.o.-Kriterium“, das an einer CGI-Veränderungswert-Stufe orientierte Kriterium als möglicherweise zu weich (Tab. 6). Es bleibt eine ungelöste methodische Herausforderung, den so sehr erhofften und z.T. naiv behaupteten Nutzen der Qualitätssicherung auf dem Hintergrund der erheblichen Unschärfe der hier verwendeten Ergebnisparameter zu quantifizieren. In der psychiatrischen Literatur habe ich über die Größe des erwartbaren Effekts dieser Art der QS - wie über irgendeine QS- keine brauchbaren Daten gefunden, geschweige denn über die Standardabweichung in der Grundgesamtheit. Von daher ist das Fehlen der expliziten Fallzahlplanung verständlich, wie sie zuletzt Röhrig et al. (2010) [28] energisch postulieren. Bei der geplanten Studienlaufzeit von 2 Jahren waren 48 Fälle in der Experimentalgruppe erwartet und für ausreichend erachtet worden. Die tatsächlich auswertbaren 34 bzw. 32 Fälle gestatten nach Cohen (1992, Table 1, p. 157) [15] für T-Tests auf unabhängige Mittelwertsdifferenzen bei einem Signifikanzniveau von 5% und einer Power von 80 % nur die Entdeckung von großen Effekten (d= 0.8). Für die Suche nach mittleren Effekten (d=0.5) wären 64 Fälle pro Gruppe, für kleine Effekte (d= 0.2) gar 393 (!) Fälle erforderlich. Die Überprüfung der Wirksamkeit von QS im gewählten Design überschreitet bei weitem die Möglichkeiten auch eines größeren Verbundes. Methodische Probleme des GAS könnten noch eine weitere Erklärung haben: Dahling[7] hatte zwar (2006, S 86 f.) eine größere prognostische Treffsicherheit in vorliegender Studie im Vergleich mit früheren Arbeiten (Bolm 1994, 1996) [29, 30] nachgewiesen, die sich sogar im Verlauf des Projekts gesteigert hat (a.a.O. S.85) ; das wäre also eine Annäherung an die symmetrische Verteilung der GAS-Werte, ähnlich einer Normalverteilung, wie sie Kiresuk & Lund 1979 [31] als Beleg für das Zutreffen der in den Skalen eingebauten Prognosen postulieren und belegen. Dennoch liegt in der Qualität der GAS-Skalen eine mögliche Fehlerquelle : Das betrifft nicht nur die bereits erwähnte Einsparung von bis zu 2 der 5 Skalenniveaus ; es ist mir nur in 85% gelungen, die von GAS-Einsteigern erstellten GAS-Skalen telephonisch mit den Verfassern zu diskutieren ; es finden sich Schwächen dieser Skalen wie eingeschränkte Eindeutigkeit der Items, mangelhafte Äquidistanz der benachbarten Skalenwerte oder die Eindimensionalität von Skalen ist fragwürdig . Umso überraschender fällt die Korrelation dieser GAS-Endwerte mit dem CGI-Veränderungswert mit r = 0,6 nach Spearmann ( Dahling, 2006, Tab. 23, S. 88) [7] höher aus als in der Studie von Bolm (1994, Abb.1, S. 135; r = 0,4) [28] mit ausschließlich vom Verfasser selbst erstellten GAS-Skalen: Sicher wäre eine Replikation mit besser geschulten und supervidierten Skalenkonstrukteuren wünschenswert , die über ausreichend Zeit für diese Tätigkeit verfügen. Zum Schluss dieser ziemlich kritischen Gedanken zur Validität der Erfolgsmaße sei noch einmal ein Blick auf Tab. 1 gelenkt: Hat nicht, wer die Qualität dieses Verlaufs bewerten will, mit den Angaben der Goal-attainment-scale eine Aussage zum Erfolg am individuellen Maßstab in der Hand, deren „face-validity“ für den Kliniker deutlich größer ist, als die objektiven Angaben der nomothetischen Skalen CGI, GAF und KliBB ? Ist nicht die entscheidende –aber äußerst diffizile Frage für die Qualitätssicherung, ob die Kunst des Möglichen gelang, mit dem GAS offensichtlich besser zu beantworten?


Fazit für die Praxis


 

Auch diese Studie konnte nicht beweisen, dass psychiatrische QS den Patienten nutzt. Ich halte es für eine richtige Konsequenz i.S. der Evidenzbasierung, alle neuen Qualitätssicherungsmaßnahmen zu stornieren, die nicht ihren Nutzen für die Patienten in replizierten drittmittelfinanzierten Studien eindeutig nachgewiesen haben: Peer-review individueller Therapieziele durch alle Berufsgruppen in der Tagesklinik scheint ein Kandidat für solche Studien zu sein. Die hier betrachteten Prognosen stimmen so wenig mit dem tatsächlichen Verlauf überein bzw. sind so verzerrt, dass ihnen gegenüber im klinischen Alltag größere Vorsicht geboten ist.

 

 

074191
Webdesign made by Jan Bolm ©