Methode Natürlicher Häufigkeitsbaum

Kein Test ist perfekt – Wie zuverlässig ist ein Hirnleistungscheck zur Früherkennung einer Demenz?

Verbraucherentscheidungen auf Basis von Tests oder Algorithmen

Bevor Verbraucher entscheiden, sammeln sie in der Regel Informationen. Diese sammeln sie aber gar nicht immer selbst. Sie schauen z.B. in Fachzeitschriften, wie gut ein Produkt in einem Test abgeschnitten hat. Im Gesundheitsbereich wiederum machen Verbraucher oft einen Test, um überhaupt erst eine Entscheidungsgrundlage zu haben, z.B. ob sie ihre Ernährung umstellen möchten. Aber auch jenseits des Gesundheitsbereichs kommen mehr und mehr Tests und auch Prognoseinstrumente zum Einsatz, wenn z.B. Algorithmen zur Entscheidungsunterstützung herangezogen werden. Ein Beispiel wären Robo Advisors, die Ihnen Empfehlungen für die Entscheidung geben, welchen Kredit Sie aufnehmen sollten. Das Problem ist, dass es keinen perfekten Test gibt. Es gibt keinen perfekten Algorithmus, kein perfektes Modell. Das bedeutet, dass die Aussage, das Ergebnis oder auch die Empfehlung, die ein Test oder Algorithmus gibt, immer auch falsch sein können. 

 

Warum ist es relevant, Verbraucherentscheidungen auf Basis von Tests oder Algorithmen zu unterstützen?

Eine zunehmende Verbreitung von diagnostischen und prädiktiven Tests und Algorithmen im Gesundheitsbereich, gerade für Verbraucher, die von der jeweiligen Krankheit gar nicht betroffen sind, stellt ein höchst lukratives Geschäftsfeld für die Entwickler dieser Tests und Algorithmen dar. Eine frühere Erkennung oder gar die Voraussage späterer Leiden sind schlagkräftige Kaufargumente. Dazu werden auch in allen anderen Lebensbereichen Angebote mit algorithmischen Vorhersagemodellen zur Entscheidungsunterstützung entwickelt. Da aber alle Tests oder Algorithmen falsche Ergebnisse produzieren können, stellt sich vor dem Kauf oder der Nutzung immer die Frage, ob sie zumindest zuverlässig genug sind.

 

Warum ist es schwierig, Verbraucherentscheidungen auf Basis von Tests oder Algorithmen zu unterstützen?

Hürden dabei, die informierte Nutzung von Tests und Algorithmen zu erleichtern, liegen in der mangelnden Bewusstheit um ihre begrenzte Zuverlässigkeit, in mangelndem Wissen darüber, wo die Schlüsselinformationen liegen, aber auch in begrenzten Möglichkeiten, sich mit diesen statistischen Fragen auseinandersetzen zu wollen und zu können. Ein Test ist immer eine „Beobachtung" der Realität, wodurch sich immer die Frage stellt: Wenn der Test eine Beobachtung macht, wie wahrscheinlich liegt er dann richtig? Diese bedingte Wahrscheinlichkeit benötigt einen verbraucherfreundlichen Zugang.

Welcher wissenschaftliche Lösungsansatz bietet sich an?

Natürliche Häufigkeitsbäume (NFTs) ermöglichen ein verbessertes Verständnis bedingter Wahrscheinlichkeiten, vor allem im Vergleich zur Bayes-Formelberechnung und unstrukturierten Textaufgaben (McDowell & Jacobs, 2017). Wichtig ist bei den NFTs, dass mit konsistenten Teilmengen einer einzelnen Grundmenge (Ausgangsgruppe) in Form von Häufigkeiten hantiert wird. Es wird nicht normalisiert oder umgerechnet. Stattdessen lassen sich die einfachen Häufigkeiten in ihren Abhängigkeiten so zusammenfügen, dass man die bedingten Wahrscheinlichkeiten leicht erschließen kann (Gigerenzer & Hoffrage, 1995; Hoffrage & Gigerenzer, 1998). Auf diese Weise ist der Einsatz der Formel nach Bayes nicht mehr notwendig. Es konnte gezeigt werden, dass auch Grundschüler mittels NFT-Training bayesianisch schlussfolgern können und besser errechnen, wie wahrscheinlich ein Testergebnis wahr ist (Zhu & Gigerenzer, 2006).

NFTs stellen – ausgehend von einer fiktiven Gruppe – dar, wie oft das vorkommt, was der Test sucht bzw. was der Algorithmus vorhersagen möchte (s.u. das Themenbeispiel). In anderen Worten: Wie viele Betroffene gibt es eigentlich? Gegenübergestellt wird zugleich, wie oft das Gesuchte nicht vorkommt (Nichtbetroffene). 

Für jede dieser Teilgruppen (die Betroffenen und Nichtbetroffenen) wird separat festgehalten, bei wie vielen der Test oder Algorithmus „anspringt", also wie viele Betroffene entdeckt werden und wie viele der Nichtbetroffenen einen Fehlalarm erhalten. Ein Fehlalarm liegt genau dann vor, wenn ein Nichtbetroffener gewarnt wird, bei dem der Test bzw. Algorithmus eigentlich schweigen müsste.

Für jede der Teilgruppen (die Betroffenen und Nichtbetroffenen) wird ebenso separat festgehalten, bei wie vielen der Test oder Algorithmus „schweigt", also wie viele der Nichtbetroffenen korrekterweise nicht gewarnt werden. Aber auch wichtig ist die Frage, wie viele der Betroffenen übersehen werden, wenn der Test bzw. Algorithmus schweigt, wo er eigentlich warnen müsste.

Die wichtigste Information erhält der Verbraucher nun, wenn er nur jene Teilgruppen betrachtet, bei denen der Test bzw. Algorithmus warnt. Er kann nun erkennen, wie viele von jenen, die gewarnt werden, tatsächlich betroffen sind. Man spricht auch vom positiven prädiktiven Wert (PPV). Er weiß also im Vorhinein, wie wahrscheinlich ein Test bzw. Algorithmus überhaupt richtigliegt. Dann kann er abwägen, ob es sich lohnt, ihn zu nutzen.

Die natürlichen Häufigkeitsbäume erlauben Verbrauchern den positiven prädiktiven Wert von Testangeboten und somit ihre Zuverlässigkeit zu prüfen, z.B. wenn diese als individuelle Gesundheitsleistung (bekannt als IGeL) angeboten werden. Ebenso können Verbraucher die Zuverlässigkeit von Tests prüfen, die sie direkt (im stationären Handel) oder übers Internet erwerben können (Direct2Consumer-Bereich). Darüber hinausreichend erlauben die natürlichen Häufigkeitsbäume allen Bürgern, Kernfragen an Organisationen mit Algorithmen zu richten, die Entscheidungen beeinflussen – und diese zu überprüfen: Wie häufig kommt das Gesuchte vor, wie viele werden erkannt, wie viele werden übersehen, wie viele werden entlastet, wie viele werden fehlalarmiert?

 

Wie konstruiert man einen natürlichen Häufigkeitsbaum?

A. Was benötigen Sie?

Für die evidenzbasierte Entwicklung von natürlichen Häufigkeitsbäumen (NFTs) für Ihre eigenen Fragestellungen benötigen Sie drei Schlüsselinformationen: wie häufig das Gesuchte vorliegt (Prävalenz des Merkmals, wenn es um alle Betroffenen geht; Inzidenz des Merkmals, wenn es nur um Neuentdeckungen geht), wie viele der Merkmalsträger bzw. Betroffenen gefunden würden (Sensitivität des Tests) und wie viele der Nichtmerkmalsträger bzw. Nichtbetroffenen korrekt entlastet würden (Spezifität des Tests).

B. Wie gehen Sie vor?

Im Fall von Gesundheitsfragestellungen, sofern man nicht über einen eigenen medizinischen Dienst, speziell eine Public-Health-Abteilung verfügt, empfiehlt es sich, die Informationen (Prävalenz bzw. Inzidenz, Sensitivität, Spezifität) mithilfe der Angebote etablierter Organisationen der evidenzbasierten Medizin zu recherchieren (z.B. www.igel-monitor.dewww.gesundheitsinformation.de). Dieses Vorgehen sollte man versuchen, bevor man zu einer systematischen wissenschaftlichen Fachliteratursuche übergeht. 

Die wissenschaftliche Recherche sollte – falls notwendig – darauf ausgerichtet sein, eine eigene Übersichtsarbeit zu vermeiden. Denn hierfür wären mindestens zwei Mitarbeiter mit Erfahrung im Bereich systematische Suche und Gesundheit erforderlich, die dann zudem eine Zusammenfassung (auch statistisch) publizierter Studien erstellen. Stattdessen sollte man über www.cochrane-library.org oder www.ncbi.nlm.nih.gov/pubmed/ ausschließlich nach Cochrane Reviews bzw. Systematic Reviews zur eigenen Fragestellung suchen. 

Abseits des Gesundheitsbereichs stellt sich die Evidenzbasierung als sehr zersplittert dar. Ausnahmen stellen die www.campbell-collaboration.de (politische Maßnahmen), whatworks.college.police.uk (Thema Kriminalität) und die educationendowmentfoundation.org.uk (Thema Bildung) dar. Gerade bei Fragestellungen von algorithmischen Tests und Prognoseinstrumenten wird die Evidenzbasis sehr schwierig zu bestimmen sein. Dies hängt strukturell damit zusammen, dass bislang weder Anforderungen noch Aufsicht wie bei medizinischen Produkten gefordert sind. Wie häufig das gesuchte Merkmal grundsätzlich vorkommt, lässt sich unabhängig vom Algorithmus durch Recherche ermitteln. Die Angaben zur Sensitivität (in der Sprache der Entwickler recall) und Spezifität bzw. den Fehlarmen (auch fall-out) hingegen benötigen in der Regel einen direkten Austausch mit Entwicklern. Wenn Sie ein eigenes Modell entwickeln möchten, konsultieren Sie bitte den Abschlussbericht zum RisikoAtlas-Projekt ab Juli 2020 oder richten Sie eine Anfrage an uns. Die Kontaktdaten finden Sie im Reiter Kontakt.

Literaturempfehlungen zu den methodischen Grundlagen
  • Gigerenzer, G., & Hoffrage, U. (1995). How to improve Bayesian reasoning without instruction: Frequency formats. Psychological Review, 102(4), 684.
  • Hoffrage, U., & Gigerenzer, G. (1998). Using natural frequencies to improve diagnostic inferences. Academic Medicine, 73(5), 538–540.
  • McDowell, M., & Jacobs, P. (2017). Meta-analysis of the effect of natural frequencies on Bayesian reasoning. Psychological Bulletin, 143(12), 1273–1312.
  • Zhu, L., & Gigerenzer, G. (2006). Children can solve Bayesian problems: The role of representation in mental computation. Cognition, 98(3), 287–308.
Wie können Sie die Methode übernehmen?

Wenn Sie ein Verbraucherthema von unserer Internetseite übernehmen möchten, können Sie das über die folgenden drei Wege tun: 

  1. Sie verwenden eine digitale Kopie. Entweder Sie speichern sich direkt eine Grafik bzw. laden unser PDF herunter oder Sie binden die Grafik mittels Link(a href) oder iframe ein.
  2. Sie ziehen Ihre analoge Kopie und drucken sich unser PDF aus. Die Auflösung bzw. die vektorbasierte Grafik ist für Poster und Broschüren geeignet.
  3. Sie empfehlen die App und verweisen auf den Risikokompass aus PlayStore und AppStore.

Wenn Sie ein eigenes Modell entwickeln möchten, konsultieren Sie bitte den Abschlussbericht zum RisikoAtlas-Projekt ab Juli 2020 oder richten Sie eine Anfrage an uns. Die Kontaktdaten finden Sie im Reiter Kontakt.

Wir bitten darum, bei der Nutzung der Instrumente den Zuwendungsgeber, das Bundesministerium der Justiz und für Verbraucherschutz, sowie das Harding-Zentrum für Risikokompetenz als verantwortliche Entwickler zu erwähnen.

Die Logos zum Download finden Sie hier.

Links zu weiteren Methoden
Visualisierung mit Rahmentext

Kein Test ist perfekt – Wie zuverlässig ist ein Hirnleistungscheck zur Früherkennung einer Demenz?

Alle 100 Sekunden erkrankt in Deutschland eine Person an Demenz. Die Krankheit ist so weit verbreitet, dass sie vielen Menschen Angst macht und der Wunsch entsteht, sich davor schützen zu wollen. Ärzte bieten hier den Hirnleistungscheck zur Früherkennung einer Demenz an, der zwischen 7 und 21 Euro kostet. Mit diesem Test kann man in einer Reihe von Untersuchungen seine geistige Leistungsfähigkeit testen lassen, die darauf hinweisen sollen, ob sich eine beginnende Demenz abzeichnet. Doch können Sie dem Testergebnis vertrauen? Wissenschaftliche Studien zeigen, dass eine frühe Therapie nicht mehr hilft als eine späte. Ein Hirnleistungscheck hingegen kann Menschen unnötig beunruhigen: Nur eine von zwei Personen mit einer leichten Demenz entwickelt später eine schwere. Mit unserem Häufigkeitsbaum können Sie sich selbst ein Bild davon machen, wie zuverlässig der Hirnleistungscheck eine spätere schwere Demenz vorhersagt.

Quelle und Qualität der Daten

Zur empirischen Evaluation mit Verbrauchern

Alle Forschungsergebnisse zu den Grundlagen und zur Wirksamkeit der RisikoAtlas-Werkzeuge bezüglich Kompetenzförderung, Informationssuche und Risikokommunikation werden mit dem Projekt-Forschungsbericht am 30. Juni 2020 veröffentlicht. Bei vorausgehendem Interesse sprechen Sie uns bitte direkt an (Felix Rebitschek, rebitschek@mpib-berlin.mpg.de).

Links zu weiteren Themen