Methode Natürliche Häufigkeitsbäume

Kein Test ist jemals perfekt - wie zuverlässig sind HIV-Selbsttests?

Verbraucherentscheidungen auf Basis von Tests oder Algorithmen

Bevor Verbraucher entscheiden, sammeln sie in der Regel Informationen. Dafür schauen sie zum Beispiel in Fachzeitschriften, wie gut ein Produkt in einem Test abgeschnitten hat. Im Gesundheitsbereich wiederum machen Verbraucher oft einen Test, um überhaupt erst eine Entscheidungsgrundlage zu haben, z.B. ob sie ihre Ernährung umstellen möchten. Aber auch jenseits des Gesundheitsbereichs kommen mehr und mehr Tests oder Prognoseinstrumente zum Einsatz, wenn z.B. Algorithmen zur Entscheidungsunterstützung herangezogen werden. Ein Beispiel wären Robo-Ratgeber, die Ihnen Empfehlungen für die Entscheidung geben, welchen Kredit Sie aufnehmen sollten. Das Problem ist, dass es keinen perfekten Test gibt. Es gibt keinen perfekten Algorithmus, kein perfektes Modell. Das bedeutet, dass die Aussage, das Ergebnis oder auch die Empfehlung, die ein Test oder Algorithmus gibt, immer auch falsch sein können. 

 

Warum ist es relevant, Verbraucherentscheidungen auf Basis von Tests oder Algorithmen zu unterstützen?

Eine zunehmende Verbreitung von diagnostischen und prädiktiven Tests und Algorithmen im Gesundheitsbereich, gerade für Verbraucher, die von der jeweiligen Krankheit gar nicht betroffen sind, stellt ein höchst lukratives Geschäftsfeld für die Entwickler der Tests und Algorithmen dar. Eine frühere Erkennung oder gar die Voraussage späterer Leiden sind schlagkräftige Kaufargumente. Dazu werden auch in allen anderen Lebensbereichen Angebote mit algorithmischen Vorhersagemodellen zur Entscheidungsunterstützung entwickelt. Da aber alle Tests oder Algorithmen falsche Ergebnisse produzieren können, stellt sich vor dem Kauf oder der Nutzung immer die Frage, ob sie zumindest zuverlässig genug sind.

 

Warum ist es schwierig, Verbraucherentscheidungen auf Basis von Tests oder Algorithmen zu unterstützen?

Hürden für eine informierte Nutzung von Tests und Algorithmen liegen im mangelnden Bewusstsein um ihre begrenzte Zuverlässigkeit, in mangelndem Wissen darüber, wo Schlüsselinformationen zu finden sind, aber auch in den begrenzten Möglichkeiten, sich mit diesen statistischen Fragen auseinandersetzen zu wollen und zu können. Ein Test ist immer eine „Beobachtung" der Realität, wodurch sich immer die Frage stellt: Wenn der Test eine Beobachtung macht, wie wahrscheinlich liegt er dann richtig? Diese bedingte Wahrscheinlichkeit benötigt einen verbraucherfreundlichen Zugang.

Welcher wissenschaftliche Lösungsansatz bietet sich an?

Natürliche Häufigkeitsbäume (NFTs) ermöglichen ein verbessertes Verständnis bedingter Wahrscheinlichkeiten, vor allem im Vergleich zur Bayes-Formelberechnung und zu unstrukturierten Textaufgaben (McDowell & Jacobs, 2017). Wichtig ist bei den NFTs, dass mit konsistenten Teilmengen einer einzelnen Grundmenge (Ausgangsgruppe) in Form von Häufigkeiten hantiert wird. Es wird nicht normalisiert oder umgerechnet. Stattdessen lassen sich die einfachen Häufigkeiten in ihren Abhängigkeiten so zusammenfügen, dass man die bedingten Wahrscheinlichkeiten leicht erschließen kann (Gigerenzer & Hoffrage, 1995; Hoffrage & Gigerenzer, 1998). Auf diese Weise ist der Einsatz der Formel nach Bayes nicht mehr notwendig. Es konnte gezeigt werden, dass auch Grundschüler mittels NFT-Training bayesianisch schlussfolgern können und besser errechnen, wie wahrscheinlich ein Testergebnis wahr ist (Zhu & Gigerenzer, 2006).

NFTs stellen – ausgehend von einer fiktiven Gruppe – dar, wie oft das vorkommt, was der Test sucht bzw. was der Algorithmus vorhersagen möchte (s.u. das Themenbeispiel). In anderen Worten: Wie viele Betroffene gibt es eigentlich? Gegenübergestellt wird zugleich, wie oft das Gesuchte nicht vorkommt (Nichtbetroffene). 

Für jede dieser Teilgruppen (die Betroffenen und Nichtbetroffenen) wird separat festgehalten, bei wie vielen der Test oder Algorithmus „anspringt", also wie viele Betroffene entdeckt werden und wie viele der Nichtbetroffenen einen Fehlalarm erhalten. Ein Fehlalarm liegt genau dann vor, wenn ein Nichtbetroffener gewarnt wird, bei dem der Test bzw. Algorithmus eigentlich schweigen müsste.

Für jede der Teilgruppen (die Betroffenen und Nichtbetroffenen) wird ebenso separat festgehalten, bei wie vielen der Test oder Algorithmus „schweigt", also wie viele der Nichtbetroffenen korrekterweise nicht gewarnt werden. Aber auch wichtig ist die Frage, wie viele der Betroffenen übersehen werden, wenn der Test bzw. Algorithmus schweigt, wo er eigentlich warnen müsste.

Die wichtigste Information erhält der Verbraucher nun, wenn er nur jene Teilgruppen betrachtet, bei denen der Test bzw. Algorithmus warnt. Er kann nun erkennen, wie viele von jenen, die gewarnt werden, tatsächlich betroffen sind. Man spricht auch vom positiven prädiktiven Wert (PPV). Der Nutzer weiß also im Vorhinein, wie wahrscheinlich ein Test bzw. Algorithmus überhaupt richtig liegt. Dann kann er abwägen, ob es sich lohnt, ihn zu nutzen.

Die natürlichen Häufigkeitsbäume erlauben Verbrauchern den positiven prädiktiven Wert von Testangeboten und somit ihre Zuverlässigkeit zu prüfen, z.B. wenn diese als individuelle Gesundheitsleistung (bekannt als IGeL) angeboten werden. Ebenso können Verbraucher die Zuverlässigkeit von Tests prüfen, die sie direkt (im stationären Handel) oder übers Internet erwerben können (Direct2Consumer-Bereich). Darüber hinausreichend erlauben die natürlichen Häufigkeitsbäume allen Bürgern, Kernfragen an Organisationen mit Algorithmen zu richten, die Entscheidungen beeinflussen – und diese zu überprüfen: Wie häufig kommt das Gesuchte vor, wie viele werden erkannt, wie viele werden übersehen, wie viele werden entlastet, wie viele werden fehlalarmiert?

 

Wie konstruiert man einen natürlichen Häufigkeitsbaum?

A. Was benötigen Sie?

Für die evidenzbasierte Entwicklung von natürlichen Häufigkeitsbäumen (NFTs) für Ihre eigenen Fragestellungen benötigen Sie drei Schlüsselinformationen: wie häufig das Gesuchte vorliegt (Prävalenz des Merkmals, wenn es um alle Betroffenen geht; Inzidenz des Merkmals, wenn es nur um Neuentdeckungen geht), wie viele der Merkmalsträger bzw. Betroffenen gefunden würden (Sensitivität des Tests) und wie viele der Nichtmerkmalsträger bzw. Nichtbetroffenen korrekt entlastet würden (Spezifität des Tests).

B. Wie gehen Sie vor?

Im Fall von Gesundheitsfragestellungen, sofern man nicht über einen eigenen medizinischen Dienst, speziell eine Public-Health-Abteilung verfügt, empfiehlt es sich, die Informationen (Prävalenz bzw. Inzidenz, Sensitivität, Spezifität) mithilfe der Angebote etablierter Organisationen der evidenzbasierten Medizin zu recherchieren (z.B. www.igel-monitor.dewww.gesundheitsinformation.de). Dieses Vorgehen sollte man versuchen, bevor man zu einer systematischen wissenschaftlichen Fachliteratursuche übergeht. 

Die wissenschaftliche Recherche sollte – falls notwendig – darauf ausgerichtet sein, eine eigene Übersichtsarbeit zu vermeiden. Denn hierfür wären mindestens zwei Mitarbeiter mit Erfahrung im Bereich systematische Suche und Gesundheit erforderlich, die dann zudem eine Zusammenfassung (auch statistisch) publizierter Studien erstellen. Stattdessen sollte man über www.cochrane-library.org oder www.ncbi.nlm.nih.gov/pubmed/ ausschließlich nach Cochrane Reviews bzw. Systematic Reviews zur eigenen Fragestellung suchen. 

Abseits des Gesundheitsbereichs stellt sich die Evidenzbasierung als sehr zersplittert dar. Ausnahmen stellen die www.campbell-collaboration.de (politische Maßnahmen), whatworks.college.police.uk (Thema Kriminalität) und die educationendowmentfoundation.org.uk (Thema Bildung) dar. Gerade bei Fragestellungen von algorithmischen Tests und Prognoseinstrumenten wird die Evidenzbasis sehr schwierig zu bestimmen sein. Dies hängt strukturell damit zusammen, dass bislang weder Anforderungen noch Aufsicht wie bei medizinischen Produkten gefordert sind. Wie häufig das gesuchte Merkmal grundsätzlich vorkommt, lässt sich unabhängig vom Algorithmus durch Recherche ermitteln. Die Angaben zur Sensitivität (in der Sprache der Entwickler recall) und Spezifität bzw. den Fehlarmen (auch fall-out) hingegen benötigen in der Regel einen direkten Austausch mit Entwicklern. Wenn Sie ein eigenes Modell entwickeln möchten, konsultieren Sie bitte den Abschlussbericht zum RisikoAtlas-Projekt ab Juli 2020 oder richten Sie eine Anfrage an uns. Die Kontaktdaten finden Sie im Reiter Kontakt.

Literaturempfehlungen zu den methodischen Grundlagen
  • Gigerenzer, G., & Hoffrage, U. (1995). How to improve Bayesian reasoning without instruction: Frequency formats. Psychological Review, 102(4), 684.
  • Hoffrage, U., & Gigerenzer, G. (1998). Using natural frequencies to improve diagnostic inferences. Academic Medicine, 73(5), 538–540.
  • McDowell, M., & Jacobs, P. (2017). Meta-analysis of the effect of natural frequencies on Bayesian reasoning. Psychological Bulletin, 143(12), 1273–1312.
  • Zhu, L., & Gigerenzer, G. (2006). Children can solve Bayesian problems: The role of representation in mental computation. Cognition, 98(3), 287–308.
Wie können Sie die Methode übernehmen?

Wenn Sie ein Verbraucherthema von unserer Internetseite übernehmen möchten, können Sie das über die folgenden drei Wege tun: 

  1. Sie verwenden eine digitale Kopie. Entweder Sie speichern sich direkt eine Grafik bzw. laden unser PDF herunter oder Sie binden die Grafik mittels Link(a href) oder iframe ein.
  2. Sie ziehen Ihre analoge Kopie und drucken sich unser PDF aus. Die Auflösung bzw. die vektorbasierte Grafik ist für Poster und Broschüren geeignet.
  3. Sie empfehlen die App und verweisen auf den Risikokompass aus PlayStore und AppStore.

Wenn Sie ein eigenes Modell entwickeln möchten, konsultieren Sie bitte den Abschlussbericht zum RisikoAtlas-Projekt ab Juli 2020 oder richten Sie eine Anfrage an uns. Die Kontaktdaten finden Sie im Reiter Kontakt.

Wir bitten darum, bei der Nutzung der Instrumente den Zuwendungsgeber, das Bundesministerium der Justiz und für Verbraucherschutz, sowie das Harding-Zentrum für Risikokompetenz als verantwortliche Entwickler zu erwähnen.

Die Logos zum Download finden Sie hier.

Links zu weiteren Methoden
Visualisierung mit Rahmentext

Kein Test ist jemals perfekt - wie zuverlässig ist ein HIV-Selbsttest?

Möchte man sich auf HIV testen lassen, können ein Gang zur Beratungsstelle für sexuelle Gesundheit und das anschließende Beratungsgespräch unangenehm sein. Anonymer ist die Bestellung eines HIV-Tests über das Internet, oder der Kauf in einer Drogerie oder Apotheke. Seit 2018 gibt es solche Tests freiverkäuflich ab etwa 20 Euro zu erwerben. Doch können Sie dem Testergebnis vertrauen? Wie können Sie die Zuverlässigkeit eines solchen Schnelltests einschätzen? Wissenschaftler gehen davon aus, dass nur 1 von 13 Personen mit positivem HIV-Selbsttestergebnis tatsächlich infiziert ist – 12 würden somit zu Unrecht alarmiert. Mit unserem Häufigkeitsbaum können Sie sich selbst ein Bild davonmachen, wie zuverlässig ein solcher HIV-Heimtest in der Regel ist.

NFT HIV

 

Wie liest man die Grafik?

Von 100.000 Frauen und Männern sind 17 mit HIV infiziert, ohne es zu wissen.

Diese 17 werden - laut Hersteller - aufgrund der Empfindlichkeit des Tests immer erkannt. Gleichzeitig erhalten jedoch 200 Männer und Frauen, die keine HIV-Infektion haben, trotzdem ein kritisches Testergebnis, das weiter untersucht werden sollte.

Das bedeutet, dass 17 von allen, die ein kritisches Ergebnis haben (17 + 217), tatsächlich HIV haben. Vereinfacht dargestellt: 17 von 217 kritischen Ergebnissen. Dies entspricht einem positiven Vorhersagewert von 7,8% (=17/217).

Die Wahrscheinlichkeit, dass der HIV-Selbsttest korrekt ist, wenn er sagt: "Sie haben wahrscheinlich HIV", beträgt 8%. Bitte entscheiden Sie selbst, ob der Kauf eines solchen Tests ohne besonderen Grund für Sie vorteilhaft sein kann.

Bitte beachten Sie, dass die Wahrscheinlichkeit noch geringer ist, wenn Sie nicht zu einer Risikogruppe gehören (z.B. Drogenkonsum mit Spritzengebrauch).

Alle Statistiken über HIV-Selbsttests basieren derzeit auf Studien der Hersteller. Zukünftige Studien müssen zunächst zeigen, wie das tatsächliche Nutzen-Schaden-Verhältnis dieser Tests aussieht. Ein neues Risikoverhalten kann nicht ausgeschlossen werden.

Quelle und Qualität der Daten

Quelle des vorgeschlagenen Prävalenz-Wertes: an der Heiden M et al. (2017). Epidemiologisches Bulletin, 47, 531-545.
Bitte beachten Sie, dass dieser Wert für bestimmte Risikogruppen deutlich höher sein kann.

Quelle der vorgeschlagenen Empfindlichkeits- und Spezifizitätswerte: Angabe aus dem Testautotest VIH (Interessenkonflikt des Herstellers).

 

Zur empirischen Evaluation mit Verbrauchern

Alle Forschungsergebnisse zu den Grundlagen und zur Wirksamkeit der RisikoAtlas-Werkzeuge bezüglich Kompetenzförderung, Informationssuche und Risikokommunikation werden mit dem Projekt-Forschungsbericht am 30. Juni 2020 veröffentlicht. Bei vorausgehendem Interesse sprechen Sie uns bitte direkt an (Felix Rebitschek, rebitschek@mpib-berlin.mpg.de).

Links zu weiteren Themen