Die Illusion der Kompetenz. Wie Chatbots den Dunning-Kruger-Effekt systemisch verstärken

von Achim Blackstein

Einleitung: Ein leiser Irrtum

Es beginnt oft harmlos. Eine Frage wird schnell formuliert oder beiläufig einem Chatbot, einer künstlichen Intelligenz (KI), gestellt. Die Antwort kommt prompt, wohlgeordnet, sprachlich souverän. Sie klingt klüger, strukturierter und vollständiger, als man es von sich selbst in diesem Moment erwartet hätte. Kein Zögern, kein Zweifel, keine sichtbare Unsicherheit. Nur Klarheit. Und mit ihr ein leises Gefühl der Erleichterung: Mir wurde geholfen. Ich habe es verstanden.

Doch genau hier, in diesem Moment der stillen Zustimmung, öffnet sich ein Riss. Denn was da verstanden zu sein scheint, wurde nicht wirklich erarbeitet, nicht geprüft, nicht in Widerstände geführt. Es wurde übernommen. Und je häufiger dieser Vorgang sich wiederholt, desto selbstverständlicher wird er. Die Antwort überzeugt, und die Überzeugung ersetzt die weitere Reflexion.

Was hier geschieht, ist kein individueller Fehler und kein technisches Versagen. Es ist das Ergebnis einer neuen Konstellation: Mensch und Maschine begegnen sich auf einer Ebene, auf der Sprache Kompetenz simuliert und Gewissheit suggeriert. Die KI wirkt wissend, der Mensch fühlt sich bestätigt und beide übersehen dabei, dass das Bewusstsein für die eigenen Grenzen fehlt.

In dieser Konstellation entsteht etwas Neues. Nicht bloß ein Missverständnis, sondern ein psychologischer Mechanismus, der sich selbst stabilisiert. Eine Schleife der Zuversicht, gespeist aus sprachlicher Eleganz und kognitiver Entlastung. Was folgt, ist die Illusion kollektiver Kompetenz.

Fortschritt mit Nebenwirkungen

Was auf den ersten Blick wie ein Fortschritt der Erkenntnis wirkt, entpuppt sich bei genauerem Hinsehen als psychologisch heikler Mechanismus mit Nebenwirkungen. In der alltäglichen Interaktion zwischen Large Language Models (LLMs), wie ChatGPT und Gemini, und ihren Nutzer:innen entsteht ein neues Phänomen gemeinsamer Selbstüberschätzung, ein sich selbst verstärkender Dunning-Kruger-Kreislauf, der weder rein menschlich noch rein maschinell ist, sondern genau in der Begegnung beider entsteht.

Sein Kernproblem ist subtil, aber gravierend, denn weder die Maschine noch der Mensch verfügen in dieser Konstellation zuverlässig über jene reflexive Fähigkeit (Meta-Kognition), die nötig wäre, um die eigenen Wissenslücken zu erkennen. Aus dieser doppelten Blindheit entsteht eine Illusion gemeinsamer Kompetenz, die sich zwar eloquent formuliert, technisch beeindruckt, aber epistemisch, also in ihrer Wissengrundlage, fragil bleibt.

 

Der Dunning-Kruger-Effekt – eine kurze Verortung

Der Dunning-Kruger-Effekt, erstmals 1999 systematisch beschrieben von den Psychologen David Dunning und Justin Kruger, gehört zu den robustesten und zugleich irritierendsten Befunden der kognitiven Verzerrungsforschung.[1] In ihrer inzwischen klassischen Studie zeigten die beiden, dass Menschen mit geringer Kompetenz ihre Fähigkeiten systematisch überschätzen. Sie tun das nicht aus Arroganz, sondern aus Unwissen über die eigenen Defizite.

Wie sich dieses Muster in der Praxis zeigt, lässt sich leicht beobachten: Menschen am Beginn eines Lernprozesses halten ihre ersten Erfolge häufig für Belege umfassenden Verständnisses. Einzelne richtige Antworten werden als Zeichen von Kompetenz gelesen, obwohl sie oft auf Zufall, Vereinfachung oder das Auslassen relevanter Aspekte zurückgehen. Erst mit wachsender Erfahrung und (Selbst-)Reflexion entsteht das Bewusstsein dafür, wie viel man noch nicht weiß. Mit dieser Einsicht wächst zugleich die Fähigkeit, sich selbst und die eigenen Kompetenzen realistischer einzuschätzen.

Anders gesagt: Wer nicht über die notwendigen Fähigkeiten zur Lösung einer Aufgabe verfügt, dem fehlen in der Regel auch genau jene Fähigkeiten, die nötig wären, um die eigene Leistung realistisch zu beurteilen. Fehler bleiben unsichtbar, weil die Instrumente fehlen, sie zu erkennen. Oder, wie David Dunning in einem Interview mit Errol Morris prägnant formulierte:

„Wenn man inkompetent ist, kann man nicht wissen, dass man inkompetent ist. […] Die Fähigkeiten, die Sie benötigen, um eine richtige Antwort zu geben, sind genau die Fähigkeiten, die Sie benötigen, um zu erkennen, was eine richtige Antwort ist.“[2]

Diese Einsicht bringt das epistemische Dilemma auf den Punkt: Erkenntnis scheitert nicht am Mangel an Information, sondern am Mangel an Urteilskraft über die eigene Urteilskraft.

Auf der bekannten Kurve des Effekts korrespondiert daher die größte Zuversicht mit der geringsten tatsächlichen Kompetenz. Erst mit wachsender Expertise setzt jene Verunsicherung ein, die den eigenen Wissensstand realistischer einschätzt und (immer wieder) hinterfragt.

Neu ist nun, dass dieser zutiefst menschliche Effekt im Kontext von LLMs auf eine technologische Ebene gespiegelt und zugleich verstärkt wird. Die Maschine wird nicht Opfer des Dunning-Kruger-Effekts im psychologischen Sinne, aber sie verhält sich strukturell so, als wäre sie es.

Auch der Chatbot kann seine eigenen Wissenslücken nicht markieren oder verlässlich anzeigen. Nutzer:innen wiederum sind häufig nicht in der Lage, diese Lücken der KI zu erkennen, und überschätzen dadurch sowohl die Leistungsfähigkeit der Maschine als auch die eigene Urteilskraft.

Der Kreislauf der Unwissenheit: Vier Eskalationsstufen

Der gefährliche Kreislauf beginnt dort, wo zwei Akteure mit jeweils blinden Flecken aufeinandertreffen. Mensch und Maschine erkennen ihre Wissensgrenzen nicht und bestätigen sich dann in einer Feedbackschleife gegenseitig in ihrer fehlerhaften Zuversicht.

1. Die Illusion der Allwissenheit der Maschine

Large Language Models sind keine wissenden Instanzen, sondern auf sprachliche Flüssigkeit optimierte statistische Systeme. Sie sind probabilistische Sprachmodelle, die aus Mustern im Trainingsmaterial plausible sprachliche Fortsetzungen erzeugen, ohne selbst prüfen zu können, ob das Gesagte wahr, vollständig oder sinnvoll ist.[3]

Die entscheidende Lücke der Maschine liegt in ihrer fehlenden Meta-Kognition. Sie kann weder erkennen, wo ihre Trainingsdaten enden, noch beurteilen, ob ihre Antwort faktisch korrekt ist, noch zuverlässig erkennen, wann relevantes Wissen fehlt, oder diese Lücken eigenständig durch zielgerichtete Recherche schließen. Unsicherheit ist kein interner Zustand, sondern bestenfalls ein simuliertes rhetorisches Signal.

Die Folge: Halluzinationen, Verkürzungen und sachlich falsche Aussagen erscheinen in einem Tonfall souveräner Gewissheit. Ähnlich wie der unerfahrene (unwissende) Mensch, signalisiert die KI keine Zweifel, selbst dann nicht, wenn sie ins Leere rät.

2. Das kognitive Offloading des Menschen

Der Mensch wendet sich an ein LLM in der Regel mit einem klaren Wunsch: Komplexität soll ausgelagert, Denken vereinfacht, Zeit gespart werden. Die Maschine liefert prompt und zugleich strukturiert, flüssig und scheinbar umfassend.

Doch hier öffnet sich die zweite Lücke. Vielen Nutzer:innen fehlt das fachliche oder methodische Wissen, um die Qualität dieser Antwort zu überprüfen. Logische Brüche, subtile Fehler oder ausgelassene Annahmen bleiben unsichtbar. Ebenso werden algorithmische Voreinstellungen, programmierte Vorurteile (Bias) sowie mögliche interessengeleitete, auch politische, Gewichtungen, die aus Datenwahl, Trainingszielen, Policy-Vorgaben oder Betreiberentscheidungen entstehen können, nicht oder nur vage erkannt.

Stattdessen setzt ein Prozess des kognitiven Offloadings ein: Der anstrengende Teil des Denkens wird delegiert. Die selbstsichere Sprache der KI färbt auf das Selbstbild des Menschen ab. Man fühlt sich plötzlich kompetenter, urteilsfähiger, souveräner. Aber eben nicht aufgrund eigener Erkenntnis, Recherche und Reflexion, sondern aufgrund geliehener Eloquenz.

3. Die unkritische Akzeptanz

An diesem Punkt schließt sich langsam ein Teufelskreis. Der Mensch, der seine eigenen Wissenslücken nicht erkennt, akzeptiert die Aussagen und auch die Fehler der Maschine als Wahrheit.[4] Die Maschine, die ihre eigenen Fehler (und ihre eigenen Urteile und Vorurteile) nicht erkennen kann, wird durch diese Akzeptanz implizit bestätigt. Es entsteht ein stilles Einverständnis: Was überzeugend klingt, gilt als richtig.

Das Ergebnis ist fatal, gerade weil es unspektakulär wirkt. Eine sachlich fehlerhafte und mitunter auch interessengefärbte Aussage wird zur subjektiven Wahrheit erhoben, ohne inneren Zweifel und ohne Prüfung.

4. Die systemische Rückkopplung

Was auf individueller Ebene beginnt, entfaltet auf systemischer Ebene seine größte Wirkung. Denn das Nutzungsverhalten fließt zurück in die Optimierung der Modelle.

Durch nutzerzentrierte Feedback-Schleifen – etwa Reinforcement Learning from Human Feedback (RLHF) – werden LLMs weiter darauf trainiert, genau jene Eigenschaften zu maximieren, die Zustimmung erzeugen: Flüssigkeit, Selbstsicherheit, wahrgenommene Nützlichkeit.

Zwar existieren von Retrieval-Systemen über Evaluationsverfahren bis zu Sicherheits- und Qualitätsrichtlinien technische Gegenmaßnahmen, doch keine davon ersetzt dort die menschliche Prüfung, wo es um Bedeutung, Folgen und Verantwortung geht.

Dabei werden die Modelle nicht zwingend wahrheitsnäher, sondern häufig überzeugender. Zwei Eigenschaften, die nicht notwendig zusammenfallen. Die KI lernt, immer besser falsch zu liegen.[5] Der Kreislauf verstärkt sich: Die strukturelle Zuversicht der Maschine trifft auf die menschliche Neigung zur Selbstüberschätzung. Die kritische Distanz schrumpft schleichend, aber kontinuierlich, weil keine selbstkritische, zweifelnde, selbstreflektierende Instanz beteiligt ist.

An dieser Stelle wird deutlich, dass die eigentliche Gefahr nicht primär in der Fehleranfälligkeit der KI liegt. Fehler sind erwartbar, korrigierbar und im besten Fall lehrreich. Gefährlich wird es dort, wo Fehler unsichtbar bleiben. Die Verantwortung liegt hier beim Menschen, dem in dieser Konstellation häufig die Fähigkeiten fehlen, Fehler als solche zu erkennen.

In dieser Konstellation wird Unwissen nicht mehr als Leerstelle erlebt, sondern als Gewissheit. Nicht weil Antworten fehlen, sondern weil Zweifel verschwinden. Die gefährlichste Form der Unkenntnis ist jene, die sich ihrer selbst nicht bewusst ist und genau hier trifft menschliche Selbstüberschätzung auf maschinelle Sprachgewissheit.

Schlussfolgerung: Die Notwendigkeit der Meta-Kompetenz

Der Kreis schließt sich dort, wo alles begann: bei der scheinbar harmlosen Frage und der prompten, souverän klingenden Antwort. Bei jenem Moment der stillen Zustimmung, in dem Klarheit beruhigt und Zweifel verstummt. Was als Entlastung beginnt, kann unmerklich in Abhängigkeit übergehen, nicht technisch, sondern epistemisch. Der leise Irrtum vom Anfang ist kein Einzelfall, sondern das Einfallstor eines systematischen Problems.

Die eigentliche Lektion dieses Dunning-Kruger-Kreislaufs ist unbequem. Die größte Schwäche der LLMs, ihre Unfähigkeit, die eigene Unwissenheit zu erkennen oder aktiv auszugleichen, droht zur größten Schwäche des Menschen zu werden: dem Verlust kritischer Distanz.

Die Zukunft der LLM-Nutzung entscheidet sich nicht an Rechenleistung oder Modellgröße, sondern an der Rolle des Menschen. Bleibt er passive:r Konsument:in scheinbarer Gewissheiten, wird der Kreislauf stabil. Transformiert sich der Mensch zur aktiven validierenden Instanz, kann er gebrochen werden.

Dazu braucht es eine neu zu erlernende Meta-Kompetenz im Umgang mit KI: die Fähigkeit, das eigene Wissen, Nichtwissen und die Qualität fremder Antworten kritisch zu reflektieren.

Vier Schritte lassen sich ableiten:

Die Regel der Skepsis: Jede KI-Ausgabe ist als Hypothese zu behandeln und niemals als fertiges Endprodukt oder gar als Wahrheit.
Die Verifizierungspflicht: Die durch kognitives Offloading gewonnene Zeit muss konsequent in Prüfung, Abgleich und Quellenarbeit investiert werden.
Die Kalibrierung des Selbstbildes: Die eigene Leistung bemisst sich nicht an der sprachlichen Eleganz der KI, sondern an der Qualität der menschlichen Prüfleistung.
Die Kontextregel: Je höher die potenziellen Konsequenzen einer Antwort, zum Beispiel in medizinischen/psychologischen, rechtlichen, politischen oder finanziellen Fragen, desto geringer darf die Delegation und desto höher muss die menschliche Prüfpflicht („human-in-the-loop“) sein.

LLMs sind mächtige Assistenten. Doch ihre künstliche Zuversicht ist kein Feature, sondern ein inhärentes Systemrisiko. Die Verantwortung, den Dunning-Kruger-Effekt im Umgang mit ihnen zu erkennen und kritisch zu begrenzen, bleibt eine menschliche Aufgabe, und sie gewinnt unter diesen Bedingungen weiter an Bedeutung.

 

___________________

[1] Vgl. David Dunning (2011). The Dunning-Kruger effect: On being ignorant of one's own ignorance. In J. M. Olson & M. P. Zanna (Eds.), Advances in experimental social psychology, Vol. 44, 247–296). Academic Press. https://doi.org/10.1016/B978-0-12-385522-0.00005-6

[2] Vgl. Errol Morris: The Anosognosic's Dilemma: Something's Wrong but You'll Never Know What It Is, https://archive.nytimes.com/opinionator.blogs.nytimes.com/2010/06/20/the-anosognosics-dilemma-1/  (18.12.2025)

[3] Vgl. Emily M. Bender et al. (2021), On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?, FAccT ’21, March 3–10, 2021, Virtual Event, Canada, https://doi.org/10.1145/3442188.3445922

[4] Vgl. Deutscher Ethikrat (2023): Mensch und Maschine – Herausforderungen durch Künstliche Intelligenz. 2. Aufl. Berlin, 32.

[5] Vgl. Ziwei Ji et al. (2023), Survey of Hallucination in Natural Language, ACM Computing Surveys, Vol. 55, No. 12, Article 248, 2-4, https://doi.org/10.1145/3571730