GPT-4o ist wie jedes andere große Sprachmodell (das, was umgangssprachlich als „KI“ bezeichnet wird) nur ein riesiger, selbstlernender Algorithmus, der weiß, welche Buchstabenkette auf welche andere Buchstabenkette am besten folgt. ChatGPT hat keine Ahnung, was der von dir geschriebene Satz bedeutet, oder was du „willst“. Es weiß nur, welche konkrete Aneinanderreihung von Buchstaben am besten zu deiner Anfrage passt.
Der größte Nachteil, den dieser Algorithmus („Transformer-Modell“) hat, sind Halluzinationen. Das ist, wenn ein Sprachmodell absolut selbstbewusst eine Antwort ausgibt, die völlig falsch oder auch völlig unpassend ist und zum Teil noch auf die Richtigkeit dieser Antwort besteht.
In diesem konkreten Fall ist das recht einfach zu erklären: Du gibst ChatGPT einen Satz und verlangst, dass der Satz auf Korrektheit geprüft wird. Damit erzeugst du einen Erwartungseffekt. ChatGPT geht basierend auf deiner Anfrage davon aus, dass etwas an dem Satz falsch sein muss (confirmation bias). In den Trainingsdaten, mit denen ChatGPT trainiert wurde, wird bei solchen Anfragen in der Regel nämlich auch ein Fehler im Satz vorhanden gewesen sein. Mit der Erwartungshaltung, dass etwas falsch sein muss, antwortet ChatGPT nun also selbstbewusst, dass der Satz falsch ist bzw. verbessert werden könne, obwohl das eigentlich gar der Fall ist. Und obwohl ChatGPT den selben Satz nochmal ausspuckt, merkt „er“ das nicht – da „er“ nunmal nicht intelligent ist, sondern nur Buchstaben aneinanderreiht.
Das ist ein grundsätzliches Problem mit Sprachmodellen und Grund dafür, weshalb man ihre Antworten prüfen sollte. Einen Lösungsansatz dafür gibt es nicht, weil das ein grundlegendes Problem mit der dahinter stehenden Technik ist.
Etwas besser sind als die Basismodelle wie GPT-4o sind jedoch sogenannte Reasoning-Modelle, z.B. o3-mini von OpenAI. Diese simulieren, bevor sie ihre eigentliche Antwort schreiben, einen „Gedankenfluss“. In einem solchen Gedankenfluss merkt das Modell oft, dass die Antwort, die es eigentlich schreiben wollte, eine Halluzination ist. Das funktioniert aber auch (noch) nicht immer und der Betrieb dieser Reasoning-Modelle ist etwas rechenintensiver und damit teurer – weshalb die Nutzungslimits für Anwender oft niedriger sind.