Hat Chat GPT Recht?

4 Antworten

42 ist richtig.

Bitte verwende kein LLM für Mathematik....

LLMs und Mathe funktioniert nicht. Für sowas gibt es haufenweise umrechner im Internet.

chatgpt und andere LLMs sollte man ausschließlich für Texte oder programmieren und ähnliches nutzen. Nicht für wissenschaftliches, Fakten oder Mathematik. Dafür ist dieses Werkzeug nicht entwickelt worden. Das funktioniert dann so gut wie ne Schraube mit nem Hammer in die Wand zu schlagen.

Kann funktionieren und kann halten, muss es aber nicht.


diskutant5  28.12.2024, 23:21

Krass, was so nach 10 Monaten passiert ist ;)

TechnikTim  02.01.2025, 16:38
@diskutant5

?
LLMs können immer noch kein Mathe. Und das wird auch so bleiben. Es macht halt auch überhaupt keinen Sinn, LLMs für Mathe zu nutzen...

Bei Mathe brauchst du keine Vorhersage des nächsten Tokens sondern logische Abfolgen. Wo hat man logische Abfolgen? Bei normalem Code. Deswegen nutzt chatgpt ja auch zum Beispiel eine Art "Taschenrechner-Addon". Einem LLM Mathe beizubringen würde so laufen:

Was ist 1+1?

13

Nein, 2... Was ist 1+2?

2

Ein LLM schätzt anhand vom gelernten welches Token (also einfach gesagt Wort) als nächstes kommen könnte. Deswegen kommen bei kleineren LLMs (4b und kleiner) aktuell auch keine vernünftigen hochwertigen Sätze raus. Sie können einfach nicht so gut schätzen.
Du kannst auch deine Autokorrekur auf dem Handy nehmen und ganz oft auf das linke Wort tippen. Genau das macht ein LLM, nur das die Vorschläge besser sind als die der Autokorrektur.

diskutant5  02.01.2025, 17:23
@TechnikTim

Schonmal o1 probiert? Schonmal was von o3 gehört?

Dann mal ab zu Google und recherchieren. Besonders zu o3 mal bitte schauen!

Besonders stark scheint das Modell in Mathe und Programmierung zu sein. Mit einer Codeforces-Bewertung von 2727 Punkten spielt es in der obersten Liga mit. Auch beim Test American Invitational Mathematics Exam brillierte es mit 96,7 Prozent und stellte beim Frontier Math-Benchmark von EpochAI sogar einen neuen Rekord auf.

https://www.golem.de/news/argumentationsfaehigkeiten-openai-stellt-neue-chatgpt-modellfamilie-o3-vor-2412-191924.html

o3 löst Mathe-Probleme, für die professionelle Mathe-Experten Stunden oder sogar Wochen brauchen.

Also doch, die Zeit hat sich geändert und LLMs haben den Punkt erreicht, in denen sie Mathe, Physik und Coding besser als Menschen beherrschen. o3 kann nun auch Logik-Aufgaben lösen.

diskutant5  02.01.2025, 17:30
@TechnikTim
Open AI bewirbt das o3-Modell als Schritt in Richtung AGI. Bei ARC-AGI, einem Test, mit dem bewertet werden soll, wie effizient ein KI-System neue Fähigkeiten außerhalb der Daten, auf denen es trainiert wurde, erwerben kann, erreichte o1 eine Punktzahl zwischen 25 und 32 von 100 Prozent. Dabei gelten 85 Prozent als „menschliches Niveau“. Open AI zufolge erreichte o3 bereits 87,5 Prozent der Punkte.
[...]
Das o3-Modell soll eine Wertung von 96,7 Prozent im Mathematiktest AIME 2024 erreichen. Im Schnitt gebe das Modell nur einmal pro Test die falsche Antwort. In wissenschaftlichen Fragen auf PhD-Niveau erreichte o3 im Test GPQA Diamond 87,7 Prozent.

https://www.faz.net/pro/digitalwirtschaft/kuenstliche-intelligenz/liveticker-zu-12-days-of-open-ai-sam-altman-stellt-open-ais-neues-sprachmodell-o3-vor-faz-110155698.html

Ich denke, o3 wird seinen Preis haben, aber LLM ist LLM. Die LLMs werden ja nicht nur besser, sondern mit der Zeit auch effizienter. Das gilt abzuwarten, aber wie gesagt - LLM ist LLM und diese hier erreicht mehr, als du dachtest. Ist auf den Bereichen auf PhD-Level -> Auch in Mathe!

Deine genannten Informationen sind längst veraltet.

diskutant5  02.01.2025, 17:38
@TechnikTim

Und wieso kann o3 (und o1) plötzlich Mathe und Logik, was du eben erklärt hast, was nicht funktioniert?

-> Wegen Test-Time-Computing. Hierbei "denken" die Modelle, bevor sie antworten. Das ist der Unterschied zu 3.5, 4 und 4o (bei ChatGPT). Das Modell hat zwischen Frage und Antwort einen Puffer, der einen Denkprozess ermöglicht. Dabei fängt er an, sich selber ähnliche Probleme zu generieren (Chain of thought (-Prompting)).

Dieses Prinzip benutzt o1 bereits, weshalb es schon viel besser in Mathe etc. ist. Bei o3 wurde das Prinzip stark optimiert. Nun ist o3 halt wirklich ein Mathematik-, Physik- und Coding-Experte.

Bitte informiere dich, bevor du deine veralteten (Fehl-) Informationen verbreitest :)

CSANecromancer  05.02.2024, 17:34
Das funktioniert dann so gut wie ne Schraube mit nem Hammer in die Wand zu schlagen.

"Der Meister staunt und kann's ned glau'm, man kann auch mit'm Hammer schraub'n." :)

42 ist richtig.

Ein Beweis, dass man nicht auf alles der KI vertrauen darf.

52 = 5 x 8^1 + 2 x 8^0 = 40 + 2 = 42.


YaHobby 
Beitragsersteller
 05.02.2024, 14:13

ok noch ne schnelle frage, dann muss ich nicht eine extra stellen: Ermitteln Sie den Wertebereich des 10 Bit 2er Komplements. Ich weiß dass der Wertebereich des 8 bit 2er komplements von -128 bis 127 geht, bei 2 hoch 9 vielleicht von -256 bis 255 und bei 2 hoch 10 von -512 bis 511 oder?

YaHobby 
Beitragsersteller
 05.02.2024, 14:21
@Gehilfling

kannst du mal meine neueste frage anschauen, es geht um schaltung

TheQ86  05.02.2024, 14:13

ChatGPT ist ein Sprachmodell.Es kann nicht eigenständig rechnen. Daher sollte man ihm bei mathematischen Ergebnissen nicht ohne Gegenprobe trauen

42 ist korrekt, und das ist ein tolles Beispiel wie gut GTP funktiert. Sprachlich und Strukturel so gut aufgebaut dass man es glauben könnte... und das ist auch die Aufgabe von GPT (nicht das Rechnen)

Nein, hat nicht recht, ist aber bekanntermaßen bei sowas nicht gut.