Maschinelles Lernen ist im Bereich der Bilderkennung sehr erfolgreich. Das Lesen von Texten dagegen bereitet immer wieder Schwierigkeiten Was sind Gründe dafür?

5 Antworten

Ich glaube, die Frage lässt sich so nicht beantworten , da die Grundannahme nicht zutrifft. Wer auch immer diese Aussage getätigt hat, ist schlecht informiert über den Stand der Kunst.

Ich bin der Meinung, dass NLP Modelle inzwischen an Vision* vorbeigezogen sind. Ja, Bilderkennung hatte in den letzten ~10 Jahren durch die überaus erfolgreichen und vielseitigen Convolutional Neural Networks (CNNs) viel Aufschwung bekommen. 2017 haben aber auch endlich die Computerlinguisten ihr „Annus mirabilis“ feiern dürfen. Seit die Transformer Architektur erstmals auf die Bühne trat (ursprünglich für languange-to-language tasks), hat sie sich in so ziemlich allen NLP Problemen als SOTA hervorgetan. Und eines der wichtigsten Merkmale dieser Modelle ist, dass sie „self-supervised“ vortatiniert werden können, um downstream Anwendungen zu ermöglichen - entweder mit wenig fine-tuning oder gar „zero shot“, d. h. von der Stange, ohne Anpassungen, kann ein Large Language Model (LLM) zahlreiche andere Probleme lösen. Die Skalierbarkeitseigenschaften dieser großen Transformer Modelle werden momentan von unseren besten Vision Modellen nicht erreicht. Facebook AI Research (FAIR) betreibt einige Forschung zu der Frage, wie man Mechanismen des self self-supervised learnings für Vision Modelle findet, welche ähnlich gute Skalierbarkeit wie die language modelling tasks von LLMs haben. Aktuell sieht es aber danach aus, als sei dies die „dark matter“ des maschinellen Lernens oder der künstlichen Intelligenz im Allgemeinen.

*Mit 'Vision' meine ich 'Computer Vision', also das maschinelle Sehen. Darunter fallen viele verschiedene Aufgaben, von sehr low-level perception tasks bis zur Erschließung semantischer Information aus zweidimensionalen Projektionen dreidimensionaler Szenen.

Das bewußte Denken des Menschen findet mit Hilfe der Sprache statt. Ein Computer der Sprache verstehen könnte, müsste menschlich denken können. Das wäre KI. Das folgende Zitat des Quanteninformationstheoretikers David Deutsch beschreibt das Problem: "Kein Gehirn auf der Erde hat die leiseste Ahnung davon, was ein Gehirn tut. [...] Das Unternehmen, seine Funktionsweise künstlich zu erreichen - KI - [...] hat in den sechs Jahrzehnten seines Bestehens absolut keine Fortschritte gemacht."

P.S.: Ich bitte mir zu verzeihen, dass ich auf ähnliche Fragen ähnliche Antworten gebe.

Woher ich das weiß:Berufserfahrung – Lehrer u. Fachbetreuer für Mathematik und Physik i.R.
Rosaliee0 
Fragesteller
 01.03.2023, 15:18

Dankeschön

0

Es ist bisher nicht gelungen, für eine natürliche Sprache üerhaupt eine Beschreibung innerhalb der

https://de.wikipedia.org/wiki/Chomsky-Hierarchie#Nat%C3%BCrliche_Sprachen

zu finden. Das bedeutet, dass es derzeit nicht einmal möglich ist einen Satz einer natürlichen Sprache mit Hilfe einer Turing-Maschine zu simulieren, ganz zu schweigen von einem realen Computer.

Bilderkennung ist lediglich die Erkennung von Mustern, daran arbeitet die Informatik nun seit 70 Jahren. Am Ende ist das, hinreichend leistungsfähige Systeme vorausgesetzt, ein Problem der Wahrscheinlichkeitsrechnung, geeignet angewendet.

https://de.wikipedia.org/wiki/Mustererkennung

Woher ich das weiß:Studium / Ausbildung – Dipl.Math.
Rosaliee0 
Fragesteller
 01.03.2023, 09:14

Danke dir

0

Ich denke, ein wichtiger Punkt sind Metaphern und das Zwischen-Den-Zeilen-Lesen.

"Glaubst du wirklich?" - "Na logisch!"

Der Leser erkennt besser Ironie und Bedeutungen.

Ich sag nicht, dass es unmöglich ist, für eine Maschine Ironie zu erkennen. Bei der Analyse von Millionen von Texten wird das gut möglich sein. Siehe ChatGPT.
Eine einfache Gruppe von Informatikern ist jedoch überfordert, einem Computer Leseverständnis beizubringen.

Woher ich das weiß:Studium / Ausbildung – Mathematik

Ein "Grund" ist, dass wir der Software Fehler bei der Bildgenerierung deutlich mehr verzeihen können, als bei einem Text.

Schaut man sich das Bild genau an, erkennt man meist viele Logikfehler, die man auf den ersten Blick nicht erkennt.

Beim Lesen eines Textes dagegen, fällt einem jeder Fehler direkt auf.

Rosaliee0 
Fragesteller
 01.03.2023, 08:54

Dankeschön :)

0