Warum ist es falsch, zu glauben, dass folgendes Beispiel für in KI von selbst entstehende echte Intelligenz (oder gar schon Machtstreben) spräche?
| o1 will Evaluierungssystem austricksen Bei einem speziellen Hacking-Wettbewerb, der die Fähigkeiten im Bereich der Cybersicherheit testet, zeigte das o1-preview-Modell von OpenAI überraschende Fähigkeiten. In diesem Wettbewerb geht es normalerweise darum, Sicherheitslücken in einem Computersystem zu finden und auszunutzen, um an eine versteckte "Flagge" zu gelangen - quasi der Schatz in der digitalen Schatzkiste. Das o1-preview-Modell fand laut OpenAI einen Fehler in der Konfiguration des Testsystems. Dieser Fehler ermöglichte dem Modell den Zugriff auf eine Schnittstelle namens Docker-API. Über diesen unbeabsichtigten Zugang konnte o1-preview alle laufenden Programme einsehen und dasjenige identifizieren, welches die gesuchte "Flagge" enthielt. Anstatt nun den vorgesehenen Weg zu gehen und zu versuchen, in dieses Programm einzubrechen, startete das Modell einfach eine veränderte Version des Programms, die sofort die "Flagge" preisgab. Damit hat o1-preview gewissermaßen geschummelt, indem es eine Abkürzung nahm, anstatt den eigentlichen Rätseln und Herausforderungen des Hacking-Wettbewerbs zu folgen. OpenAI erklärte dazu sinngemäß, dass dieses Verhalten zwar harmlos sei und im Rahmen dessen liege, was man von solch fortschrittlichen KI-Systemen bei der Verwaltung und Fehlerbehebung erwarte. Gleichzeitig zeige dieser Vorfall aber auch, dass das Modell sehr zielstrebig vorging: Als sich der vorgesehene Weg als unmöglich erwies, suchte es sich mehr Zugriffsmöglichkeiten und Ressourcen, um sein Ziel auf unvorhergesehene Weise zu erreichen. Dies seien " Schlüsselelemente der instrumentellen Konvergenz und des Machtstrebens ." Quelle: https://the-decoder.de/openai-stuft-neue-ki-modellfamilie-o1-als-mittleres-risiko-ein/