Künstliche Intelligenz – die besten Beiträge

Reinforcment Learning (RL) in PyTorch - habe ich einen Denkfehler?

Guten Tag allerseits.

Ich möchte mittels PyTorch und RL ein neuronales Netzwerk (NN) trainieren und ich komme gerade nicht weiter. Das NN soll ein Strategiespiel (Meta-Tic-Tac-Toe) lernen. Das Spiel ist deterministisch und zwei Spieler wechseln sich ab und platzieren auf ein großes Feld X und O. Das NN erhält als Input das Feld (wo ist X, wo ist O, wo ist leer) und soll als Output den besten Zug für X und den besten Zug für O in der gegebenen Situation vorhersagen.

Mein Training soll so aussehen:
1) Das NN schätzt einen Zug, anhand der Spielfeldinformationen
2) Ist der Zug valide, so wird die Belohnung berechnet. Ist der Zug nicht valide, so wird die negative Belohnung (Bestrafung) berechnet.
3) Es wird eine "learn"-Methode des NNs aufgerufen, die folgende drei Parameter hat: [Spielfeldinformationen, geschätzter Zug und Belohnung]. Das NN soll mit diesen Parametern Backpropagation machen und sich verbessern.
4) War der Zug nicht valide, so soll wieder bei Schritt 1 angefangen werden (bis ein valider Zug herauskommt). War der Zug valide, wird dieser in das Spiel eingetragen und man beginnt wieder mit Schritt 1, diesmal aber mit dem aktualisierten Spielfeld (bis das Spiel endet).

So soll das NN sehr häufig gegen sich selbst spielen und seine X-Präzision und O-Präzision verbessern.

Mein Problem ist die learn-Methode.
Online finde ich jede Menge Algorithmen, die viele Spiele spielen und die Spielfeldinformationen, geschätzten Züge und Belohnungen speichern und erst später auswerten. Das will ich ungerne machen, da ich das unintuitiv finde, da man ja bei jedem Zug lernt.
Chat-GPT will mir ständig eine learn-Methode aufdrücken, die die Backpropagation lediglich mit den Parametern "geschätzter Zug" und "Belohnung" machen will, ohne den Spielfeldzustand zu berücksichtigen. Das ergibt für mich keinen Sinn, da man ja Züge anhand des Spielfelds macht.

Eine für mich angepasste learn-Methode finde ich nicht, obwohl ich denke gelesen zu haben, dass mein Lernprinzip auch funktionieren soll.

Ich nutze Adam als optimizer.

Deswegen frage ich mich, ob ich einen Denkfehler habe und ob mein Algorithmus nicht funktionieren kann. Das ist mein erstes RL-Projekt, ich kenne mich also nicht aus.

Falls also jemand einen Denkfehler findet, wäre es nett mich darauf hinzuweisen :)

Wenn jemand eine learn-Methode mit den 3 Parametern kennt, wäre es nett sie mir zu teilen.

künstliche Intelligenz

Negative Argumente für Künstliche Intelligenz sind nicht gut genug?

Guten Abend meine Mitmenschen,
ich musste heute Leider die Erfahrung machen, das meine Negativ Argumente bezogen auf die Künstliche Intelligenz für den Englisch Unterricht nicht gut genug waren. Mir wurde gesagt das diese Argumente nicht stark genug sind bzw. das Example nicht "Real" sei, wie z.B. im zweiten Argument wo ich über das Beispiel von Siri und Alexa rede und diese eigentlich keine AI vorweise.

Hier die drei Negativ Argumente die ich vorgezeigt habe, als Referenz:

AI can hurt your data privacy, because the data could be misused for controlling what you see online or identity theft.
For Example smart speaker like your phone's microphone or alexa picking up a conversation about your interests and influence your decisions and purchases online, can turn the web into a constant stream of personalized marketing.
AI is increasing the laziness of humans, because of automating many tasks that previously required problem-solving and critical thinking. For Example chatbots like ChatGPT make it possible to solve the problem without even being in need to do a research inside the internet.
AI can effect people negatively, because systems often inherit biases from the data they are trained on, leading to discrimination. For Example hiring platforms that learn of historical data might replicate these biases and result in unfair treatment of job applicants.

Halten sollte ich mich beim schreiben der Negativ Argumente an das Schema
CLAIM
REASON
EXAMPLE
Womit ich demnach diese Argumente auch meinerseits eigentlich gut formulieren konnte, diese jedoch nicht gut genug sind.

Falls jemand eventuell Tipps, Verbesserungsvorschläge etc. haben sollte, empfange ich diese mit offenen Armen.

Mfg

Englisch lernen, Text, Abitur, Argumente, Englischunterricht, Grammatik, künstliche Intelligenz, comment

Meistgelesene Beiträge zum Thema Künstliche Intelligenz