Frage von Kathi959, 5

Q-Learning Aufgabe aus Klausur für künstliche Intelligenz. Wie berechnet man das?

Hallo, anbei eine Aufgabe aus einer Prüfung für KI. Die Formel, die ich habe zur Lösugn ist Q(state,action)= reward(state,action) + gamma * Max[Q(next state, all actions]. Dabei komm ich beim Ergebnis auf Q(s_0,a_1) auf 1/2 und bei Q(s_0,a_2) auf 1/4. Mir wurde jedoch ohne weitere Erklärung gesagt, dass das Ergebnis 1/2 und 3/8 sei. Ich weiß nicht, wie man auf die 3/8 kommt. Bin für jede Hilfe dankbar!

Antwort
von kreisfoermig, 1

Ich komme auf

Q'(s,a) = R(s,a) + γ·∑ ℙ[s'|(s,a)]·Q(s',a)

Das Max ist also eine falsche Anwendung (du denkst wahrscheinlich an normales Q-Learning, aber hier ist das Markow'sches Q-Learning). Also hat man die Matrixgleichung

(I – γ·T) Q(·,a) = R(·,a)

wobei T die Matrix ist mit T(i,j) = ℙ[j | (i,a)]. Das kann man nun nach Q(·,a) lösen für gegeben Actions a ∈ A.

Keine passende Antwort gefunden?

Fragen Sie die Community