kullanırken theano ile sinir ağları için degradeler nasıl hesaplanır Q-Learning'deki işlem değerlerinin temeli olarak standart tam bağlantılı bir sinir ağı kullanmaya çalışıyorum. Bir referans olarak, özellikle bu hat http://deeplearning.net/tutorial/mlp.html#mlp kullanıyorum:Q-Learning
gparams = [T.grad(cost, param) for param in classifier.params]
I (http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node65.html tarif edildiği gibi) S-Öğrenim ilke kontrol yöntemi kullanılarak son işlemle ilişkili zaman çıkış birimi için hatayı hesaplamak için istiyorum ve ayarlamak diğer çıkış hataları sıfır.
Theano'nun grad işlevini kullanarak hataları yapay sinir ağının geri kalanına yaymak için nasıl kullanabilirim?
Denetimli öğrenmeyle birlikte takviye öğrenimi uygulama konusunda deneyimim yok; fakat q-öğrenme öğelerinizi Theano ifadeleriyle tanımlayabilir ve bunları hesaplamalı grafiğin bir parçası haline getirebilirseniz, hataları normal şekilde (örn. T.grad (..) kullanarak) geriye aktarabilirsiniz. Bu biraz alakalı olabilir: https://github.com/spragunr/deep_q_rl – uyaseen
Evet, bu projeyi gördüm ve referans olarak kullanıyorum. Sadece seçilen eylemi kullanarak bir kayıp hesaplarsam, grad işlevi zaten benim için iş yapar gibi görünüyor. – Mouscellaneous