2014-04-02 26 views
13

ε-hırslı ilke

Q'nun öğrenme algoritması keşif ve istismar arasında denge çalışmalıdır biliyoruz. Bu alanda yeni başladığımdan beri, keşif/sömürü davranışının basit bir versiyonunu uygulamak istedim.optimal epsilon (ε-hırslı) değeri

Optimal epsilon değeri

Benim uygulama ε-açgözlü politikasını kullanır, ancak epsilon değerini karar geldiğinde bir kayıp değilim. Epsilon, algoritmanın belirli bir (durum, eylem) çiftini ziyaret ettiği sayıda mı yoksa gerçekleştirilen iterasyonların sayısıyla mı sınırlandırılmalı?

My önerileri:
  1. alt belirli bir (durum, eylem) çift karşılaşıldı her zaman için epsilon değer.
  2. Tam bir yineleme gerçekleştirildikten sonra epsilon değerini azaltın.
  3. Bir durumla karşılaştığımız her seferinde epsilon değerini azaltın.

Çok beğenildi!

+0

Bu şekilde herhangi bir ilerleme kaydettiniz mi? Farklı önerilerinizi denediniz ve kabul edilen cevapla karşılaştırdınız mı? Pozitif sabit epsilon ve çürüyen epsilon ile deneyler yaptım ve kabul edilebilir sonuçlar aldım, ama mevcut (devlet, eylem) çiftinin ziyaret sayısının fonksiyonu olarak epsilon'a sahip olmanın daha iyi bir sonuç vermeyeceğini merak ediyorum. . Ajan, birkaç kez ziyaret ettiğinde (eyalet, eylem) bir çifti göz önüne alırken epsilon'un sadece çürümesi için mantıklıdır. –

+0

Evet, "Pişmanlık en aza indirmeyi" de denedim. Bu, yakınsama oranını hızlandırır, ancak her zaman en iyi çözümü bulamamak pahasına. Gerçekten büyük sorunlu durumlarda, pişmanlık en aza indirgeme yaklaşımını tercih etme eğilimindeyim çünkü bu, aramayı daha iyi çözümlere doğru hızlı bir şekilde yönlendiriyor – OccamsMan

cevap

16

Birçok basit durumda, 0k, 0 ve 1 aralığında sabit bir sayı olarak tutulmuş olsa da, şunu bilmelisiniz: Genellikle, keşif zamanla azalır, böylece kullanılan politika asimptotik bir şekilde olur ve dolayısıyla (Qk olarak kullanılır) → Q ∗) optimal. Bu, k büyürken approachk yaklaşımı 0 yaparak elde edilebilir. Örneğin, εk = 1/k şeklindeki ε -dinekli bir keşif çizelgesi, k-∞ olarak 0'a düşerken, Q-öğrenmenin ikinci yakınsama koşulunu yerine getirirken, diğer bir deyişle, tüm devlet eylemlerine sonsuz sayıda ziyaret yapılmasına izin verirken. çiftler (Singh ve arkadaşları, 2000).

Genelde şu anlama gelir: ilk alfa = 1/k değerini ayarlar (ilk k = 1 veya 2'yi düşünün) deneme sürümünden sonra deneme sürümüne gittikten sonra alfa azalır. , aynı zamanda yakınsama garantili tutar.

+3

Ayrıca epsilon-bozunma olarak da bilinir. – danelliottster

0

Bunun için iyi bir nedeniniz yoksa, ε'yi pozitif bir sabite ayarlamak genellikle akıllıca olur.

+0

Ampirik olarak: Q değeri tablosu gerçek geçiş tablolarına yaklaştıkça, aracının araştırmayı kabul etmesi daha az olası mıdır? Örnek: Bir oyun ajanı, zayıf hareketleri (keşif) oynamaya devam etmek yerine ortaya çıkan mükemmel stratejisini tercih etmelidir. – OccamsMan