9

Tic Tac Toe oyunu için Q değerlerinin nasıl güncelleneceğini anlayamadım. Tüm bunları okudum ama nasıl yapılacağını hayal edemedim. Q değerinin oyunun sonunu güncellediğini okudum, ancak her bir eylem için Q değeri varsa bunu anlamıyorum.Q Tic Tac Toe için Öğrenme Algoritması

cevap

6

Her bir durum eylem çifti için Q değeriniz vardır. Yaptığınız her işlemden sonra bir Q değerini güncellersiniz.

Q(s1, a1) = Q(s1, a1) + learning_rate * (r + discount_factor * max Q(s2, _) - Q(s1, a1)) 

böyle sen don' tic-tac-toe gibi birçok oyunlarda: devlet s1 gelen eylem a1 uygulayarak devlet s2 içine alır ve bazı ödül r getirirse şöyle Daha doğrusu, o zaman Q(s1, a1) güncellemek Oyunun sonuna kadar ödül al, bu yüzden algoritmayı birkaç bölümden geçirmelisin. Son devletlerin faydası hakkında bilgi diğer devletlere nasıl yayılır.

+0

Cevabınız için teşekkür ederiz . Ama tic tac toe için Q öğrenimini anlayamıyorum. Oyunun sonuna kadar ödül almadığını söylemiştin. Anladım. Bu makinenin ilk hareketi nasıl belirlediğini anlayamıyorum? Örneğin, ben "X" koydu ve makine "O" koydu.Makine, bu "O" kelimesinin nereye yerleştirileceğine nasıl karar verir, çünkü tam oyun için sadece bir Q değeri olduğunu anlıyorum. – bzkrtmurat

+1

Tic-tac-toe iki oyunculu bir oyun. Q-Learning kullanarak öğrenirken, öğrenirken karşı oynamak için bir rakibe ihtiyacınız var. Başka bir algoritma (örneğin Minimax) uygulamanız, kendinizi oynamanız veya başka bir takviye öğrenim aracını kullanmanız gerektiği anlamına gelir (aynı Q-öğrenme algoritması olabilir). –

+2

Belirli bir durumda hangi eylemin gerçekleştirileceğine karar vermek için bir ilkeye gereksiniminiz vardır. Q-Öğrenimi uygularken yaygın bir seçenek, arama ve sömürü arasındaki dengeyi göz önünde bulunduran epsilon-açgözlülüğü (çürüyen bir epsilon ile) kullanmaktır. –

2

Standart Q Öğrenme algoritması ile ilgili problem, sonuncusundan ilk hamle değerlerini yaymak için çok uzun sürmesidir, çünkü sadece oyunun sonucunu sonuna kadar bilirsiniz. Bu nedenle Q Öğrenme algoritması değiştirilmelidir. Aşağıdaki kağıt olası değişiklikler üzerinde bazı ayrıntılar veriyor: olmayan bir negatif ödül (beraberlik hariç) oyun sona erdikten sonra verilir

  1. ardından Q güncellemeleri (hiçbir şey değiştirir) her eylem adımında uygulanmadığı ancak nedeniyle de bakış rakip noktasını dikkate alır başka bir güncelleştirme formül zikredilen ilk hareket
  2. oyunun uç
  3. S güncellemeleri son hareket onun yeni bir değer çoğaltılmasıyla gerçekleştirilir sonra geriye İki Oyunculu Oyunun Dönüşü Doğası

Özet:

Bu makale Tic-tac-toe çalmayı öğrenmek Q Öğrenme algoritmasının uygulanması bizim deney bildirir. Orijinal algoritma, güncelleme işleminin ilk hareketten geriye doğru son hareketinden ve yeni bir güncelleme kuralı içeren Q değeri güncellendiğinde, Q değeri yalnızca ile değiştirilir. Ajan performansını tam tahta ve kısmi-board gösterimleri kullanarak değerlendiririz. Bu değerlendirmesinde, ajan, tic tac-toe oyunu insan oyuncularına karşı oynar. Değerlendirme sonuçları, kısmi-board gösterimi ile modifiye edilmiş Q Öğrenme algoritmasının performansının, insan oyuncularınkine karşılaştırılabilir olduğunu göstermektedir.

Learning to Play Tic-Tac-Toe (2009) by Dwi H. Widyantoro & Yus G. Vembrina

(Ne yazık ki paywall arkasında Ya IEEE arşive erişebilir veya ResearchGate bir kopya sağlamak için yazarları sorabilirsiniz:. https://www.researchgate.net/publication/251899151_Learning_to_play_Tic-tac-toe)

İlgili konular