2012-08-22 40 views
41

Gradient Descent'in ne yaptığını anlıyorum. Temel olarak eğriyi yavaşça aşağı doğru hareket ettirerek yerel optimal çözüme doğru ilerlemeye çalışır. Plan eğim inişi ve Newton'un yöntemi arasındaki gerçek farkın ne olduğunu anlamaya çalışıyorum.Gradient Descent ve Newton'un Gradient Descent arasındaki fark nedir?

Vikipedi'den bu kısa çizgiyi okudum "Newton'un yöntemi, daha doğrudan bir yol almak için eğrilik bilgilerini kullanır." Bu ne anlama geliyor?

+2

eğrilik, Newton'un yönteminin, fuction'in ikinci düzey türevini nasıl kullandığıyla ilgilidir. Gradyan iniş tipik olarak ilk sıradadır. – akk

+1

Bu dersi baştan sona seyredin: https://www.youtube.com/watch?v=sTCtkkqrY8A&index=15&list=PL3940DD956CDF0622 –

cevap

49

, hedef fonksiyon f türevi kaybolur: f'(x) = 0 (yeterli pürüzsüzlük varsayarak).

Degrade alçalma, f ilk türevinden elde edilen bilgileri kullanarak en az x bulmaya çalışır: Sadece geçerli noktadan en aşağı inişi izler. Bu, f grafiğindeki bir topun hareketsiz kalmasına (ataleti ihmal ederken) inişe geçmek gibidir.

Newton yöntemi (bu Newton'un kök bulma yöntemi olarak adlandırılır) explicitely bu işlevin kökü için çözme sonra doğrusal fonksiyonu g ile f' yaklaşmayı ve tarafından f'(x) = 0 tatmin bir noktaya x bulmaya çalışır. g'un kökü, mutlaka f''un köküdür, ancak pek çok durumda iyi bir tahmindir (Wikipedia article on Newton's method for root finding, yakınsama kriterleri hakkında daha fazla bilgiye sahiptir). Newton'un yöntemi, f''a yaklaşırken, f'' (f eğriliğinden) kullanır. Bu, f'un düzgünlüğü üzerinde daha yüksek gereksinimlere sahip olduğu anlamına gelir, ancak aynı zamanda (daha fazla bilgi kullanarak) genellikle daha hızlı bir şekilde birleştiği anlamına gelir.

+0

Her zaman 'en hızlı' seçiminden bahsederim iniş'. Bu ne anlama geliyor? Bu 'f' (x) 'nin en negatif sayısı mı? –

+0

@Chowza: Alan adınız çok boyutluysa, ör. Eğer f, 2B noktaları gerçek sayılarla eşlerse, herhangi bir noktada "f" nin gradyanı bir skaler sayı değil, bir vektördür. Nedeni bu noktada "f" nin "dik" inin, baktığınız yöne bağlı olmasıdır. Dağın tepesinde durmak gibidir: Eğer kuzeye bakarsanız, dağ çok keskin bir şekilde düşebilir. kenarları daha az dik olabilir. Bu nedenle en dik inişin seçilmesi, hedef işlevinizde en büyük değişikliğe neden olan yönü seçmek anlamına gelir. –

4

Düzenleme 2017: Orijinal bağlantı öldü - ama yolu hala var :) geri makinesi https://web.archive.org/web/20151122203025/http://www.cs.colostate.edu/~anderson/cs545/Lectures/week6day2/week6day2.pdf

bu güç noktası ana fikirler Ben bu yardımı umut basitçe

http://www.cs.colostate.edu/~anderson/cs545/Lectures/week6day2/week6day2.pdf açıklanmıştır: yerel minimum (veya maksimum) x de)

+0

Bağlantı – CpCd0y

+0

@ CpCd0y bağlantısı güncellendi :) – MimiEAM

8

Basitçe, gradyan kökenli, sıfırı düşündüğünüz yere doğru küçük bir adım atıp sonra yeniden hesaplayın; Newton'un yöntemi, oraya kadar gidiyorsun.

+0

İkinci dereceden bir işlev için "tüm yol" geçerli mi? – bers

+1

Evet, ikinci dereceden olmayan işlevler için, yalnızca birinci türevi bir satıra yaklaştırıyorsunuz. Bu biraz el dalgası ama sezgiler için iyi olduğunu düşünüyorum. – dashnick

+0

Tamam, katılıyorum. "Sıfırın * nerede olduğunu düşünüyorsan" ın tam yolu şüphesiz doğrudur. – bers

İlgili konular