2017-11-10 4 views
6

NN'yi R'de sıfırdan ileriye doğru derin bir ilerleme yaptım ve "sert sigmoid" aktivasyonları ile daha kararlı görünüyor - max (0, min (1, x)) - ReLU'dan. TensorFlow'a aktarmaya çalışıp, bu etkinleştirme işlevinin yerleşik olmadıklarını fark ettiler, sadece 6'da bir üst kesme kullanan relu6, bunun için bir neden var mı? (Ben relu6 (x * 6)/6 yapabileceğinizi anlıyorum, ancak TF adamlar 6'yı iyi bir sebeple buraya koyarlarsa, bilmek isterim.) Ayrıca, başkalarının olup olmadığını bilmek isterim. İleriye doğru besleme ağlarında ReLU ile patlama problemleri var (RNN sorunlarının farkındayım).Neden relu6'da 6?

cevap

7

this reddit thread Gönderen:

Bu sabit nokta çıkarım için ağlar hazır yapımında yararlıdır. Üst sınırın bağlantısını kaldırırsanız, Q.f sayısının Q bölüm 'a çok fazla bit kaybedersiniz. 6 ile sınırlandırılmış kaidelerini kapsar tutulması 6'ya göre seçilmiş sadece keyfi bir değerdir, onları .f

Daha sonra, görünüyor için 4/5 bit bırakarak (8 kadar) 3 bit max atalım olacak Ağınızın eğitimli parametrelerini sıkıştırmak istediğiniz bit sayısı. "Neden" in sadece 6 değerine sahip versiyonu uygulandığını farzediyorum, bunun en iyi kullanım durumu olan 8 bitlik en iyi değere sahip olması. Aşağıdaki kağıda

+0

Stackoverflow'ta yeniyim, bu yüzden teşekkür etsem de emin değilim, ama yine de teşekkürler! – FaultyBagnose

+1

Eğer bu soruya cevap verirse, lütfen sorunu çözülmüş olarak işaretleyin :) – GPhilo

5

Tensorflows belgeleri (https://www.tensorflow.org/api_docs/python/tf/nn/relu6) puan:

... fonksiyonu y = dk eden relu aktivasyonu çok İlk olarak, 6., birimler kap (maks (x, 0 6). Testlerimizde, bu, önceki seyrek özellikleri öğrenmek için modeli teşvik eder. [8] 'in formülasyonunda, her bir ReLU ünitesinin, sonsuz bir miktardan sadece 6 çoğaltılmış bias-kaymalı Bernoulli ünitesinden, daha ziyade oluşmasından hayal ettiği eşdeğerdir. ReLU-n birimleri olarak n'de kapatılmış ReLU birimlerine değineceğiz.

http://www.cs.utoronto.ca/~kriz/conv-cifar10-aug2010.pdf

kağıt kaynaklandığı için

, onlar farklı n en ile test edilmiş ve n = 6 onların TestSet için en iyi sonuçları var sanıyorum.