2009-07-15 26 views
8

Bölme işlevi olarak mutual information gain kullanarak bir ikili sınıflandırma ağacı yapıyorum. Ancak, eğitim verisi birkaç sınıfa doğru eğildiğinden, her bir eğitim örneğinin ters sınıf frekansı ile ağırlıklandırılması tavsiye edilir.Ağırlıklı Karar Ağaçları Entropy

Eğitim verilerini nasıl ağırlıklandırırım? Entropiyi tahmin etmek için olasılıkları hesaplarken, ağırlıklı ortalamaları mı alacağım?

DÜZENLEME: Ağırlıklarla entropi için bir ifade istiyorum.

+0

Ters sınıf frekansınız, ağırlık faktörünüz değil mi? –

+0

Evet, soruda belirtildiği gibi, "her eğitim örneğini ters sınıf frekansı ile ölçmek tavsiye edilir." – Jacob

+0

Zaten Wiki bilgilerini bildiğini sanıyorum. Peki, hangi problemi çözmeye çalışıyorsun? –

cevap

4

Belirtilen Wikipedia makalesi ağırlıklandırmaya gider. Şöyle ki: mukabil olasılık p ağırlıklı

ağırlıklı varyantları karşılıklı bilgi geleneksel formülasyonda
,

alt text

her olay ya da (x, y) ile belirtilen bir nesne (x, y). Bu, tüm nesnelerin veya olayların meydana gelme olasılıklarından ayrı olduğunu varsayar. Bununla birlikte, bazı uygulamalarda, belirli nesnelerin veya olayların diğerlerinden daha önemli olduğu veya belirli ilişki kalıplarının diğerlerinden daha anlamlı olduğu önemli olabilir. Örneğin, deterministik haritalama {(1,1), (2,2), (3,3)}, deterministik haritalamadan (bazı standartlara göre) daha güçlü olarak görülebilir {(1,3), (2,1), (3,2)}, bu ilişkiler aynı karşılıklı bilgiyi vermesine rağmen. Bunun nedeni, karşılıklı bilginin değişken değerlerde herhangi bir içsel sıralamaya (Cronbach 1954, Coombs & Dawes 1970, Lockhead 1970) duyarlı olmamasıdır ve bu nedenle ilişkili değişkenler arasındaki ilişkisel haritalama biçimine hiçbir şekilde duyarlı değildir. . Tüm değişken değerler üzerinde anlaşmayı gösteren - - eski ilişki olduğunu isteniyorsa sonraki ilişki daha güçlü değerlendirilecektir, o zaman aşağıdaki ağırlıklı karşılıklı bilgileri kullanmayı (1977 Guiasu)

alt text

yerler mümkündür her bir değişken değer birlikte oluşma olasılığı için bir w (x, y) ağırlığı, p (x, y). Bu, belirli olasılıkların, diğerlerinden daha fazla veya daha az önem taşımasına izin verir, böylece ilgili bütünsel veya prägnanz faktörlerinin nicelleştirilmesine izin verir. Yukarıdaki örnekte, w (1,1), w (2,2) ve w (3,3) için daha büyük bağıl ağırlıkların kullanılması, ilişki için daha büyük bir bilişselliğin değerlendirilmesi etkisine sahip olacaktır ((1,1), (2,2), (3,3)}, örüntü tanıma bazı durumlarda ve benzerlerinde arzu edilen {(1,3), (2,1), (3,2)} ilişkisinden daha fazladır. yatırım riskinin bir ölçüsü olarak

http://en.wikipedia.org/wiki/Mutual_information#Weighted_variants

+0

Evet, bunu anladım. Ağırlıklı entropi versiyonunu umuyordum. Karşılıklı bilgilere benzer bir skor hesaplamak için çeşitli entropi tahminleri kullanıyorum. – Jacob