2016-04-09 27 views
0

"weather.arff" veri kümesiyle WEKA kullanıyorum ve verilen snapshot'ta görebildiğiniz gibi Naive-Bayes sınıflandırıcısını 10 kat çapraz doğrulama ile uyguladım. Resimde kırmızı olarak işaretlediğim şeyler dışında hemen hemen her şeyi anlıyorum.Bu çıktının tam olarak ne söylediğini bana açıklayan var mı?

Hepsi bir arada 9(Yes)+ 5(No) = 14 var ama burada bu toplamlar toplamı aştı. Ve bu yes(0.63) ve No(0.38) ne anlama geliyor? 10 kat CV'den sonra sınıflandırıcının performansı ile ilgili mi?

outlook 
    sunny    3.0  4.0 
    overcast   5.0  1.0 
    rainy    4.0  3.0 
    [total]   12.0  8.0 

Bu toplam buraya 20.0, ama biz 14 örneğini? bunların her biri Güneşli, Bulutlu ve yağmurlu Evet ve Hayır? Nereden geldi?

Bu ağırlıklı toplam nedir? Nasıl hesaplanır ve bu NB ile nasıl ilgilidir?

Click Here to see the picture

cevap

0

Sorunun cevabını buldum. Bu problem "Sıfır Frekans Problemi" ve WEKA'nın yaptığı gibi her bir özellik değerine 1 ekliyor. Bunun nedeni 0 olasılıktan kaçınmaktır. Aksi takdirde, olasılıkları çoğaltırken, tüm olasılık 0 olacaktır. Aslında, sıfır olasılık olması durumunda, dava hakkında yeni bir bilgi çıkmamaktadır. Ayrıca, bir dizi "Çapraz Doğrulama" iterasyonu veya CV performans tahmini ile de yapmak zorunda değildir.

outlook    Yes   No 
    sunny    (2+1)=3.0  (3+1)=4.0 
    overcast   (4+1)=5.0  (0+1)=1.0 
    rainy    (3+1)=4.0  (2+1)=3.0 
    [total]    12.0   8.0 

Gerçek örnekleri = 9 + 5 = 14

Diğer bir önemli husus WEKA Bulutlu, sıcaklık, nem ve Windy bu durumda, tüm özelliklerine bu yapmasıdır.

0

90% eğitim veri ve% 10 test verileri bölünmüş verileri rastgele seçilen 10 grup vardır Cross Validation in Weka

10 kat çapraz doğrulama bir açıklaması vardır. Çalışması gereken 14 satırlık verilerle, eğitim için 12 satır ve test için 2 satır alması olasıdır. 10 testin tamamlanmasından sonra 20 sonuç çıkacaktır. Bu görünümle ilgili veriler için mantıklı, ancak rüzgarlı için toplam 18, bu teori söz konusu hale getiriyor.

Resmin üst kısmında yer alan 0,63 ve 0,38 değerleri, evet değerinin yüzdesini ve 10 testin yanıtını temsil etmediğini düşünüyorum.

İlgili konular