2013-05-10 17 views
5

mahout içinde IRStatisticsImpl verilerini nasıl yorumlanacağı:i <code>IRStatisticsImpl</code> veri okumak ama bazı sorunlar var istiyorum

benim sonucudur:

IRStatisticsImpl[precision:0.04285714285714287,recall:0.04275534441805227,fallOut:0.0018668022652391654,nDCG:0.04447353132522083,reach:0.997624703087886] 

o ben iyi önerilerin sadece% 4 aldık, demek gelmez (hassas) ve aynı seviyede kötü öneri (hatırlama)?

Sayılar en iyi şekilde nasıl görünmelidir - 1.0'da hassasiyet ve 0.0'da geri çağırma?

cevap

2

Eh, tanımı gereği:

Hassas sizin sonuç kümesindeki doğru kaç sonuç temsil eder. Geri Çağırma, bir test kümesindeki doğru elemanın bir sonuç kümesinde doğru olarak seçilip seçilmesi olasılığını temsil eder.

olmak için Mükemmel Hassasiyet ve Geri Çağırma her ikisi de% 100 olmalıdır. Bu değerler hakkında iyi sonuçlar ve kriterler alanınıza göre değerlendirilmelidir.

Örneğin, iyi ve kötü mantar içeren bir kovaya sahipseniz, hatırlama ne kadar düşük olursa olsun, hassasiyet için% 100 hedeflemeniz gerekir. Hassasiyet sağlığınız için kritik olduğundan, çok iyi mantarlar bile bırakabilirsiniz. Önemli olan, çirkin olanları değil yemek. İyi bir mantar seçebilirsin ve böylece% 100 hassasiyete sahip olursun, ama kovada dört iyi mantar varsa, hatırlaman% 25. İdeal olarak eğer doğruluk ve geri çağırma% 100 ise, sonuçta tüm mantarlarınızın iyi ve da olduğu anlamına gelir, tüm iyi mantarlar sizin sonuç kümenizdedir ve hiçbiri test setinizde yer almaz.

Değerler farklı anlamlara sahip olabilir.

Ne yazık ki sonuçlarınız çok çirkin görünüyor, çünkü birçok yanlış pozitif ve çok fazla yanlış negatifiniz var.

Bir göz atın here.

+0

, "fallOut" ve "nDCG" sayıları nasıl görünür? 1.0 veya 0.0 olmalılar mı? – ulkas

+0

tanımına göre fallOut, "İlgili olmayan tüm belgelerin dışında bulunan, ilgili olmayan belgelerin oranı:" http://en.wikipedia.org/wiki/Information_retrieval#Fall-out Bildiğim kadarıyla, Mümkün olan en düşük düzeyde olmalı, ancak alan adınızı değerlendirebilmeniz için% 0 almanız da önemlidir. NDCG hakkında – gpicchiarelli

+0

, "İndirgenmiş Kümülatif Kazanç" anlamına gelen DCG'nin normalleştirilmiş bir sürümüdür. Kesin olmak için, buraya bir göz atın http://en.wikipedia.org/wiki/Discounted_cumulative_gain – gpicchiarelli

İlgili konular