2016-05-09 18 views
5

Bir sorgu için tf-idf nasıl hesaplanır? Belgede belge/toplam deyişleBir sorgunun TF-IDF'sini nasıl hesaplarım?

tf = KADINKIZ

idf = log (#documents/#documents: Aşağıdaki tanımlarla belgelerin kümesi için tf-IDF hesaplamak için anlamak terimi

meydana Ama nerede o sorgularına ilişkilendirir anlamıyorum.

Örneğin için 1.363.210

, bir sorguda "life learning"

yaşam değerlerini ifade a resource okumak | tf = .5 | idf = 1.405507153 | tf_idf = 0.702753576
Öğrenme | tf = .5 | idf = 1.405507153 | tf_idf = 0,702753576

anlıyorum tf değerleri her terim böylece 1/2 iki olası terimlerin, dışarı sadece bir kez görünür, Ama idf gelen hiçbir fikrim yok.
#documents = 1 ve event = 1, log (1) = 0, idf 0 olurdu, ama bu durum böyle görünmüyor. Kullandığınız dokümanlara dayanıyor mu? Bir sorgu için tf-idf'i nasıl hesaplarsınız? (Hayat)

cevap

2

Sadece tf sorguda kendisine bağlıdır. Ancak, bir sorgunun idg'si arka plan belgelerine bağlıdır, bu nedenle idf (life) = 1+ ln (3/2) ~ = 1.405507153. Bu nedenle tf-idf, bir yerel bileşeni (terim frekansı) global bir bileşenle (ters belge frekansı) çarparak tanımlanır.

0

Sorgunuzla varsayalım toplam kelime araba, iyi, otomatik, sigorta içeriyorsa ve N=1,000,000 belgeleri, iyi araba sigortası olduğunu.

enter image description here

Ve Belgeniz olabilir biri: Yani sorgu şey aşağıda gibidir

enter image description here

Şimdi Query ve Document senin içinde TF-IDF arasında kosinüs benzerliği hesaplayın.

İlgili konular