2012-05-05 14 views

cevap

12

tf terimi frekansı olan IDF bu bölüm bir logaritmalama sonra terimi içeren dokümanların sayısına göre belgelerin toplam sayısına bölünmesi ve elde edilen ters belge frekansıdır. frekansları kök sözcükleri kullanılarak hesaplanır, çünkü bu gruplama için bu sapın geçtiği artırır: (.., oynanan bir oyun eski)

aynı köke türetilen tüm kelimeleri gruplandırma etkisinden kaynaklanan Örneğin, 2 dokümanınız varsa: , birincisi 'play' 2 kez oynatılır ve 'play' 5 kez, ve ikinci belge 'play' 3 kez içerir ve 'play' 1 kez ' 'ikinci oyun' kelimesini oynatmadan 'ilk önce' play 'kelimesinin daha fazla oluşu söz konusudur, eğer siz bunu yaparsanız, eğer her iki kelime de kaynaklanıyorsa, her iki kelime de' play 'olacaktır ve ilk belge ilk olarak sapını içerecektir. oynamak 7 kez ve ikinci belge kök 4 kez oynamak içerir.

Durmaların kaldırılmasıyla ilgili olarak, genellikle tüm belgelerde bulunur ve bunlardan herhangi biri için bir anahtar sözcük olarak düşünülmez, herhangi bir sahne olmadan yüksek frekansa sahip olur.

İlgili konular