2010-11-25 21 views
13

TREC_EVAL kullanan herhangi bir vücut var mı? "Aptallar için bir Trec_EVAL" ye ihtiyacım var. trec_eval kullanarak bir arama/geri alma motoru nasıl değerlendirilir?

benim tez çalışmaları için kaliteli, vb sıralaması, Hatırlama-Hassas gibi parametreleri karşılaştırmak için birkaç arama motorları değerlendirmek için çalışıyorum. TREC_EVAL'i arama motoruna sorgular göndermek ve TREC_EVAL ile kullanılabilecek bir sonuç dosyası almak için kullanmıyorum.

+0

Bu konuyla ilgileniyor musunuz? – shellter

+0

İlişkili olmayan bir şüphe var, ikili olmayan ilişki etiketlerinin nasıl ele alınacağı? – Shashank

cevap

16

Temelde, trec_eval için bir (insan oluşturulur) zemin gerçeği gerekir. Sorgu numarası nedenle bir sorgu tanımlayan

query-number 0 document-id relevance 

101Categories (wikipedia entry) gibi bir koleksiyonu verilmiş

Q1046 0 PNGImages/dolphin/image_0041.png 0 
Q1046 0 PNGImages/airplanes/image_0671.png 128 
Q1046 0 PNGImages/crab/image_0048.png 0 

gibi bir şey olurdu bir den (örneğin bir resim: Bu özel bir biçimde olmak zorunda benzerleri bulmak için belirli kategoriler). Arama motorundan sonra sonuçlar

query-number Q0 document-id rank score Exp 

gibi veya gerçeklik açıklanan here olarak

Q1046 0 PNGImages/airplanes/image_0671.png 1 1 srfiletop10 
Q1046 0 PNGImages/airplanes/image_0489.png 2 0.974935 srfiletop10 
Q1046 0 PNGImages/airplanes/image_0686.png 3 0.974023 srfiletop10 

bakmak için taşınmak üzere gelmiştir. "Document-id" için yol adlarını ayarlamanız gerekebilir. Daha sonra standart metriklerini hesaplayabilirsiniz. Teziniz için gerekli ölçümleri kullanmak için doğru parametreleri seçmeniz için size bazı fikirler vermelidir ( ).

trec_eval bunları kendiniz hazırlamak zorunda herhangi sorguları göndermez. trec_eval sadece analizde bir karara vuruyor ve sonuçlarınızı veriyor.

Bazı temel bilgiler

here ve here bulunabilir.

+0

Merhaba @mbx, Yukarıdaki 'skor' sütunundaki sayıları nasıl hesapladınız? (diyor: 1, 0.974935, 0.974023). Onlar satırın sonuç dokümanı ve doğru ilgili belge arasındaki dereceleri temsil ettiklerini okudum ama bu sayılara nasıl ulaşacağını bulamıyorum ('1' hariç -% 100 doğrulukta olduğunu varsayalım). İlk sayı iirc –

+0

@NoonTime (topX arasında) çıktıda pozisyondur ve ikinci "girişinizi 1 ise bu çıkış alıyor ne kadar yakın" cevabın sıralamasında ise - yani tamamen istediğiniz algoritma bağlıdır ölçün. – mbx

+0

ok teşekkürler @mbx, ancak matematiksel olarak, bu 0,974935 numarasını nasıl aldın? {Last_position - 1} 'dan türetildiğini biliyorum, elde edilen sonuçların toplam sayısına böler ve bu kesiri mi kullanıyorsunuz? 100 sonuca sahip olsaydınız, ikinci sıradaki (ikinci sonuç) skor 100 (100-1)/100 olur. –

İlgili konular