HDFS'mdeki iki metin belgesiyle arama yapmak için sorgular (Solr Admin) kullanıyorum. Nasıl kelimesi bulunan dokümanın adını alabilir. Bu projeyi https://github.com/lucidworks/hadoop-solrSolr-Kelimenin bulunduğu belgenin adını al Burada
Ben bin/solr -e cloud
kullanarak topluluğu oluşturma ve ben sunucu/Solr/configsets gelen "data_driven_schema_configs" kullanıyorum kullanıyorum/ dizini.
Ben ~/Solr-6.1.0/sunucu/Solr/configsets/data_driven_schema_configs/conf de yönetilen-şema iç <field name="fileName" type="string" indexed="true" stored="true" />
ekleyerek tryied ve ayrıca schema.xml için isim değiştirmek, ancak bunda dizinde <field column="file" name="fileName"/>
eklemek için herhangi bir dataConfig dosyası yok, benzer sorulara sahip başka yayınlarda görüyorum ama SolrCloud için değil, bu yüzden denediğimin doğru olup olmadığını bilmiyorum. Hangi değişiklikleri yaparsınız ve hangi dizinlerde, bunu yapabilmem için, yapmak zorundayım.
Örnek: Her iki belgede bulunan "en büyük" sözcüğünü arıyorum. Nasıl belge her sonuç olduğu görebilirsiniz sample1.txt veya sample2.txt IRC bu soruyu bahsettiğinde dedim
, yapamazsın. Dizin dosyalarını nasıl oluşturdunuz? Bu 'id' değerleri belgelerin gerçek metni gibi görünüyor ve uygun olmayan kimlikler değil. – MatsLindh
Bu projeyi kullanıyorum https://github.com/LucidWorks/hadoop-solr @MatsLindh –
Sormadan önce Solr temel bilgilerini okumaya başlamanız gerekir. @MatsLindh'in dediği gibi, ilk şey, 'id' alanı için uygun benzersiz kimlikler sağlamanızdır. Belgelerin asıl metni izinsiz bir metin alanına endekslenmelidir, bkz. [Solr Alan Türleri] (https://cwiki.apache.org/confluence/display/solr/Solr+Field+Types). Ayrıca, eşleşen belgelerin adını da istiyorsanız, neden belgelerin adını indekslemiyor ve saklıyorsunuz? – EricLavault