2012-11-27 29 views
6

Apache Solr'da arapça PDF'leri araştırmaya çalışıyorum. Sorun, Tika'nın PDF'yi (Sağdan sola) yerine ters sırada (Soldan sağa) endekslediğidir. Burada bu sorun hakkındaArapça PDF için Solr

buldum referanslar: Ancak

, ben PDFBOX veya en son sürümünü içerecek şekilde nasıl bilmiyorum ICU4J benim apache solrumda. Benim Apache Solr Contrib/extraction/lib klasöründe pdfbox-1.6.0.jar ve icu4j-4.8.1.1.jar bulunur. Söz konusu dosyaların silinmesi ve bunların proje sayfalarından en son kütüphanelerle değiştirilmesi TİKA'nın bunları kullanmaya zorlamak için tatmin edici olacak mı?

Lütfen daha önce Java servlet ile ilgili daha önceki bir deneyime sahip olmadığımı açıklayınız. Teşekkürler!

cevap

0

Sorunuzdaki etiketlerden Apache Solr arabirimini kullanmak için Drupal kullandığınızı varsayalım. Tika, ikili belgeler gönderdiğinizde Solr içinden çalışabilir veya belgeleri Solr'a göndermeden önce kullanabilirsiniz. Drupal Solr Eklentileri modülünün "Tika (yerel java uygulaması)" için bir ayarı vardır. Sağladığınız ikinci bağlantıda, Solr Ekleri modülünü, Solta'ya göndermeden önce ikili dosyaları ayrıştırmak için Tika yerine PDFBox kullanacak şekilde yamalı. Drupal kullanmıyorsanız benzer bir yaklaşım denemelisiniz.