Kullanıcıların .doc ve .pdf biçiminde belgeleri karşıya yükledikleri bir web sitem var. SQL veritabanım (MySQL) üzerinde tam metin arama yapmak için Sphinx kullanıyorum. Bu dosya formatlarını Sphinx ile dizine eklemenin en iyi yolu nedir?Word Belgelerini ve PDF'leri Sphinx ile İndeksleme
10
A
cevap
6
Maalesef Sfenks endeksleyemez bu dosya türünü doğrudan. Metin içeriklerini bir veritabanına veya an XML format that Sphinx can understand içine almanız gerekir.
9
Bunun için kullandığım yöntem pdf2text ve antiword. Bunların her ikisini de pdfs ve word belgelerinin içeriğini veritabanına dökmek için kullanıyorum. Oradan Sfenks ile gezinmek kolay.
+0
Sizin gibi benim için de aynı yöntemi kullanıyorum. – Johny
1
kimse çok SOLR eklentisi gibi, dizine diğer belge türlerine Tika kullanılan etti mi? Apache Tika
bazı bağlantılar:
İlgili konular
- 1. Microsoft Word belgelerini TortoiseSVN ile birleştirin
- 2. Bir kaynak dosya değiştiğinde Sphinx belgelerini otomatik olarak oluştur
- 3. Delta İndeksleme - İşler
- 4. Sphinx ile Karmaşık Sorgu
- 5. mysql kısmi indeksleme, ters indeksleme
- 6. Sphinx Public API belgeleri
- 7. Sphinx autodoc'tan yeniden yapılandırıldı
- 8. İndeksleme için Solr'u kullanma ve Mongodb ve nodejs ile arama
- 9. UIWebView, Word office belgesi ve sayfa numaralandırma
- 10. python-sphinx
- 11. Sayısal olarak indeksleme (max/argmax ile ilgili)
- 12. Python'un web sitesi çevrimiçi belgelerini nasıl oluşturur?
- 13. Eşanlamlı Arama Sphinx Kullanarak Ara
- 14. word-word eşzamanlılık matrisi
- 15. Açısal seo hashPrefix ('!') Google ve yandex indeksleme
- 16. tensorflow indeksleme işini
- 17. Windows'da Sphinx ile PDF belgeleri nasıl oluşturulur
- 18. XeLaTeX kurucusu Sphinx ile kullanılabilir mi?
- 19. MySql TEXT sütununu indeksleme?
- 20. Sorun indeksleme Keystonejs
- 21. Sphinx - Python modülleri, sınıfları ve işlevleri Dökümantasyon
- 22. numpy: boolean indeksleme ve bellek kullanımı
- 23. app indeksleme google arama
- 24. XML elementtree indeksleme etiketleri
- 25. Sphinx belgelerini kullanma Lateks/PDF yapıları için HTML yapıları ve pdf görüntü formatları için png görüntü formatlarını nasıl belirleyebilirim?
- 26. Xcode'ta indeksleme nasıl etkinleştirilir?
- 27. Matlab birden indeksleme
- 28. Pandalar indeksleme karışıklığı
- 29. Jsdom belgelerini nerede bulabilirim?
- 30. Upshot.js örneklerini ve belgelerini nerede bulabilirim?
, üzerinde başka bir yöntemi tavsiye eder misiniz? –
Kullandığınız sunucu tarafı diline göre değişir. Ruby/Rails ise, sıfırdan bir sistem oluşturmuyorsanız (ActiveRecord'u kullanmak yerine) tüm kitaplıkların XML'yi desteklemediğini biliyorum. Bu yüzden veritabanını kullanırdım. Aksi takdirde, tamamen size kalmış. Ruby'yi kullanmıyorsanız, dil seçiminiz için kütüphanelerin neler olduğuna bakın, neler yapabileceklerini/yapamayacağınızı görün. – pat