PDF, MS Word, PPT gibi çeşitli formatlarda çeşitli belgelere sahip olduğum bir sorunum var. HDFS'da bulunan düz metin vb. İçeriği elasticsearch dizini içine almalı ve aynısı için bir tam metin arama sistemi oluşturmalıyım. ES-Hadoop hakkında okudum. Ama bu durumda ve ES-Hadoop gerçek zamanlı ya da değil (durumunda bunu kullanın) olup olmadığını ES'nin veya Apache Tika eklentisi mapper-ekleri kullanıp kullanamayacağını biraz karışık mıyım.Doküman çeşitliliği ile hadoop ile aranabilir arşiv için en iyi uygulamalar (pdf, ppt, MS word, düz metin vb.)
İçeriğin belgelerinden ES dizinlerine çıkarılması ve aranması için doğru yolun ne olacağını merak ediyorum.
Herhangi bir yardım için teşekkür ederiz. ile ilgili sorunuza İlişkin Sachin
Mapper ekleri eklentisinde kaynak olarak bir HDFS konumu (doc dosyasının saklandığı yer) kullanabilir miyiz? Dosyayı ES'de saklamak istemiyorum. Dosya, HD'de, yalnızca ES'de depolanacak metin içeriği ve meta verilerinde olmalıdır. – Sachin
Böyle bir seçeneği bildiğimden değil. Mapper eklenti eklentisi DSL, dosyalarınızı 64-Base kodlamanızı ve kodlanmış verileri ek alan alanınızın değeri olarak eklemenizi gerektirir. DSL için bir [link] (https://github.com/elastic/elasticsearch-mapper-attachments). Yine de belgelerinizin meta verilerini ek eklentisine yazıp daha sonra bunları sorgulayabilirsiniz. –