0

PDF, MS Word, PPT gibi çeşitli formatlarda çeşitli belgelere sahip olduğum bir sorunum var. HDFS'da bulunan düz metin vb. İçeriği elasticsearch dizini içine almalı ve aynısı için bir tam metin arama sistemi oluşturmalıyım. ES-Hadoop hakkında okudum. Ama bu durumda ve ES-Hadoop gerçek zamanlı ya da değil (durumunda bunu kullanın) olup olmadığını ES'nin veya Apache Tika eklentisi mapper-ekleri kullanıp kullanamayacağını biraz karışık mıyım.Doküman çeşitliliği ile hadoop ile aranabilir arşiv için en iyi uygulamalar (pdf, ppt, MS word, düz metin vb.)

İçeriğin belgelerinden ES dizinlerine çıkarılması ve aranması için doğru yolun ne olacağını merak ediyorum.

Herhangi bir yardım için teşekkür ederiz. ile ilgili sorunuza İlişkin Sachin

cevap

1

ES mapper eki eklenti veya Apache Tika kullanarak ister. Mapper eklentisini Elasticsearch ile iyi bir şekilde bütünleştirdiğinizden kullanmanızı ve indeksleme yaptığınız belgelere çok fazla ek indeksleme ve meta bilgi ekleyebilmenizi tavsiye ederim.

Bildiğim kadarıyla, ES-Hadoop akış (gerçek zamanlı) API'lerini göstermez. ES-Hadoop ve Apache Spark ile çalışıyorum ve Apache Kafka'yı kullanarak kendimce Elasticsearch'e akış verisi türünü uygulamak zorunda kaldım.

Bu yardımcı olur umarım.

+0

Mapper ekleri eklentisinde kaynak olarak bir HDFS konumu (doc dosyasının saklandığı yer) kullanabilir miyiz? Dosyayı ES'de saklamak istemiyorum. Dosya, HD'de, yalnızca ES'de depolanacak metin içeriği ve meta verilerinde olmalıdır. – Sachin

+0

Böyle bir seçeneği bildiğimden değil. Mapper eklenti eklentisi DSL, dosyalarınızı 64-Base kodlamanızı ve kodlanmış verileri ek alan alanınızın değeri olarak eklemenizi gerektirir. DSL için bir [link] (https://github.com/elastic/elasticsearch-mapper-attachments). Yine de belgelerinizin meta verilerini ek eklentisine yazıp daha sonra bunları sorgulayabilirsiniz. –

İlgili konular