2015-05-07 19 views
5

Büyük Veri'yi yeni öğrenmeye başladım ve şu anda Flume üzerinde çalışıyorum. Karşılaştığım yaygın örnek, bazı Java'ları kullanarak tweet'leri (Cloudera'dan örnek) işlemek içindir.Yerel dosya sistemini Flume kaynağı olarak kullanma

Sadece test ve simülasyon amaçlı olarak yerel dosya sistemimi bir Flume kaynağı olarak kullanabilir miyim? özellikle, bazı Excel veya CSV dosyaları? Aynı zamanda Twitter ekstraksiyonunda olduğu gibi Flume yapılandırma dosyasından başka bir Java kodu kullanmam gerekir mi?

Bu kaynak olay odaklı mı yoksa pollable mı olacak?

Girişiniz için teşekkürler.

+0

Özel bir kaynak kaynağı yapabileceğinizi varsayalım. Yerel dosya sistemi için zaten var mı bilmiyorum – fdsa

cevap

4

Bir cloudera sanal alan kullandığını ve başlangıçta planlamayı düşündüğünüz kanalizasyon aracına sanal alandaki bir dosyayı yerleştirmeyi düşündüğünüzü farz ediyorum. Kanal Lavabo

Bu kanalet ajana yerel oturmalı

Kaynak: Bir kanalet ajan içerir. Kullanılabilir kanal kaynaklarının listesi kullanım kılavuzunda: https://flume.apache.org/FlumeUserGuide.html. Sadece kuyruk veya kedi komutları içeren bir dosyadan veri akışı yapmak istiyorsanız bir Exec kaynağı kullanabilirsiniz. Ayrıca bir biriktirme dizini kaynağı kullanabilirsiniz, yeni dosyalar için belirtilen dizini izler ve yeni dosyaların ortaya çıktığı gibi dosyaları ayrıştırır. Kullanıcı kılavuzunu iyi okudunuz. İhtiyacınız olan her şeyi içerir.

İlgili konular