2011-01-04 19 views
8


Birden çok dizinde bulunan sıkıştırılmış gz biçiminde birden fazla (her biri 2-3 MB'lık) dosyamın olduğu bir durum var. Örnek için
A1/B1/C1/yarı 0000.gz
A2/B2/C2/yarı 0000.gz
A1/B1/C1/yarı 0001.gzBirden çok klasörden giriş dosyaları alma Hadoop işi

tüm beslemek için bu dosyaları bir Harita işine dönüştürür. Gördüğüm kadarıyla, MultipleFileInputFormat kullanmak için tüm giriş dosyalarının aynı dizinde olması gerekir. Birden fazla dizini doğrudan işe sokmak mümkün mü?
Aksi takdirde, bu dosyaları çakışmalara ad vermeksizin bir dizine etkin bir şekilde koymak veya bu dosyaları 1 adet tek sıkıştırılmış gz dosyasına birleştirmek mümkün olur.
Not: Mapper'ı uygulamak ve Pig veya hadoop akışı kullanmamak için sade java kullanıyorum.

Yukarıdaki konularla ilgili herhangi bir yardım derinden takdir edilecektir.
sayesinde
Ankit

cevap

16

FileInputFormat.addInputPaths(), birden fazla dosya virgülle ayrılmış listesini almak

FileInputFormat.addInputPaths("foo/file1.gz,bar/file2.gz") 
+0

Evet gibi olabilir, tam olarak ne istediğini teşekkürler. – Ankit

İlgili konular