2016-04-01 14 views
0

MR programımın girdisi olarak birden çok büyük dosyam var (yaklaşık 500MB). Bu dosyaları eşit büyüklükteki bölümlere bölüyorum (bölüyorum). eşleştiricisindeki Anahtar = (dosya adı, partition_number) ve Değer = (bölüm karakter stream)Birden çok eşleştiricinin sonucunu Hadoop'taki Reducer dizinine göre toplama

ben değeri (karakter akımına) bazı hesaplama başvuruyorum: Her Mapper bir dosya

Mapper ait tek bölüm alır. Bir redüktörde bir girdi dosyasına (tüm partitonsları için) karşılık gelen sonucu toplamak istiyorum. Bu yüzden redüktör i/p anahtarını 'dosya adı' olarak düşündüm. Ancak, mapper'den gelen çıktılar, redüktörde sırayla toplanmalıdır. ([Bölüm1 o/p + bölüm2 + ... + bölüm N o/p] gibi)

Mantığı bana önerebilir misiniz? Teşekkürler.

cevap

İlgili konular