Birden çok eşleştiricinin sonucunu Hadoop'taki Reducer dizinine göre toplama

MR programımın girdisi olarak birden çok büyük dosyam var (yaklaşık 500MB). Bu dosyaları eşit büyüklükteki bölümlere bölüyorum (bölüyorum). eşleştiricisindeki Anahtar = (dosya adı, partition_number) ve Değer = (bölüm karakter stream)Birden çok eşleştiricinin sonucunu Hadoop'taki Reducer dizinine göre toplama

ben değeri (karakter akımına) bazı hesaplama başvuruyorum: Her Mapper bir dosya

Mapper ait tek bölüm alır. Bir redüktörde bir girdi dosyasına (tüm partitonsları için) karşılık gelen sonucu toplamak istiyorum. Bu yüzden redüktör i/p anahtarını 'dosya adı' olarak düşündüm. Ancak, mapper'den gelen çıktılar, redüktörde sırayla toplanmalıdır. ([Bölüm1 o/p + bölüm2 + ... + bölüm N o/p] gibi)

Mantığı bana önerebilir misiniz? Teşekkürler.

kaynak

2016-04-01 Sumit

İkincil bir sıralama yapmanız gerekir. Örnek olarak, bu durumda"

Birincil karşılaştırıcı [dosya adı, partition_number] dosya sadece

ilgili dosya adını

Grup Karşılaştırıcı sadece

bölümleme ile karşılaştırır olarak https://vangjee.wordpress.com/2012/03/20/secondary-sorting-aka-sorting-values-in-hadoops-mapreduce-programming-paradigm/

bkz

kaynak

2016-04-04 10:34:03 alexeipab

Birden çok eşleştiricinin sonucunu Hadoop'taki Reducer dizinine göre toplama

cevap

İlgili konular