Yerel makinede yeni testler yapmak ve bazı testler yapmak için yeni oluyorum.Hadoop: Küçük dosyalar için CombineFileInputFormat, performans iyileştirme sağlıyor mu?
çok sayıda küçük dosyayla ilgilenmek için birçok çözüm var.. CombineFileInputFormat'u genişleten CombinedInputFormat kullanıyorum.
Bu eşlemenin CombinedInputFormat ile 100'den 25'e değiştirildiğini görüyorum. Haritacı sayısının azalması nedeniyle herhangi bir performans artışı beklemeli miyim?
Ben CombinedInputFormat olmadan birçok küçük dosyaya harita-azaltmak işi gerçekleştirdikten: 100 haritacılar 10 dakika
Ama aldı harita azaltmak işCombinedInputFormat ile idam edildiğinde: 25 haritacı 33 dakikalar önce numaralı telefonu aldı.
Herhangi bir yardım için teşekkür ederiz.
Bu örneği, üç düğüm kümesiyle birlikte aws üzerinde çalıştırmayı denedim, ancak hiçbir şekilde performansta hiçbir iyileşme bulunmadı. Toplam 1000 küçük dosya ile ... haritacı sayısı 1000'den 67'ye düşürüldü. – Astro