Çok sayıda küçük dosya oluşturan dinamik bölümlenmiş tabloya veri eklemeye çalışıyorum, aşağıdaki gibi kovan özelliklerini ayarladım ama bölümlenmiş klasörde küçük dosyalar görüyorum, görev başına boyut bölümlenmiş klasördeki dosyalar, verdiğim göreve göre boyutun üzerinde olduğundan avgfile boyutu da benim için çalışıyor gibi görünüyor. Herhangi bir Yardım büyük gerçek hive.merge.size.per.task=10000;
hive.merge.smallfiles.avgsize=100;
kovanı birleştirme özellikleri küçük dosyalar için çalışmıyor
cevap
Sizin örnek küçük dosyaların çok yaratacak ve büyük olasılıkla çünkü göz ardı ediliyor 100 bayt ortalama boyutunun ayarlanması gösterir = hive.merge.mapfiles=true;
kovan mapredfiles birleştirme takdir edilecektir dosyalar bundan daha büyüktür. Bu değeri, işinizin tamamlanmasından sonra birleştirilen dosyaların boyutunu ortalama olarak arttırması gereken ortalama 128MB (134217728) değerine yükseltmeyi deneyin.
set hive.merge.smallfiles.avgsize = 134217728;
Birden çok eki tek bir Hive tablosuna uyguladığınızda bu durum oluşabilir. 1 tek insert, HDFS konumu altında bir veya daha fazla dosyaya neden olabilir.
Ben komuta altında yürüterek bu durumu başarmış - bu tabloyu sıkıştırır ve
bir kısıtlama olsa var bir (veya daha büyük olanlar) tüm dosyaları birleştirme olacak, kendi kovan tablolarda dizin olamaz Birleştirme komutunu yürütmek için.
Ayrıca, Spark SQL'den ORC dosyaları üzerinden test ettim - (1.5.2) ve iyi çalışıyor.
ALTER TABLE schema.table PARTITION (month = '01') CONCATENATE
o
sayesinde yardımcı olur yardımcı olur umarım – Ragzz
- 1. Küçük dosyalar için Google Cloud Storage maliyet etkinliği nedir?
- 2. Hadoop: Küçük dosyalar için CombineFileInputFormat, performans iyileştirme sağlıyor mu?
- 3. Sysdate -1 ini al Kovanı
- 4. dizi birleştirme php içinde çalışmıyor?
- 5. Bağlan Kovanı thorugh Java JDBC
- 6. Visual Studio 2015 özellikleri pencere düğmesi Windows formu için çalışmıyor
- 7. Yaylı Önbellek Dışa aktarma özellikleri çalışmıyor
- 8. 2 ikili dosyayı birleştirme. Dosyalar arasında kalan veriler
- 9. Ubuntu'da koilop kovanı kurarken hata oluştu
- 10. PyCharm'da bağımsız dosyalar nasıl çalıştırılır
- 11. VS2017 - C# 7 dil özellikleri MVC görüntülemelerinde çalışmıyor
- 12. Büyük dosyalar için yapılandırma ayarları
- 13. git birleştirme: bazı dosyalar için bir tarafı saklayın, geri kalanı el ile birleştirin
- 14. WCF daha büyük dosyalar için uçbirim dinlemiyor
- 15. GYTE Rebase Dosyalar
- 16. Tutulma sırasında dosyalar kapatılamıyor
- 17. Dize birleştirme için SQLite Güncelleştirme Sözdizimi?
- 18. TFS: Birleştirilemeyen dosyalar için en son sürümün çıkışını zorla
- 19. Yalnızca özellikler için HG özellikleri
- 20. Ürün özellikleri için veritabanı şeması
- 21. Scala istiflenebilir özellikleri kodu için
- 22. Okuma (/ Yazma) Dosyalar C#
- 23. CQEngine Küçük Veri Setleri için Optimize Etme
- 24. KDiff3 birleştirme
- 25. Java/android için iki bayt birleştirme
- 26. C# dizilerinde birleştirme/birleştirme #
- 27. özel dosyalar görünüm
- 28. Oracle Warehouse Builder'da Kayıt Bağlaması için birleştirme-Birleştirme işlemi
- 29. Raylar 5.1: Biz kamu klasördeki dosyalar için asset_path kullanırsanız kamu klasördeki dosyalar için URL yardımcı Raylar 5.1 olarak
- 30. belirli dosyalar
sayesinde bu bu yardımcı olur – Ragzz