Spark SQL'i parquet
dosyasını yazmak için kullanıyorum.Spark SQL - gzip vs snappy ile lzo sıkıştırma formatları arasındaki fark
Varsayılan olarak Spark SQL, gzip
'u desteklemektedir, ancak snappy
ve lzo
gibi diğer sıkıştırma biçimlerini de destekler.
Bu sıkıştırma biçimleri arasındaki fark nedir ve hangisinin en iyi olduğu Hive
yükleme ile çalışmaktır.
Varsayılan olarak Kıvılcım "gzip" "çabuk" kullanır ve değil gibi görünüyor. En azından s3'te gördüğüm şey: adlarının bir parçası olarak "snappy" dizesiyle oluşturulan dosyalar. – bashan
@bashan: Kıvılcımın son sürümleri varsayılan formatı çabucak değiştirdi, 1.6.1'e kadar varsayılan parke sıkıştırma formatının gzip olduğunu görebiliyorum. – Shankar