Aşağıdaki çözümler pyspark kullanmaktadır, ancak Scala'daki kodun benzer olacağını varsayıyorum. Eğer sparkContext otomatik gzip kullanarak sıkıştırılmış olduğunu kullanılarak üretmek herhangi bir dosya üzerinde kod ile
conf = SparkConf()
conf.set("spark.hadoop.mapred.output.compress", "true")
conf.set("spark.hadoop.mapred.output.compression.codec", "org.apache.hadoop.io.compress.GzipCodec")
conf.set("spark.hadoop.mapred.output.compression.type", "BLOCK")
:
İlk seçenek SparkConf initialize zaman aşağıdaki ayarlamaktır.
İkinci seçenek, yalnızca içeriğinizde seçilen dosyaları sıkıştırmak istiyorsanız. sıkıştırılmış JSON, gerektirmez yazmak için daha basit bir yolu var
df_rdd = self.df.toJSON()
df_rdd.saveAsTextFile(filename,compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec")
Json çıkışını sıkıştırmanın bir yolunu mu keşfettiniz? Ben de bir çözüm arıyorum. –
Henüz bunu yapmanın bir yolunu bulamadım. – Sim