2015-09-11 19 views

cevap

8

Bunu yapmanın en kolay ve en iyi yolu spark-csv kütüphanesini kullanmaktır. Verilen bağlantıdaki belgeleri kontrol edebilirsiniz ve here, DataFrame'den veri yükleme/kaydetme işleminin scala örneğidir.

Kodu (Kıvılcım 1.4+):

dataFrame.write.format("com.databricks.spark.csv").save("myFile.csv") 

Düzenleme: csv veri kaydedilirken bir içine yarı dosyaları birleştirmek istiyorsanız

Kıvılcım, yarı dosyaları oluşturur tek csv, aşağıdaki başvurun:

Merge Spark's CSV output folder to Single File

1

Yukarıdaki çözüm, çoklu bölümler olarak csv'yi dışa aktarır. Bir veri çerçevesini tek bir CSV dosyasına aktaran bu stackoverflow page numaralı telefona zero323 tarafından başka bir çözüm buldum.

df.coalesce(1) 
    .write.format("com.databricks.spark.csv") 
    .option("header", "true") 
    .save("/your/location/mydata.csv") 
İlgili konular