2016-04-13 20 views
0

Bir kıvılcım veri çerçevesini java'da bir csv dosyasına veriyorum. Csv dosyasını daha sonra unix sıralama araçlarını kullanarak sıralamak istediğimden, bazı sütunların ilk önce sütunları yeniden sıralamak zorundayım. Şimdi aramak için "sort_index" diyelim. Bunu nasıl yapabilirim? Şu anda bu kodu kullanarak csv dönüştürmek ediyorum:kıvılcım dataframe csv ilk sütununa

DataFrame df = sqlContext.parquetFile(somepath); 
df.write() 
    .format("com.databricks.spark.csv") 
    .option("header", "true") 
    .save(somepath); 

dataframe nedenle her zaman uymayan başka sütun dizini kullanarak tasnif bazı tırnak işaretli alanları vardır. Bu yüzden ilk önce bir sütuna ihtiyacım var. df.write() .format("com.databricks.spark.csv") .option("header", "true") .option("quoteMode,"NONE") .save(somepath);

+0

O Spark sıralamak daha iyidir: –

+0

Sorun şu ki birden fazla parke dosyam var ve onlardan büyük bir sıralı csv dosyası oluşturuyorum, böylece mevcut tüm veri kanalını değiştirmek zorunda olduğum için kıvılcımda sıralama artık bir seçenek değil. –

cevap

0

çift tırnak aşağıdaki kodu kullanabilirsiniz kaçının.