'daki sütunların bir listesi boyunca satır sütunları ekleme Birkaç sütun içeren bir Spark veri çerçevem var. Veritabanına belirli bir sayıda sütunun toplamı olan bir sütun eklemek istiyorum. ÖrneğinSpark Dataframe
verilerim şöyle görünür:
ID var1 var2 var3 var4 var5
a 5 7 9 12 13
b 6 4 3 20 17
c 4 9 4 6 9
d 1 2 6 8 1
Bir sütun belirli sütunlar için satırları toplayarak eklendi istiyorum:
ID var1 var2 var3 var4 var5 sums
a 5 7 9 12 13 46
b 6 4 3 20 17 50
c 4 9 4 6 9 32
d 1 2 6 8 10 27
Ben eğer birlikte sütunları eklemek mümkündür biliyorum
val newdf = df.withColumn("sumofcolumns", df("var1") + df("var2"))
Ama çölü listesini geçmek mümkündür: eklemek belirli sütunları biliyorum mn isimleri ve onları bir araya ekleyin? Ben istiyorum ama bunun yerine skalası piton API kullanarak ne temelde bu cevabın kapalı Tabanlı (Add column sum as new column in PySpark dataframe) Böyle bir şey işe yarar mı:
//Select columns to sum
val columnstosum = ("var1", "var2","var3","var4","var5")
// Create new column called sumofcolumns which is sum of all columns listed in columnstosum
val newdf = df.withColumn("sumofcolumns", df.select(columstosum.head, columnstosum.tail: _*).sum)
Bu hata değeri toplamı üyesi değildir atar org.apache.spark.sql.DataFrame. Sütunlarda toplamı bir yolu var mı? Yardımlarınız için şimdiden
teşekkürler.