2016-03-29 47 views
3

ile değiştirin. Bir kıvılcım veri çerçevesindeki bir sütunun tüm değerlerini belirli bir değerle değiştirmek istiyorum. Ben pyspark kullanıyorum. Ben 10 sütun column_name tüm değerleri değiştirmek istiyor İşteBir veri çerçevesindeki tüm sütun değerlerini pyspark

new_df = df.withColumn('column_name',10)

- Ben böyle bir şey denedim. Pandalarda bu, df['column_name']=10 tarafından yapılabilir. Spark’de de aynısını nasıl yapacağımı anlayamıyorum.

cevap

2

O şöyle lit kullanmak daha kolay olabilir:

from pyspark.sql.functions import lit 
new_df = df.withColumn('column_name', lit(10)) 
2

Değeri değiştirmek için UDF kullanabilirsiniz. Ancak, farklı değerlere destek getirmek için körleme kullanabilirsiniz.

from pyspark.sql.functions import udf, col 

def replacerUDF(value): 
    return udf(lambda x: value) 

new_df = df.withColumnRenamed("newCol", replacerUDF(10)(col("column_name"))) 
İlgili konular