pySpark
kullanıyorum
farklılıkları hesaplamak için bir pencere fonksiyonu uygulamak ve aşağıdaki gibi iki sütun günlük varlık fiyatı temsil eden benim dataframe kurdunuz:pySpark
ind = sc.parallelize(range(1,5))
prices = sc.parallelize([33.3,31.1,51.2,21.3])
data = ind.zip(prices)
df = sqlCtx.createDataFrame(data,["day","price"])
Ben df.show()
uygulayarak üzerine olsun:
+---+-----+
|day|price|
+---+-----+
| 1| 33.3|
| 2| 31.1|
| 3| 51.2|
| 4| 21.3|
+---+-----+
Her şey yolunda. Ben çok araştırmadan sonra
(price(day2)-price(day1))/(price(day1))
gibi başka bir deyişle fiyat sütununun, gün be gün döner içeren sütunu, bir şey istiyorum, ben bu en verimli uygulanması aracılığıyla gerçekleştirilir söyledi am pyspark.sql.window
işlevleri, ancak nasıl göremiyorum.
Merhaba. Teşekkürler! Bu çok kullanışlı. Bu arada, "yanan" işlevi ne yapar? –
'lit' - Bir tamsayı değeri yaratır - https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.functions.lit – Oleksiy
Merhaba Oleksiy, tamam, teşekkürler ! –