İki RDDs
PySpark sahip tarih verilerine dayanarak satırlarının toplamını Nasıl yapılır?tek RDD ila 2 RDDs sütunlarını ekleyin ve sonra PySpark
RDD1:
[(u'2013-01-31 00:00:00', u'a', u'Pab', u'abc', u'd'),(u'2013-01-31 00:00:00', u'a', u'ab', u'abc', u'g'),.....]
RDD2:
[(u'41',u'42.0'),(u'24',u'98.0'),....]
İkisi RDDs
aynı sayıda veya satırları var. Şimdi yapmak istediğim, her satırdaki tüm sütunları RDD1'den (unicode
'dan normal string
'a dönüştürülür) ve RDD2'deki her satırdaki 2. sütunu (unicode string
'dan float
'a dönüştürülür) almak ve bununla birlikte yeni bir RDD oluşturmaktır. Yani yeni RDD aşağıdaki gibi görünecektir:
RDD3:
[('2013-01-31 00:00:00', 'a', 'Pab', 'abc', 'd',42.0),('2013-01-31 00:00:00', 'a', 'ab', u'abc', 'g',98.0),.....]
o zaman yapıldıktan sonra ben bu yeni RDD3
her satır (şamandıra değeri) son değerin aggregation
yapmak istiyorum 1. sütuntaki date
değeri. Bu, date
'un 2013-01-31 00:00:00
olduğu tüm satırların mans, son sayısal değerleri eklenmelidir.
Bunu PySpark'ta nasıl yapabilirim? Sorunuzun ilk bölümü için
Onlara katılmak için bir anahtar yok, dolayısıyla ben zip olurdu sanırım ... –
@AlbertoBonsanto sen bunu nasıl yapabilirim ben gösterebilirim? –
@AlbertoBonsanto will rdd3 = izip (rdd1.toLocalIterator(), rdd2.toLocalIterator()) 'yeterli mi? –