Şu anki gibi görünen bir RDD'ye okuduğum sekmeyle ayrılmış veriye sahibim. Bu örnek için 12 satır olduğunu varsayalım (2010'da her ay için bir tane).Spark (Scala) Veri Genişletme
Veri
1/2010 Red 500 Up
2/2010 Blue 300 Left
3/2010 Red 650 Down
4/2010 Green 200 Left
5/2010 Blue 250 Right
6/2010 Blue 300 Up
... ... ... ...
ben etkili büyüklüğünü iki katına aşağıdaki gibi bir şey yaparak daha büyük RDD taklidi oluşturabilir bu verileri kullanmaya çalışıyorum ... myRDD
içine okuyun. sadece orijinal 2010 tarihleri yayılan görünür yüzden tarih artırmak istediğiniz kendi üzerine RDD birliği ile
var biggerRDD = myRDD.union(myRDD)
ancak 2011 de (aslında bir yıl ikinci yarısında tarihleri artan.
ben bunu nasıl emin değilim ve benim girişimleri ile başarısız olmuştur.
Yani Aynı * veriyi tekrarlamak istersiniz * ancak yıl bir ile artmıştır, değil mi? –
RDD'nin imzası nedir? –
@AlbertoBonsanto evet, tam olarak. – Sacrulen