Aynı uzunlukta iki python dizim var. İki ayrı metin dosyasını okumaktan üretilirler. Biri etiketleri temsil eder; "labelArray" olarak adlandırılmasına izin verin. Diğer bir dizi veri dizisidir; "dataArray" olarak adlandırılsın. Bunları LabeledPoint'in bir RDD nesnesine dönüştürmek istiyorum. Bunu nasıl yapabilirim?Etiketten RDD Dizi ve veri python/spark dizisi
0
A
cevap
2
Kaynak dataArray ve lableArray kodunda açıklandığı gibi listeler olduğunu varsayalım. Bir birleştirilmiş RDD İşte
>>> lableArray=['l1','l2','l3']
>>> dataArray=['d1','d2','d3']
>>> rdd2=sc.parallelize(lableArray)
>>> rdd1=sc.parallelize(dataArray)
>>> rdd1.collect()
['d1', 'd2', 'd3']
>>> rdd2.collect()
['l1', 'l2', 'l3']
>>> rdd=rdd2.zipWithIndex().map(lambda x:(x[1],x[0])).join(rdd1.zipWithIndex().map(lambda y:(y[1],y[0]))).map(lambda x:x[1])
>>> rdd.collect()
[('l1', 'd1'), ('l2', 'd2'), ('l3', 'd3')]
oluşturmak için aşağıdaki gibi bir şey deneyebilirsiniz "RDD'
1
Kıvılcım için iki RDD birleştirebilirsiniz bir işlev takeSample var dataArray ve lableArray hem birleştirerek oluşturulan nihai sonucudur Bir RDD
İlgili konular
- 1. Scala, RDD Dizi [dize] birleştirme
- 2. RDD ve bölüm, Apache Spark
- 3. Dize için dizi dizisi
- 4. VB6 - Bir Dizi Dizisi Tanımlama
- 5. RxJs Dizi için Gözlem Dizisi
- 6. Powershell'de dizi dizisi nasıl oluşturulur?
- 7. SQL veri dizisi
- 8. C# Selenium WebDriver etiketten metin al
- 9. Kontrol sözlükleri bir dizi değeri dizisi Bir dizi (öğeler) sahip
- 10. json veri dizisi
- 11. Filtre Çekirdek Veri dizisi
- 12. kıvılcım hatası RDD oluştururken RDD türü bulunamadı
- 13. Sparks RDD.randomSplit, RDD
- 14. Kıvılcım RDD
- 15. dönüştürme dize dizisi Benim yarattığım bir dizi dizisi
- 16. C içinde bir dizi yapı dizisi nasıl ayrılır ve bildirilir?
- 17. 2d dizisi ve dizi dizisinin alt kümesini karşılaştır
- 18. Scala Yinelenebilir [tuple] dönüştürme RDD
- 19. Dosyaya bir veri dizisi yazma
- 20. PHP kullanan bir ilişkisel dizi dizisi toplamı?
- 21. Ruby dizisi dizi erişimini nasıl yönetiyor?
- 22. Javascript dizisi bir dizi olarak erişilebilir değildir
- 23. Python regex Dize dizisine dizi dizisi
- 24. JSON yapılandırılmış korumalı dizi dizisi için deserialize
- 25. İşletim RDD, org.apache.hadoop.conf.Configuration
- 26. Linq sonucu dizi dizisi olarak nasıl edinilir?
- 27. Varsayılan değerler dizisi ve yeni değerler dizisi kullanarak dizi nasıl oluşturulur?
- 28. Bir pyspark veri çerçevesi sütununu RDD of tuple ile güncelleme
- 29. Tensorflow: Bir dizisi ile bir dizi elemanı ayarlama
- 30. Bir kıvılcım RDD
Her bir veri dizisinin ilk birkaç satırını bize göster Sonra kodun yazılmasına yardımcı olabiliriz. –