Bir makine öğrenme hattında kullanılmak üzere bir RDD[LabeledPoint]
kullanıyorum. RDD
'u DataSet
'a nasıl dönüştürebiliriz? Daha yeni spark.ml
apis, Dataset
biçiminde girişler gerektirir.Bir RDD'den bir Spark Veri Kümesi nasıl oluşturulur
cevap
DataFrame
- Ek bir adımı aşan bir cevap İşte. Biz DataFrame
oluşturmak için SQLContext
kullanmak ve istenen nesne türünü kullanarak bir DataSet
oluşturmak - Bir LabeledPoint
bu durumda:
val sqlContext = new SQLContext(sc)
val pointsTrainDf = sqlContext.createDataFrame(training)
val pointsTrainDs = pointsTrainDf.as[LabeledPoint]
Güncelleme Hiç bir SparkSession
duydunuz mu? (Şu ana kadar bende hiç ..)
Görünüşe göre, SparkSession
, Spark 2.0.0'da Tercih Edilen Yol (TM) ve ileriye doğru ilerliyor. İşte yeni (kıvılcım) dünya düzeni için güncellenmiş kodudur:
biz başardık (daha basit bir zero323 @ hangi kredi ait) altına yaklaşımların her ikisi de
Bildirimi yaklaşımları 2.0.0+ Kıvılcım SQLContext
yaklaşımına kıyasla önemli tasarruf: Artık bir DataFrame
oluşturmak için gerekli değildir. için Spark 2.0.0+ Kredi için
val sparkSession = SparkSession.builder().getOrCreate()
val pointsTrainDf = sparkSession.createDataset(training)
val model = new LogisticRegression()
.train(pointsTrainDs.as[LabeledPoint])
İkinci yol da zero323
val spark: org.apache.spark.sql.SparkSession = ???
import spark.implicits._
val trainDs = training.toDS()
Geleneksel Kıvılcım 1.X ve önceki yaklaşımla
val sqlContext = new SQLContext(sc) // Note this is *deprecated* in 2.0.0
import sqlContext.implicits._
val training = splits(0).cache()
val test = splits(1)
val trainDs = training**.toDS()**
bakınız @: How to store custom objects in Dataset? tarafından saygın @ zero323.
- 1. Bir CSV dosyasından Spark Veri Kümesi oluşturma
- 2. Azure'da resim sınıflandırması veri kümesi nasıl oluşturulur?
- 3. Gerrit'te yeni bir Yama kümesi nasıl oluşturulur?
- 4. Spark: Bir veri çerçevesini üstbilgilerle nasıl kaydederim?
- 5. Veri Kümesi Nasıl Sıralanır?
- 6. Spark MLLib'deki büyük veri kümesi için ortak filtrelemeyi hızlandırın
- 7. Geçersiz veri kümesi adı
- 8. Dizelerin bir vektöründen benzersiz bir isim kümesi nasıl oluşturulur?
- 9. Apache Spark: Bir DataFrame'den bir matris nasıl oluşturulur?
- 10. Spark uygulamasında veri filtreleme Spark
- 11. nasıl bir DataTable veri denormalized gelmiş ilgili veri kümesi
- 12. Bir RDD'yi Spark
- 13. Bir takım veri noktaları verilen düzgün bir yol nasıl oluşturulur?
- 14. Veri kümesi şemasında veri tabanını nasıl sıralayabilirim
- 15. İki veri kümesi sonuçlarını tek bir
- 16. Çok yazılan bir veri kümesi nedir?
- 17. Python veri kümesi
- 18. Spark (Scala) Veri Genişletme
- 19. SAS VERİ ADIMI değişken sayıda veri kümesi bilinmeyen bir öntanımlı
- 20. Haber Makalesi Veri Kümesi
- 21. Plot Yoğun Veri Kümesi
- 22. R: Benim veri kümesi
- 23. JFreeChart kullanarak yalnızca bir veri kümesi satırlarla çizilecek nasıl yapılır?
- 24. Tek tek Spark Mllib altmodülü nasıl oluşturulur
- 25. Bir GIT şubesinin bir veri kümesi olabilir mi?
- 26. RDD ve bölüm, Apache Spark
- 27. Crystal Reports'ta XML veri kümesi
- 28. Chart.js v2 gizlemek veri kümesi
- 29. Python'un dağıtıldığında veri kümesi modülünü nasıl alabilirim?
- 30. Veri kümesinden delphi içinde veri kümesi ekleme
Nasıl "training.toDS"? – zero323
@ zero323 ah, görüyorum ki 'sqlContext._' içe aktarma ihtiyacım var. – javadba
@ zero323 Yeterli bilgi eklediniz - kendi cevabınızı eklemekten çekinmeyin – javadba