zip reddediyorum benKıvılcım RDD
org.apache.spark.SparkException Spark ile aşağıdaki kodu çalıştırarak son satırında aşağıdaki istisna: Her bölüm elemanların aynı sayıda RDDs zip sadece Can
val rdd1 = anRDD
val rdd2 = AnotherRDD
println(rdd1.count() == rdd2.count()) // Write true
val nparts = rdd1.getNumPartitions + rdd2.getNumPartitions
val rdd1Bis = rdd1.repartition(nparts) // Try to repartition (useless)
val rdd2Bis = rdd2.repartition(nparts)
val zipped = rdd1Bis.zip(rdd2Bis)
println(zipped.count())
Sorun nedir?
PS: Ben sıkıştırma önce rdd1 ve rdd2 toplamak eğer çalıştığı ama RDD olarak tutmak gerekir
bu kontrol işleri
Eğer bir bölünmeyi atlarsanız, zip çalışır? –
Hayır. – Benjamin
Bir bölümlemenin her bölümdeki aynı sayıda elemanla, yalnızca aynı sayıda benzer boyutta bölümle sonuçlanacağının bir garantisi olmadığına inanıyorum. ZipPartitions'ı kullanabilir misiniz? "Bu RDD'nin bölümlerini bir (veya daha fazla) RDD (ler) ile sıkıştırın ve sıkıştırılmış bölümlere bir işlev uygulayarak yeni bir RDD döndürün. Tüm RDD'lerin * aynı sayıda bölüme * sahip olduğunu varsayar, ancak * bunları * gerektirmez her bölümdeki aynı sayıda elemanın bulunması " –