:Kıvılcım: Repartition strateji metin dosyasını okuduktan sonra
/usr/lib/spark/bin/spark-submit --class MyClass --master yarn-cluster--num-executors 3 --driver-memory 10g --executor-memory 10g --executor-cores 4 /path/to/jar.jar
Ben büyük metin dosyası okunur yapmak ve ilk şey saymak:
val file = sc.textFile("/path/to/file.txt.gz")
println(file.count())
zaman Bunu yapıyorum, sadece benim düğümlerimden birinin aslında dosyayı okuduğunu ve sayımı yürüttüğünü görüyorum (çünkü sadece bir görevi görüyorum). Bu beklenen mi? RDD'yi daha sonra yeniden bölümlendirmeli miyim, yoksa harita işlevlerini kullandığımda, Spark'i benim için yapar mı?
"defaultMinPartitions" nız nedir? Belge açıkça belirttiği gibi, textFile isteğe bağlı sayıda bölüm parametresi alır; –
VarsayılanMinPartitions değerlerimden büyüktür. Belirtilen sayıda bölüm zorlayamayacağı görünüyor, çünkü bu sadece bir metin dosyası ... çalışıyor ... val file = sc.textFile ("/ yol/to/file.txt.gz", 8) println (file.partitions.length) , 1 – Stephane
değerini döndürür. Bu, okumayı tek bir yerde yapmak zorundadır, çünkü bu, doğası gereği seridir. Fakat, eğer _something_ yapmadıysa, bu isteğe bağlı paramın neden olacağını göremiyorum. –