RDD'leri ve çeşitli dönüşümlerin bölümlerden nasıl etkilendiğini ve bazı dönüşümlerin bölümleri nasıl etkilediğini okudum. Bunu anladığım kadarıyla, bunun, birden çok düğümün olduğu bir kümede nasıl uyulduğuna dair daha büyük resimle ilişkilendiremiyorum.ilişkisi
Bir bölüm ve bir düğüm arasında birebir bir ilişki var mı? İdeal olarak düğüm başına tek bir bölüm var mı? Ve değilse, Spark, belirli bir RDD için kaç bölümün aynı düğümde kalması gerektiğine nasıl karar veriyor? Aynı düğüm 2) aynı RDD tüm bölümleri farklı düğümlerin ikamet olabilir üzerinde belirli bir RDD için
1) bölümleri (ancak: - Daha özel olarak
, şunlardan birini düşünebiliriz Bölünme temeli nedir?) 3) Aynı düğümün bölümleri kümelenmiş, bazıları aynı düğümünde, bazıları farklı düğümlerde (yine, bu dağıtımın temeli nedir?) kümelenmeye dağıtılmıştır.
Birisi lütfen tam olarak bunu açıklayan belirli bir bağlantıya açıklayabilir veya en azından beni işaret edebilir mi?
Ben bir DataFrame üzerinde birleştirme (1) 've üzerinde 'foreachPartition' yaptım ve günlüklerim birden fazla çalışanın (4 aslında) aynı bölüm üzerinde yinelenen olduğunu gösterdi. Bu nasıl mümkün olabilir ? Belki de çok büyük olduğu için? – ericbn
@ericbn Büyük olasılıkla, 'coalesce' öncesindeki sahneye karşılık gelen görevi görürsünüz. – zero323