2015-07-11 23 views
6

RDD'leri ve çeşitli dönüşümlerin bölümlerden nasıl etkilendiğini ve bazı dönüşümlerin bölümleri nasıl etkilediğini okudum. Bunu anladığım kadarıyla, bunun, birden çok düğümün olduğu bir kümede nasıl uyulduğuna dair daha büyük resimle ilişkilendiremiyorum.ilişkisi

Bir bölüm ve bir düğüm arasında birebir bir ilişki var mı? İdeal olarak düğüm başına tek bir bölüm var mı? Ve değilse, Spark, belirli bir RDD için kaç bölümün aynı düğümde kalması gerektiğine nasıl karar veriyor? Aynı düğüm 2) aynı RDD tüm bölümleri farklı düğümlerin ikamet olabilir üzerinde belirli bir RDD için

1) bölümleri (ancak: - Daha özel olarak

, şunlardan birini düşünebiliriz Bölünme temeli nedir?) 3) Aynı düğümün bölümleri kümelenmiş, bazıları aynı düğümünde, bazıları farklı düğümlerde (yine, bu dağıtımın temeli nedir?) kümelenmeye dağıtılmıştır.

Birisi lütfen tam olarak bunu açıklayan belirli bir bağlantıya açıklayabilir veya en azından beni işaret edebilir mi?

cevap

8
  • tek RDD başına en iyi 2-4 bölümleri ile tek bir düğüm birden çok bölüm işleyebilir, tekli bir bölme tek bir düğümde işlenir
  • ,
  • birden çok düğüm dağılmış, bir ya da daha fazla bölüm vardır (official documentation göre CPU) Kıvılcım yana

kullanmak biri (Bağımsız, İplik, Messos) bağlıdır dağılımının takılabilir kaynak yönetimi ayrıntılarını destekliyor.

+0

Ben bir DataFrame üzerinde birleştirme (1) 've üzerinde 'foreachPartition' yaptım ve günlüklerim birden fazla çalışanın (4 aslında) aynı bölüm üzerinde yinelenen olduğunu gösterdi. Bu nasıl mümkün olabilir ? Belki de çok büyük olduğu için? – ericbn

+0

@ericbn Büyük olasılıkla, 'coalesce' öncesindeki sahneye karşılık gelen görevi görürsünüz. – zero323

İlgili konular