Bu nedenle, bir uygulama başlatıldığında Spark uygulamasında, uygulama için veri kümesini içeren bir RDD (örneğin, WordCount için sözcük veri kümesi) oluşturulur.RDD ve bölüm, Apache Spark
Şimdiye kadar ne anlamak RDD (örn haritası, reduceByKey, vb ...)
Ancak afaik, Kıvılcım bu veri kümesi için yapılmıştır WordCount bu kelime ve operasyonların bir koleksiyon olmasıdır Ayrıca, HDFS'den her uygulayıcı tarafından okunan HadoopPartition (veya genel olarak bölüm) vardır. Ve sürücüdeki bir RDD'nin de tüm bu bölümleri içerdiğine inanıyorum.
Peki, Spark'deki uygulayıcılar arasında nasıl bölünüyor? Her yönetici bu alt veri setini sürücüde RDD'ye göre daha az veri içeren tek bir RDD olarak mı alıyor yoksa her bir yürütücü bu bölümlerle ilgileniyor ve bunları doğrudan HDFS'den okuyor mu? Ayrıca, bölümler ne zaman oluşturulur? RDD oluşturulmasında mı?