Spark's Python API'sini kullanıyorum ve Spark 0.8'i çalıştırıyorum.RDD'lerin dilimleri ve bölümleri arasındaki farklar nelerdir?
Büyük bir RDD kayan nokta vektörünü saklıyorum ve tüm vektöre karşı bir vektörün hesaplamalarını gerçekleştirmem gerekiyor.
RDD'deki dilimler ve bölümler arasında fark var mı?
RDD'yi oluşturduğumda, 100 değerini RDD'nin 100 dilimi olarak saklamasına ve hesaplamaları yaparken 100 görev oluşturmasına neden olan bir parametre olarak geçiriyorum. Verilerin bölüştürülmesinin, sistemin verileri daha verimli bir şekilde işlemesine olanak sağlayarak, dilimlemenin ötesinde performansı iyileştirip geliştirmeyeceğini (yani, bölümlenmiş RDD'deki her elemanın üzerinde çalışmasına karşı bir bölüm üzerinde işlemlerin gerçekleştirilmesi arasında bir fark var mıdır) bilmek istiyorum. Örneğin, bu iki kod parçası arasında önemli bir fark var mıdır?
rdd = sc.textFile(demo.txt, 100)
rdd = sc.textFile(demo.txt)
rdd.partitionBy(100)
http://stackoverflow.com/questions/23436640/what-is-the-different-between-an-rdd-partition-and-a-slice -in-apache-kıvılcım –