Spark için yeni ve bazı analitik görevler yapmak için Cassandra ve Spark'i birleştirmeye çalışıyorum.Spark'da Cassandra'nın okuma hızını geliştirin (Paralel okuma uygulaması)
Spark web arayüzünden, çoğu zaman okuma işleminde tüketildiğini buldum. Bu özel göreve kazandığımda, yalnızca tek bir yürütücünün üzerinde çalışmakta olduğunu buldum.
Bu görevin performansını, paralelleştirme gibi bazı numaralar aracılığıyla iyileştirmek mümkün müdür?
p.s. Ben pyspark cassandra konektörü (https://github.com/TargetHolding/pyspark-cassandra) kullanıyorum.
GÜNCELLEME: Spark 1.6 ve Cassandra 2.2.4 çalıştıran 3 düğümü Cassandra kümesi çalıştıran 3 düğümlü Spark kümesi kullanıyorum. Ve
biçiminde veri seçiyorum "tbl seçin * nerede partitionKey İÇİNDE [pk_1, pk_2, ...., pk_N] nerede clusteringKey> ck_1 ve clusteringKey < ck_2"
UPDATE2: IN cümlelerini paralel okumalarla değiştirmeyi öneren bir makale okudum. (https://ahappyknockoutmouse.wordpress.com/2014/11/12/246/) Bu kıvılcımda nasıl başarılabilir?
Küme, düğüm sayısı, kaynaklar ve kullandığınız küme yöneticisi sayısı hakkında daha fazla bilgi verebilir misiniz? –