Spark'da Cassandra'nın okuma hızını geliştirin (Paralel okuma uygulaması)

Spark için yeni ve bazı analitik görevler yapmak için Cassandra ve Spark'i birleştirmeye çalışıyorum.Spark'da Cassandra'nın okuma hızını geliştirin (Paralel okuma uygulaması)

Spark web arayüzünden, çoğu zaman okuma işleminde tüketildiğini buldum. Bu özel göreve kazandığımda, yalnızca tek bir yürütücünün üzerinde çalışmakta olduğunu buldum.

Bu görevin performansını, paralelleştirme gibi bazı numaralar aracılığıyla iyileştirmek mümkün müdür?

p.s. Ben pyspark cassandra konektörü (https://github.com/TargetHolding/pyspark-cassandra) kullanıyorum.

GÜNCELLEME: Spark 1.6 ve Cassandra 2.2.4 çalıştıran 3 düğümü Cassandra kümesi çalıştıran 3 düğümlü Spark kümesi kullanıyorum. Ve

biçiminde veri seçiyorum "tbl seçin * nerede partitionKey İÇİNDE [pk_1, pk_2, ...., pk_N] nerede clusteringKey> ck_1 ve clusteringKey < ck_2"

UPDATE2: IN cümlelerini paralel okumalarla değiştirmeyi öneren bir makale okudum. (https://ahappyknockoutmouse.wordpress.com/2014/11/12/246/) Bu kıvılcımda nasıl başarılabilir?

kaynak

2016-03-23 Jamin

Küme, düğüm sayısı, kaynaklar ve kullandığınız küme yöneticisi sayısı hakkında daha fazla bilgi verebilir misiniz? –

Küme, kıvılcım ve Cassandra sürümleri ve ilgili öğeler hakkında daha fazla bilgi sağlarsanız, bu noktaya cevap verebileceksiniz.Ancak benim anlayışıma göre yanıtlamaya çalışacağım.

Eğer kıvılcım iş sadece tek yürütücü üzerinde çalışıyorsa, kıvılcım command.you küme yöneticisi göre spark submit commands here hakkında daha fazla bilgi alabilirsiniz göndermek doğrulamak lütfen
RDD parallelized-collections bölünmesine emin olun.
Cassandra okuma işlemlerini hızlandırmak için doğru indekslemeyi kullanın. Cassandra'dan hızlı veri almada size yardımcı olacak Solr'u kullanmanızı tavsiye ederim.

kaynak

2016-03-23 10:25:10

Teşekkürler. Soru güncellendi. – Jamin

Kullandığınız hangi kıvılcım kümesi yöneticisi? Yukarıda verdiğim önerileri incelediniz mi? –

Spark ile birlikte gelen yöneticiyi kullanıyorum. Tüm önerileriniz için teşekkürler ama (1) Cassandra'yı RDD'lere dayanarak nasıl sorgulayacağımı tam olarak bilmiyorum. (2) Diğer görev paralel olarak çalışabildiğinden, yapılandırmanın iyi olması gerektiğini tahmin ediyorum. (3) Öneri için teşekkürler, fakat yanılmıyorsam Solr'un sorguların paralelleşmesiyle ilgisi yok mu? – Jamin

Spark'da Cassandra'nın okuma hızını geliştirin (Paralel okuma uygulaması)

cevap

İlgili konular