2015-06-10 17 views
8

1.3.1 sürümüyle birlikte Amazon kümesinde kıvılcım ve kıvılcım yüklemeye çalışıyorum. i Amazon EMR'de kıvılcım ana URL'si nasıl bulunur?

SparkConf sparkConfig = new SparkConf().setAppName("SparkSQLTest").setMaster("local[2]"); 

ne zaman benim için iş, ancak ben bu i ayarlayabilirsiniz test amaçlıdır olduğunu bilmek geldi vermez yerel [2] i

olarak değiştirdim küme modunu kullanmaya çalıştı

Bu i hata

altında ulaşılamaz uzaktan adres ile ilişkilendirmek için çalıştı

alıyorum ile

SparkConf sparkConfig = new SparkConf().setAppName("SparkSQLTest").setMaster("spark://localhost:7077"); 

[akka.tcp: // sparkMaster @ localhost: 7077]. Adres şimdi 5000 ms için kapılı, bu adrese gönderilen tüm mesajlar ölü mektuplara teslim edilecek. Sebep: akka.tcp master Bağlama: // sparkMaster @ localhost: 7077/user/Usta ..

birisi izin misiniz Bağlantı 15/06/10 15:22:21 BİLGİ client.AppClient $ ClientActor reddetti ana url'yi nasıl ayarlayacağım.

+0

EMR kullanmamanızı öneririz. Bunun yerine resmi belgeleri takip edin: http://spark.apache.org/docs/latest/ec2-scripts.html –

cevap

7

Eğer önyükleme eylemini https://github.com/awslabs/emr-bootstrap-actions/tree/master/spark kullanarak yapıyorsanız, Kıvılcım YARN için ayarlanmıştır. Bu yüzden master'ı yarn-client veya yarn-cluster'a ayarlayın. Bellek ve çekirdek içeren yürütücülerin sayısını belirttiğinizden emin olun. Bellek ve çekirdek boyutlandırma için infaz ayarlarıyla ilgili https://spark.apache.org/docs/latest/running-on-yarn.html

İlavesi de İPLİK üzerinde Spark hakkında daha fazla ayrıntı:

özellikle yarn.scheduler.maximum-allocation-mb, http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/TaskConfiguration_H2.html her türü için varsayılan İPLİK düğüm yöneticisi yapılandırmasında bir göz atın. Temel EC2 bilgisi URL'sinden çekirdek sayısını belirleyebilirsiniz (http://aws.amazon.com/ec2/instance-types/). Yürütücü belleğinin maksimum boyutu, maksimum tahsisi az Spark'un ek yüküne ve 256 MB'lık artışlara sığmalıdır. Bu hesaplamanın iyi bir tanımı http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/'dur. RDD önbelleği için yürütücü hafızasının biraz yarısından fazlasının kullanılabileceğini unutmayın.

+0

merakı duymak istedim belgelerin kıvılcım olduğunu bilmek istiyor kıvılcım ustası: // IP: PORT ama bunu yaptığımda ben hatam. portu 7077 varsayılanını ve localhost olarak IP'yi kullanıyorum – Sam

+0

Size atıfta bulunduğunuz belgeler, Spark'i Bağımsız modda kullanıyor. Spark kurulumunuz Bağımsız küme kuruyorsa, ip ana düğümün ipi ve büyük olasılıkla varsayılan port olacaktır. Aksi takdirde, küme kurulumuna uygun olan her şeyin olması gerekir. Desteklenen kümelerin listesi http://spark.apache.org/docs/latest/cluster-overview.html#cluster-manager-types – ChristopherB

+0

Teşekkürler @ChristopherB ... Hafızada yöneticileri belirlemek için belirttiğiniz bir soru daha var ve çekirdekler. Bu değerleri amazon farklı örnek türleriyle nasıl bulacağınızı lütfen bana önerebilir misiniz? [bağlantı] http://aws.amazon.com/ec2/instance-types/. – Sam