pyspark Bir yürütücü düğümde python işlemleri ramda yayın değişkenlerini paylaşır mı?

Kıvılcım kümemde 24 çekirdek ve 124Gb ram olan bir düğüm var. Spark.executor.memory alanını 4g olarak ayarladığımda ve ram'da saklamak için 3.5gb alan bir değişken yayınladığımda, çekirdekler bu değişkenin 24 kopyasını toplu olarak tutacak mı? Ya da bir kopyası? Ben pyspark kullanıyorumpyspark Bir yürütücü düğümde python işlemleri ramda yayın değişkenlerini paylaşır mı?

- v1.6.2

kaynak

2016-10-17 ThatDataGuy

Ben PySpark işçiler arasında yayın değişkenleri paylaşmak için paylaşılan bellek herhangi bir biçimde kullanmaz inanıyoruz.

Unix benzeri sistemlerde, are loaded değişkenleri, çalışanın ana işlevine, yalnızca after forking daemon'dan çağrılır; böylece ana işlem alanından erişilemez.

Büyük değişkenlerin ayak izini harici hizmet kullanmadan azaltmak istiyorsanız, bellek eşlemeli dosya destekli nesneleri kullanmanızı tavsiye ederim. Bu şekilde örneğin NumPy arrays'u verimli bir şekilde kullanabilirsiniz. Aksine, yerel (JVM) Spark uygulamaları, tek bir yürütücü JVM'deki çoklu yürütücü iş parçacıkları arasındaki yayın değişkenlerini gerçekten paylaşır.

kaynak

2016-10-17 12:56:47 user6910411

pyspark Bir yürütücü düğümde python işlemleri ramda yayın değişkenlerini paylaşır mı?

cevap

İlgili konular