Paketleme istemcisi yan kodu bir RDD'ye geçirmek için

Bir scala işlevi rdd.map()'a geçirilir. Mantık, fonksiyonun kendisine dahil edilmek için çok karmaşıktır ve bunun yerine mantık, bir object skalasında kapsüllenir. Nesne aşağıdaki örnekte olduğu gibi, Spark bağlamı başlatır uygulamanın bir parçasıdır:Paketleme istemcisi yan kodu bir RDD'ye geçirmek için

soru

def func(s.String) = { 
    // LogicEngine is object which, given a string, returns a different string 
    LogicEngine.process(s) 
} 

val sc = new SparkContext(config) 

val rdd = sc.textFile(“…”) 

val rdd2 = rdd.map(func)

, kendisi düğüm geçirilir, böylece bu yapmak için doğru bir şekilde ne olduğu ile ilgili rdd'nin kendisi işleniyor (istemcide oturmak yerine, rdd'ye iletilen işlev koduyla birlikte yaşıyor)?

Teşekkürler

kaynak

2016-04-03 user1052610

Zaten sahip olduğunuz budur. Her bir düğüm, ilk erişildiğinde kendi kopyası olan 'u başlatacak ve kullanacaktır.

kaynak

2016-04-03 13:09:19

Teşekkürler. Bir adım daha ileriye gitmek gerekirse: LogicEngine'in kullandığı dahili, statik bir arama listesi varsa, bu kodla birlikte düğüme iletilecektir. Ancak, LogicEngine, rdd'ler işlendikçe büyüyen dinamik bir liste kullanıyorsa ne olur? Her düğüm, önbelleği yalnızca ilk defa rdd'ye geçtiği durumda görür mü? – user1052610

https://spark.apache.org/docs/latest/programming-guide.html#shared-variables sayfasına bakın. –

Anlayışımın doğru olduğunu açıklığa kavuşturmak için - küresel bir değişkeni uygulamak - bu durumda bir önbellek - dinamik olarak (düğümlerin kendileri tarafından) güncellenecek ve tüm düğümlerde paylaşılacak bir Akümülatör kullanmalıyız. – user1052610

Paketleme istemcisi yan kodu bir RDD'ye geçirmek için

cevap

İlgili konular