Bir RDD'yi Spark

'da açıkça nasıl etkilenir Bir dosyadan büyük bir veri kümesi okumalı, onu bir Spark matrisine dönüştürmeli ve matriste bazı makine öğrenimi algoritmaları çalıştırmalıyım. Makine öğrenimi algoritmalarının hızını ölçmek istiyorum. Kıvılcım RDD'leri her zaman tembel olarak değerlendirildiğinden, makine öğrenimi algoritmasını karşılaştırmak zordur. Çalışma zamanını ölçtüğümde, giriş dosyasının ayrıştırılması için çalışma zamanını da içerir.Bir RDD'yi Spark

Spark'i bazı RDD'leri somutlaştırmak için zorlamanın bir yolu var mı? Böylece, makine öğrenimi algoritmasını çalıştırmadan önce giriş dosyasını ayrıştırabilir miyim?

sayesinde Da

kaynak

2016-03-19 Da Zheng

Veritabanına ve saveAsTable'a dönüştürme hakkında? –

Genellikle böyle bir şey yapmak: sadece hafızayı sağlamak belleğe sığar aksi takdirde, İşte

val persisted = rdd.persist(...);

sizin RDD büyüklüğüne bağlıdır - bellek ve disk seviyesi .

Ve sonra: Sonra

persisted.count(); 
// now you can use 'persisted', it's materialized

yüzden saymak diğer bütün boru hattı dönüşümleri (sizin durumunuzda ml)

bir eylemdir - bu yüzden RDD gerçekleşmesi ve daha önce hiç kalıcı beri - Sonraki aşamaları rdd'yi kalıcı depolamadan alır ve dosyadan değil,

kaynak

2016-03-19 20:21:37

Yalnızca belleğe devam ediyorsanız, val persisted = rdd.cache() öğesini kullanabilirsiniz. Sadece – PinoSan

bellekte kalıcı olarak aynı etkiye sahiptir, sanırım bu demek istediğin şeydir. RDD'yi bellekte saklanan verilerle ayarlıyorum ve sayımı() çalıştırın. Giriş dosyasını ayrıştırmak için Spark'i tetikler. Ancak, kalıcı verilerde corr() çalıştırdığımda, herhangi bir hızlanma görmüyorum. Doğru olanı yapıyorum? hat = sc.textFile (sys.argv [1]) verileri = lines.map (parseVector) veri1 = data.persist (storageLevel = StorageLevel.MEMORY_ONLY) data1.count() start_time = time.time() corr = Statistics.corr (veri1, yöntem = corrType) end_time = time.time() baskı ("% s saniye" % (end_time - start_time)) bunu valide mı –

senin dosya bellekte saklanabilir? Darboğazın ml cinsinden olması ve ayrıştırmada olmaması olabilir. –

Bir RDD'yi Spark

cevap

İlgili konular