2016-03-27 41 views
0

Apache Spark içindeki RDD (yani, onun partititons) tembel olarak hesaplanmıştır, ancak bazen tüm bölümleri önceden hesaplanmışsa ve sonuçlar bellekte ise bir RDD sonucunu yeniden kullanmak istiyorum ve eğer değilse (örneğin sonucun yürütme planına bazı optimizasyonlar). Bunu kontrol etmek için RDD'nin API'sini kullanmak mümkün mü?Apache Spark'de, bir RDD'nin tam olarak hesaplanıp bellekte kalıcı olup olmadığını nasıl kontrol edersiniz?

+0

Kabul edildi, bu soruda zaten yanıtlandı. Lütfen bunu silin. – tribbloid

cevap

0

En iyi yol web arayüzünde RDD ayrıntılarını kontrol etmektir. Web kullanıcı arayüzündeki depolama sekmesi size RDD'lerin listesini ve bunların yüzdesinin kalıcı olmasını sağlar. Aynı zamanda bir REST API'nız da var. Ama onları Web arayüzünde kontrol etmeyi tercih ederim. Bir web arayüzünü olacak her kıvılcım uygulaması, normalde port 4040 veya 4041.

REST API

Bazı daha fazla ayrıntı olacaktır:

https://blueplastic.gitbooks.io/how-to-light-your-spark-on-a-stick/content/spark_web_uis/spark_storage_ui.html

Eğer başka ayrıntıya ihtiyacınız olursa haber verin.

+0

@tribbloid, kodundaki eylemi değiştirmek istediği için, WEBUI'yi kontrol etmek onun için bir seçenek değildir. – mauriciojost

İlgili konular