2015-04-22 12 views
6

Spark'ın bellek özelliğinde anlamaya çalışıyorum. Bu süreçte temel olarak, veri setlerini kullanarak çoğaltma yapmadan hata toleransı sağlayan ve veri kümelerini kontrol ederek yeniden hesaplama 'u yeniden hesaplayan bellek veri katmanı olan ile karşılaştım. Şaşkın olan yer burası, Spark'un standart RDD s sistemi ile de tüm bu özelliklere erişilebiliyor. Bu yüzden, RDD'ler bu özellikleri uygulamak için perde arkasını Tachyon'u uygular mı? Eğer tüm işlerinin standart RDD'ler tarafından yapılabildiği Tachyon'un kullanımından ziyade. Yoksa bu ikisini ilişkilendirmede bir hata mı yapıyorum? detaylı bir açıklama ya da bir bağlantı, büyük bir yardım olacaktır. Teşekkür ederim.Tachyon, Apache Spark'de RDD'ler tarafından varsayılan olarak uygulandı mı?

cevap

1

Bağladığınız kağıtta, Tachyon'da açık kaynak kodlu bir proje olarak gerçekte ne olduğu gerçeği yansıtılmıyor, bu makalenin bölümleri yalnızca araştırma prototipleri olarak var olmuş ve Spark/Tachyon'a tam olarak entegre edilmemiştir.

rdd.persist(StorageLevel.OFF_HEAP) aracılığıyla OFF_HEAP depolama düzeyine verileri devam ettirdiğinizde, bu verileri Tachyon'un bellek alanına bir dosya olarak yazmak için Tachyon kullanır. Bu, Java yığınından kaldırır ve Spark ile daha fazla yığın belleği çalışır.

Şu anda soy bilgisini yazmaz; bu nedenle verileriniz yapılandırılmış Tachyon kümelerinize sığmayacak kadar büyükse, RDD'nin bellek bölümleri kaybolur ve Spark işleriniz başarısız olabilir.

+0

Yanıtladığınız için teşekkürler Rob. Bu nedenle Tachyon, kalıcılık düzeylerinden biri için RDD'lerde varsayılan olarak kullanılır, ancak Tachyon tüm bu özellikleri uygulamaz, bunun yerine RDD'ler bunları uygular. haklı mıyım –

+0

Anladığım kadarıyla bu doğru bir açıklama – RobV

İlgili konular