Spark yazmak S3 to parke son görev sonsuza kadar sürer

DataFrame'den S3'e bir parke dosyası yazıyorum. Kıvılcım UI'sine baktığımda, tüm görevleri görebiliyorum ama 1 hızlı bir şekilde yazma aşamasını tamamladı (ör. 199/200). Bu son görev sonsuza kadar sürecek gibi görünüyor ve çok sık, yürütücü bellek sınırını aşması nedeniyle başarısız oluyor.Spark yazmak S3 to parke son görev sonsuza kadar sürer

Bu son görevde neler olduğunu öğrenmek istiyorum. Nasıl optimize edilir? Teşekkürler.

kaynak

2015-08-04 user2680514

Bu son görev yürütücüsünün tamamlanmış diğer yürütücülerle karşılaştırıldığında çok daha fazla karışık okuduğunu fark ettim. Bu, bölümlemenin optimal olmadığı anlamına mı geliyor? Nasıl önlenir? – user2680514

Spark 1.3.1 kullanıyorum – user2680514

Verilerin çarpık olup olmadığını belirlemek için bu son dosyanın boyutuyla diğerlerine göre daha fazla bilgiye ihtiyacımız var. OOM hataları hakkında söyledikleri göz önüne alındığında, veri çarpıklığı sorun olduğunu düşünüyorum. Bazı kodlar olmadan, herhangi bir şeye yardım etmek zor olacaktır, ama bu denemeyi deneyin. – BAR

Veri çarpıklığınız olduğu anlaşılıyor. S3'e yazmadan önce,numaranızı DataFrame numaralı telefondan arayarak düzeltebilirsiniz.

kaynak

2015-09-21 13:38:23

Bu makale - The Bleeding Edge: Spark, Parquet and S3 Spark, S3 ve Parke hakkında çok sayıda yararlı bilgiye sahiptir. Özellikle, sürücünün _common_metadata_ dosyalarının nasıl yazıldığını ve biraz zaman alabileceğini anlatıyor. Bunu kapatmak için bir yol var. Ne yazık ki, ortak meta verilerinin kendileri oluşturmaya devam ettiklerini, ancak nasıl yaptıkları hakkında gerçekten konuşmadıklarını söylüyorlar.

kaynak

2016-02-02 10:36:52 retnuH

Spark yazmak S3 to parke son görev sonsuza kadar sürer

cevap

İlgili konular