2016-04-10 5 views
5

arasındaki uzun gecikme. Her şey yolunda gidiyor ama kaynak yoğun iş bitirme ve bir sonraki iş başlangıcı arasında rastgele genişleme gecikmeler alıyorum.Kıvılcım: veri ayıklamak ve bazı geniş veri dönüşüm yapmak ve birkaç farklı dosyalara yazar yüzden kıvılcım işi çalıştıran işler

aşağıdaki resimde, biz sonraki iş 17:37:02 etrafında planlanmalıdır bekliyorum anlamına gelir bitirmek için 15 dakika sürdü 17:22:02 de planlanıyordu o işi görebilirsiniz. Ancak, bir sonraki iş 22:05:59, yani iş başarısından sonra +4 saatte planlandı. Önümüzdeki işin kıvılcım UI içine kazmak zaman

o < 1 sn zamanlayıcı gecikmesini gösterir. Yani bu 4 saatlik gecikmenin nereden geldiğini karıştırıyorum.

aşağıda David'in cevabı IO op Spark nasıl işlendiğine dair spot onaylayabilirse biraz:

enter image description here

Güncellendi (Hadoop'un 2 ile 1.6.1 Spark) beklenmedik. (O. O dosyaya anlamda onu sipariş ve/veya diğer işlemleri dikkate yazar önce perde arkasında "toplamak" yok aslında yazma yapar) Ama biraz G/Ç zamanlı iş yürütme zamanında dahil değildir gerçeğiyle discomforted.Banyo ediyorum. Ben sorgular hala tüm işler başarılı olmak bile çalışan gibi kıvılcım UI "SQL" sekmesinde görebilirsiniz tahmin ama hiç onun içine girmek mümkün değil.

orada artırmak için daha çok yolu vardır ama eminim iki yöntem benim için yeterli idi aşağıda:

  1. sıklıkla yanlış
+0

bu sadece bir kıvılcım UI hata olabilir? Tamamlanması uzun sürüyor mu? – marios

+0

Öyle görünmüyor. Kümelenmeyi böyle bir limbo durumda yakaladığımda, gerçekten hiçbir şey olmuyor. – codingtwinky

+0

15 dakikalık işin tamamlandığı sürede herhangi bir yönetici/işçi hatası yaşadınız mı? aşırı olarak evet, ve sistem, bu işletim sistemi sadece (sınırlı olması nedeniyle sistem kaynaklarına) aşağıdaki infaz/işçi buraya getirmemi çok zaman aldı nedeni aşağıdakilerden biri olabilir. – marios

cevap

8

I/O operasyonlarına parquet.enable.summary-metadata set dosya sayısını azaltmak Ana düğümde oluşacak önemli yük ile birlikte gelir. Bu çalışma paralel olmadığından, oldukça zaman alabilir. Ve bu bir iş olmadığı için kaynak yöneticisi kullanıcı arayüzünde görünmez.

  • Kıvılcım geçici s3 dizinlere yazacak ana düğüm tarafından yapılır G/Ç görevleri bazı örnekleri, daha sonra sık sık ana düğümünde
  • meydana usta düğümünü metin dosyalarının
  • Okuma kullanarak dosyaları taşımak parke dosyalarını yazarken
  • , ana düğüm şema iplik ayarlarını değiştirmeye veya kodunuzu yeniden tasarlama çözülebilir

Bu sorunları kontrol etmek tüm dosyaları sonrası yazma tarar. Bazı kaynak kodu sağlıyorsanız, sorununuzu saptamayı başarabilirim.

Discussion of writing I/O Overhead

Discussion of reading I/O Overhead

+0

Sen benim favorimsin! Henüz onaylamıyorum ama okuduğum şeye ve üzerinde durduğu davranışa dayanıyor. Teşekkürler dostum! – codingtwinky

İlgili konular