Kıvılcım: veri ayıklamak ve bazı geniş veri dönüşüm yapmak ve birkaç farklı dosyalara yazar yüzden kıvılcım işi çalıştıran işler

arasındaki uzun gecikme. Her şey yolunda gidiyor ama kaynak yoğun iş bitirme ve bir sonraki iş başlangıcı arasında rastgele genişleme gecikmeler alıyorum.Kıvılcım: veri ayıklamak ve bazı geniş veri dönüşüm yapmak ve birkaç farklı dosyalara yazar yüzden kıvılcım işi çalıştıran işler

aşağıdaki resimde, biz sonraki iş 17:37:02 etrafında planlanmalıdır bekliyorum anlamına gelir bitirmek için 15 dakika sürdü 17:22:02 de planlanıyordu o işi görebilirsiniz. Ancak, bir sonraki iş 22:05:59, yani iş başarısından sonra +4 saatte planlandı. Önümüzdeki işin kıvılcım UI içine kazmak zaman

o < 1 sn zamanlayıcı gecikmesini gösterir. Yani bu 4 saatlik gecikmenin nereden geldiğini karıştırıyorum.

aşağıda David'in cevabı IO op Spark nasıl işlendiğine dair spot onaylayabilirse biraz:

Güncellendi (Hadoop'un 2 ile 1.6.1 Spark) beklenmedik. (O. O dosyaya anlamda onu sipariş ve/veya diğer işlemleri dikkate yazar önce perde arkasında "toplamak" yok aslında yazma yapar) Ama biraz G/Ç zamanlı iş yürütme zamanında dahil değildir gerçeğiyle discomforted.Banyo ediyorum. Ben sorgular hala tüm işler başarılı olmak bile çalışan gibi kıvılcım UI "SQL" sekmesinde görebilirsiniz tahmin ama hiç onun içine girmek mümkün değil.

orada artırmak için daha çok yolu vardır ama eminim iki yöntem benim için yeterli idi aşağıda:

sıklıkla yanlış

kaynak

2016-04-10 codingtwinky

bu sadece bir kıvılcım UI hata olabilir? Tamamlanması uzun sürüyor mu? – marios

Öyle görünmüyor. Kümelenmeyi böyle bir limbo durumda yakaladığımda, gerçekten hiçbir şey olmuyor. – codingtwinky

15 dakikalık işin tamamlandığı sürede herhangi bir yönetici/işçi hatası yaşadınız mı? aşırı olarak evet, ve sistem, bu işletim sistemi sadece (sınırlı olması nedeniyle sistem kaynaklarına) aşağıdaki infaz/işçi buraya getirmemi çok zaman aldı nedeni aşağıdakilerden biri olabilir. – marios

I/O operasyonlarına parquet.enable.summary-metadata set dosya sayısını azaltmak Ana düğümde oluşacak önemli yük ile birlikte gelir. Bu çalışma paralel olmadığından, oldukça zaman alabilir. Ve bu bir iş olmadığı için kaynak yöneticisi kullanıcı arayüzünde görünmez.

Kıvılcım geçici s3 dizinlere yazacak ana düğüm tarafından yapılır G/Ç görevleri bazı örnekleri, daha sonra sık sık ana düğümünde
Okuma kullanarak dosyaları taşımak parke dosyalarını yazarken
, ana düğüm şema iplik ayarlarını değiştirmeye veya kodunuzu yeniden tasarlama çözülebilir

Bu sorunları kontrol etmek tüm dosyaları sonrası yazma tarar. Bazı kaynak kodu sağlıyorsanız, sorununuzu saptamayı başarabilirim.

Discussion of writing I/O Overhead

Discussion of reading I/O Overhead

kaynak

2016-04-11 15:25:38 David

Sen benim favorimsin! Henüz onaylamıyorum ama okuduğum şeye ve üzerinde durduğu davranışa dayanıyor. Teşekkürler dostum! – codingtwinky

Kıvılcım: veri ayıklamak ve bazı geniş veri dönüşüm yapmak ve birkaç farklı dosyalara yazar yüzden kıvılcım işi çalıştıran işler

cevap

İlgili konular