Spark Streaming'de StreamingContext
denetim noktalarını güvenilir bir veri deposuna (S3, HDFS, ...) yapabilecek şekilde ayarlamak mümkündür (ve zorunlu işlemler kullanacaksanız zorunludur). AND):DStreams için kıvılcım akış kontrol noktaları
- Meta veri
DStream
olarak, yourSparkStreamingCtx.checkpoint(datastoreURL)
Diğer yandan, her DataStream
için soy kontrol noktası aralıklarını checkpoint(timeInterval)
numaralı telefonu arayarak ayarlamak mümkündür.
dstream.checkpoint (checkpointInterval): Aslında,
DataStream
's kayar aralığı 5 ile 10 kez arasında soy kontrol noktası aralığını ayarlamak için tavsiye edilir. Tipik olarak, bir DStream'in 5 - 10 kayar aralıklı bir kontrol noktası aralığı, denemeye iyi bir ayardır.
Sorum şu:
akışı bağlam checkpointing gerçekleştirmek için kurulmuştur ve hiçbir ds.checkpoint(interval)
denir zaman batchInterval
eşit bir varsayılan checkpointInterval
ile tüm veri akışları için etkin soy checkpointing nedir? Ya da tam tersine, yalnızca metadata ne etkisiz hale getiriliyor?
nasıl Standart kontrol noktalarını denetleme tarafından Akış etkin olup söyleyebiliriz?Verileri ve soyunu hatırladığını biliyorum, ancak varsayılan olarak herhangi bir kontrol noktasını etkin görmüyorum. Yani, eğer sürücünüz başarısız olursa veya bazı düğümler azalırsa o zaman bu düğümde yer alan verileri kopyalayamazsınız. (StorageLevel öğesinin "_2" değerini kullanarak). – Sumit
@Sumit Bunu hiç söylemedim. İstediğim şey, strmCtx.checkpoint ("hdfs: // ...") çağırarak denetim noktasını etkinleştirdiğinizde, tüm veri akışlarını kontrol aralıklarını, içerik parti aralığına eşit bir güncelleme aralığıyla etkinleştirip etkinleştirmeyeceğidir. –
Denetim Noktası, tüm Akış Bağlamı için etkinleştirildiğinden, aynı İçerik'ten oluşturulan tüm DStreams'ler kontrol noktasında yararların tadını çıkaracaktır. – Sumit