"Bizim kullanım durumu her konu için işlenmesi gereken Kafka, olayları okuyor." Benim anlayış gereğince
, Dstreams separata her konu formları. Yani her Dstreams'i birbiri ardına işlemelisiniz.
Ancak büyük ihtimalle, her Kafka konusundan aldığınız her olayı sırayla işlemek istediğinizi kastediyorsunuz. Bu durumda, bir RDD'deki kayıt sırasına bağlı olmamalısınız, daha ziyade, her kaydı ilk olarak gördüğünüzde (muhtemelen yol yukarı yönde) zaman damgasıyla etiketlemeniz ve daha sonra sipariş vermek için bu zaman damgasını kullanmanız gerekir.
Kötü olan diğer seçimler var :)
- Holden anlaşılacağı gibi birbiri ardına bölümleri doldurmak, böylece, zaman alıcı dayalı bazı artan fonksiyonu ile
- Bölme tek bölüm halinde her şeyi koymak . Daha sonra zipWithIndex'i güvenilir bir şekilde kullanabilirsiniz.
Ancak DStream RDD'lere bölünmüş durumda - 2. RDD'nin ilk önce işlemeyi bitirmesi mümkün değil mi? – EugeneMi
Belgelere göre "Varsayılan olarak, çıkış işlemleri birer birer yapılır. Ve bunlar uygulamada tanımlandıkları sırayla yürütülür." – Holden