JSON dosyasına bir kıvılcım DataFrame kaydetmek için aşağıdaki kodu kullanıyorumBir DataFrame kaydedilirken crc dosyaları ve SUCCESS dosyaları oluşturulmasından nasıl kaçınılmalı?
unzipJSON.write.mode("append").json("/home/eranw/Workspace/JSON/output/unCompressedJson.json")
çıktı sonucudur: Tek bir JSON dosyası ve bir dosya başına üretmek nasıl
part-r-00000-704b5725-15ea-4705-b347-285a4b0e7fd8
.part-r-00000-704b5725-15ea-4705-b347-285a4b0e7fd8.crc
part-r-00001-704b5725-15ea-4705-b347-285a4b0e7fd8
.part-r-00001-704b5725-15ea-4705-b347-285a4b0e7fd8.crc
_SUCCESS
._SUCCESS.crc
- hat?
- * Crc dosyalarından nasıl korunabilirim?
- SUCCESS dosyasından nasıl kurtulabilirim? Eğer tek bir dosya istiyorsanız
Sorunun nedeni CRC' ve '_SUCCESS' dosyalarına ihtiyacımız var mı? Kıvılcım (çalışan) düğümleri aynı anda veri yazar ve bu dosyalar doğrulama için sağlama toplamı olarak çalışır. Tek bir dosyaya yazma, dağıtılmış hesaplama fikrini ortadan kaldırır ve sonuçta ortaya çıkan dosya çok büyükse bu yaklaşım başarısız olabilir. –