Geçtiğimiz günlerde "EMR on HDFS" -> "S3 üzerinde EMR" (tutarlı görünüm etkinleştirilmiş EMRFS) ve Spark 'SaveAsTable' (parke biçimi) yazı tiplerinin S3'e göre daha düşük olduğunu gördük. DirectParquetOutputCommitter - [1] w/Spark 1.6 kullanarak bir geçici çözüm bulduk. S3 yavaşlık içinSpark 2.0 'DirectParquetOutputCommitter', onsuz nasıl yaşayacağımı kabul etmiyor?
Sebep - Biz sözde Parke vergisiz ödemek zorunda [2] S3 yeniden adlandırma işlemi
Ayrıca çok pahalı olduğu varsayılan çıkış committer geçici tabloya yazar ve daha sonra bunu yeniden adlandırır nerede “DirectParquetOutputCommitter” kullanmanın riskini anlıyoruz, bu da veri bozulmalarının spekülatif görevler tarafından etkinleştirilmesini sağlıyor.
Şimdi w/Spark 2.0 ile bu sınıf kullanımdan kaldırıldı ve Spark 2.0'a yükseldiğimizde ~ 4x daha yavaş yazma yapamayacağımız için masanın üzerinde hangi seçeneklerin olduğunu merak ediyoruz. Herhangi bir Düşünceler/öneri/tavsiye çok takdir edilecektir. HDF'ler üzerine kaydedin ve sonra (bu S3 bizim Hive meta-mağaza noktaları olarak aklı başında bir şekilde nasıl yapılabileceği üzerinde herhangi bir düşünce?)
s3DistCp yoluyla S3 kopyalamak - biz düşünebildiğimBir geçici çözüm
NetFlix bunu düzeltmiş gibi görünüyor - [3], ne zaman kaynak açmayı planladıkları konusunda bir fikir var mı?
Teşekkürler.
[2] - https://www.appsflyer.com/blog/the-bleeding-edge-spark-parquet-and-s3/
[3] - https://www.youtube.com/watch?v=85sew9OFaYc&feature=youtu.be&t=8m39s http://www.slideshare.net/AmazonWebServices/bdt303-running-spark-and-presto-on-the-netflix-big-data-platform
Sadece aynı sorunu yaşadım ve geri emr 4.8'e geri döndüm. Burada cevapları görmek için Curios. Daha fazla bilgi burada bulunabilir: https://issues.apache.org/jira/browse/SPARK-10063 – Niros