S3
'da depolanan çok miktarda sunucu verisi var (yakında bir Parquet
biçiminde olmak üzere). Verilerin bazı dönüşüme ihtiyacı vardır ve bu nedenle S3'ten gelen bir düz kopya olamaz. Verilere erişmek için Spark
kullanacağım, ancak Spark ile manipüle etmek yerine, S3'e geri yazmak yerine bir adım atıp çek/dönüştürmek için bir sorgu çalıştırırsam Redshift'e kopyalayıp kopyalamayacağımı merak ediyorum. verileri ve sonra doğrudan Redshift'e kopyalayın?Doğrudan Parquet/S3'ten Redshift'e Spark SQL/Hive/Presto?
6
A
cevap
11
Tamamen mümkün.
Scala kod herhangi bir düşünce bu parkeye kıyasla ne kadar verimli üzerinde (here alınan) kırmızıya kayma
parquetFile.write
.format("com.databricks.spark.redshift")
.option("url", "jdbc:redshift://redshifthost:5439/database?user=username&password=pass")
.option("dbtable", "my_table_copy")
.option("tempdir", "s3n://path/for/temp/data")
.mode("error")
.save()
İlgili konular
- 1. Spark
- 2. Spark
- 3. , doğrudan
- 4. Spark uygulamasında veri filtreleme Spark
- 5. Tüm Spark SQL DataType
- 6. Spark SQL
- 7. Spark SQL
- 8. Spark Dataframe
- 9. Spark JavaRDD
- 10. Spark Dataframe
- 11. Spark DataFrame
- 12. Net doğrudan
- 13. RDD ve bölüm, Apache Spark
- 14. Spark Akış Penceresi Çalışması
- 15. Twitter Akışı API'sını Spark
- 16. Spark ve Serializable DateTimeFormatter
- 17. Spark executor on YARN
- 18. Bir RDD'yi Spark
- 19. Spark - Rastgele Sayı Üretimi
- 20. Spark SQL sözdizimi başvurusu
- 21. Kıvılcım Spark içinde kıvılcım
- 22. Spark shell komut satırları
- 23. Spark-submit, SparkContext
- 24. Spark: Avro dosyasına yazma
- 25. Spark: CoarseGrainedScheduler öğesini bulamadınız
- 26. Chronos'taki spark-submit'i çalıştıran
- 27. Spark Çalıştırmayı Öldür Uygulama
- 28. Spark DataFrame: Gruplarda çalıştır
- 29. Spark netlib-java BLAS
- 30. Spark Graphx, Gephi
yazmaya (here alınan) parke
Scala kodunu okumak için - > csv -> S3 -> ifadesini reddeden S3'e çevir –
@marcin_koss Bunu ölçmedim, ama genel olarak, daha az dönüşüm, daha iyi dönüşümler. S3 ile aynı zamanda, yazma/okuma verilerinin maliyetini de göz önünde bulundurmalısınız. – evgenii