Presto?

2016-04-14 14 views 6 likes

S3'da depolanan çok miktarda sunucu verisi var (yakında bir Parquet biçiminde olmak üzere). Verilerin bazı dönüşüme ihtiyacı vardır ve bu nedenle S3'ten gelen bir düz kopya olamaz. Verilere erişmek için Spark kullanacağım, ancak Spark ile manipüle etmek yerine, S3'e geri yazmak yerine bir adım atıp çek/dönüştürmek için bir sorgu çalıştırırsam Redshift'e kopyalayıp kopyalamayacağımı merak ediyorum. verileri ve sonra doğrudan Redshift'e kopyalayın?Doğrudan Parquet/S3'ten Redshift'e Spark SQL/Hive/Presto?

kaynak

2016-04-14 flybonzai

cevap

Tamamen mümkün.

Scala kod herhangi bir düşünce bu parkeye kıyasla ne kadar verimli üzerinde (here alınan) kırmızıya kayma

parquetFile.write 
.format("com.databricks.spark.redshift") 
.option("url", "jdbc:redshift://redshifthost:5439/database?user=username&password=pass") 
.option("dbtable", "my_table_copy") 
.option("tempdir", "s3n://path/for/temp/data") 
.mode("error") 
.save()

kaynak

2016-04-14 22:52:39 evgenii

yazmaya (here alınan) parke

val people: RDD[Person] = ... people.write.parquet("people.parquet") val parquetFile = sqlContext.read.parquet("people.parquet") //data frame

Scala kodunu okumak için - > csv -> S3 -> ifadesini reddeden S3'e çevir –

@marcin_koss Bunu ölçmedim, ama genel olarak, daha az dönüşüm, daha iyi dönüşümler. S3 ile aynı zamanda, yazma/okuma verilerinin maliyetini de göz önünde bulundurmalısınız. – evgenii

İlgili konular

1. Spark
2. Spark
3. , doğrudan
4. Spark uygulamasında veri filtreleme Spark
5. Tüm Spark SQL DataType
6. Spark SQL
7. Spark SQL
8. Spark Dataframe
9. Spark JavaRDD
10. Spark Dataframe
11. Spark DataFrame
12. Net doğrudan
13. RDD ve bölüm, Apache Spark
14. Spark Akış Penceresi Çalışması
15. Twitter Akışı API'sını Spark
16. Spark ve Serializable DateTimeFormatter
17. Spark executor on YARN
18. Bir RDD'yi Spark
19. Spark - Rastgele Sayı Üretimi
20. Spark SQL sözdizimi başvurusu
21. Kıvılcım Spark içinde kıvılcım
22. Spark shell komut satırları
23. Spark-submit, SparkContext
24. Spark: Avro dosyasına yazma
25. Spark: CoarseGrainedScheduler öğesini bulamadınız
26. Chronos'taki spark-submit'i çalıştıran
27. Spark Çalıştırmayı Öldür Uygulama
28. Spark DataFrame: Gruplarda çalıştır
29. Spark netlib-java BLAS
30. Spark Graphx, Gephi