Spark'den vertica'ya veri yazmak nasıl çalışır?

-2

Spark'den Vertica'ya yazı yazmanın nasıl çalıştığını öğrenmek için iyi çevrimiçi kaynaklar var mı? Vertica veritabanına yazmanın neden yavaş olduğunu anlamaya çalışıyorum.Spark'den vertica'ya veri yazmak nasıl çalışır?

Bu benim temel iş akışı geçerli:

bir SparkContext oluşturun. Bir tane oluşturmak için pyspark.sql.SQLContext sınıfını kullanıyorum.
SQLContext'ten, 'jdbc' biçimindeki DataFrameReader arabirimini almak için okuma yöntemini kullanın.

df = self._sqlContext.read.format ('jdbc'). Opsiyonları (url = self._jdbcURL, DBTable = alt sorgu) .Load()
bir Vertica veritabanından
Girişleri okuyun jdbc bağlantısını kullanarak (çağrı o dbA)
Adım 1'de SparkContext kullanarak başka Vertica veritabanına bu girdileri yaz (Sağ şimdi DBB)

diyoruz o dbA sadece basit bir okuyun ve DBB için yazıyorum. Ancak 50 giriş yazılması yaklaşık 5 saniye sürüyor.

Teşekkürler!

kaynak

2016-04-12 OfLettersAndNumbers

Sorunuzu cevaplamak için, ne denediğinizi bilmemiz gerekiyor. – Kermit

Soruma daha fazla ayrıntı ekledim. Genel referans materyali arıyorum. – OfLettersAndNumbers

Genel referansım, Talend gibi bir ETL ürünü kullanmak olacaktır. – Kermit

HPE'nin Büyük Veri Pazarı'nı, özellikle de HPE Vertica Connector For Apache Spark'u denediniz mi? Dosyayı indirmek için bir hesap oluşturmanız gerekir, ancak bir hesap oluşturmayla ilişkili bir maliyet yoktur. Belgeler, bir Spark veri çerçevesinin Vertica tablosuna yazılması için bir Scala örneğini içerir.

kaynak

2016-04-13 03:05:11

Spark'den vertica'ya veri yazmak nasıl çalışır?

cevap

İlgili konular