2016-04-12 12 views
-2

Spark'den Vertica'ya yazı yazmanın nasıl çalıştığını öğrenmek için iyi çevrimiçi kaynaklar var mı? Vertica veritabanına yazmanın neden yavaş olduğunu anlamaya çalışıyorum.Spark'den vertica'ya veri yazmak nasıl çalışır?

Bu benim temel iş akışı geçerli:

  1. bir SparkContext oluşturun. Bir tane oluşturmak için pyspark.sql.SQLContext sınıfını kullanıyorum.
  2. SQLContext'ten, 'jdbc' biçimindeki DataFrameReader arabirimini almak için okuma yöntemini kullanın.

    df = self._sqlContext.read.format ('jdbc'). Opsiyonları (url = self._jdbcURL, DBTable = alt sorgu) .Load()

    bir Vertica veritabanından

    Girişleri okuyun jdbc bağlantısını kullanarak (çağrı o dbA)

  3. Adım 1'de SparkContext kullanarak başka Vertica veritabanına bu girdileri yaz (Sağ şimdi DBB)

diyoruz o dbA sadece basit bir okuyun ve DBB için yazıyorum. Ancak 50 giriş yazılması yaklaşık 5 saniye sürüyor.

Teşekkürler!

+0

Sorunuzu cevaplamak için, ne denediğinizi bilmemiz gerekiyor. – Kermit

+0

Soruma daha fazla ayrıntı ekledim. Genel referans materyali arıyorum. – OfLettersAndNumbers

+0

Genel referansım, Talend gibi bir ETL ürünü kullanmak olacaktır. – Kermit

cevap

0

HPE'nin Büyük Veri Pazarı'nı, özellikle de HPE Vertica Connector For Apache Spark'u denediniz mi? Dosyayı indirmek için bir hesap oluşturmanız gerekir, ancak bir hesap oluşturmayla ilişkili bir maliyet yoktur. Belgeler, bir Spark veri çerçevesinin Vertica tablosuna yazılması için bir Scala örneğini içerir.