Spark'den Vertica'ya yazı yazmanın nasıl çalıştığını öğrenmek için iyi çevrimiçi kaynaklar var mı? Vertica veritabanına yazmanın neden yavaş olduğunu anlamaya çalışıyorum.Spark'den vertica'ya veri yazmak nasıl çalışır?
Bu benim temel iş akışı geçerli:
- bir SparkContext oluşturun. Bir tane oluşturmak için pyspark.sql.SQLContext sınıfını kullanıyorum.
SQLContext'ten, 'jdbc' biçimindeki DataFrameReader arabirimini almak için okuma yöntemini kullanın.
df = self._sqlContext.read.format ('jdbc'). Opsiyonları (url = self._jdbcURL, DBTable = alt sorgu) .Load()
bir Vertica veritabanındanGirişleri okuyun jdbc bağlantısını kullanarak (çağrı o dbA)
- Adım 1'de SparkContext kullanarak başka Vertica veritabanına bu girdileri yaz (Sağ şimdi DBB)
diyoruz o dbA sadece basit bir okuyun ve DBB için yazıyorum. Ancak 50 giriş yazılması yaklaşık 5 saniye sürüyor.
Teşekkürler!
Sorunuzu cevaplamak için, ne denediğinizi bilmemiz gerekiyor. – Kermit
Soruma daha fazla ayrıntı ekledim. Genel referans materyali arıyorum. – OfLettersAndNumbers
Genel referansım, Talend gibi bir ETL ürünü kullanmak olacaktır. – Kermit