Ben google dataproc ile oluşturduğum bir kıvılcım kümem var. csv kütüphanesini veri tabanlarından kullanabilmek istiyorum (bkz. https://github.com/databricks/spark-csv). Bu yüzden ilk olarak bu gibi test: Bir Spark kümesinde pyspark işinde harici bir kütüphane kullanın google-dataproc
benim kümenin ana düğüm ile bir ssh oturumu başladı sonra ben girişi: : Sonrapyspark --packages com.databricks:spark-csv_2.11:1.2.0
bir pyspark kabuğu başlattı hangi I girdi içinde
df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('gs:/xxxx/foo.csv')
df.show()
Ve işe yaradı.
sonraki adımım komutunu kullanarak benim ana makineden bu işi başlatmak için geçerli:
gcloud beta dataproc jobs submit pyspark --cluster <my-dataproc-cluster> my_job.py
Ama burada O çalışmıyor ve bir hata alıyorum. Sanırım --packages com.databricks:spark-csv_2.11:1.2.0
'u bir argüman olarak vermedim, ama vermem için 10 farklı yol denedim ve ben yönetmedim.
Sorum şunlardır: Ben pyspark --packages com.databricks:spark-csv_2.11:1.2.0
- databricks csv kütüphanesi bunu ithal etmek amacıyla benim
job.py
bir çizgi yazabilir kuruldu? - veya almak veya yüklemek için gcloud komutuma hangi paramları vermeliyim? o
my_job.py
tartışma sonrasında gelirse
JARS'ın Pyspark işleri için alınmadığı Dataproc'ta bir hata var. Alternatif bir çözüm arıyorum. Sadece size daha büyük bir hataya baktığımızı ve sizin için bir geçici düzeltme tespit edip edemeyeceğimizi görmemize izin vermek istedim. :) – James
hem bir geçici çözüm hem de burada düzeltmek için umut, thx @James! cassandra konektörü ile dataproc'u python ve scala – navicore