yılında Avro dosyasını okumak için. Ancak, bir sürü avro dosyasında okumalıyım.nasıl Python kullanılarak bir kıvılcım işi yazıyorum PySpark
This Ben Spark'ın örnek klasöründe bulduk yakın çözümdür. Ancak, bu python komut dosyasını kıvılcım göndererek göndermeniz gerekir. Kıvılcım gönderme komut satırında, sürücü sınıfını belirtebilirsiniz, bu durumda, tüm avrokey, avrovalue sınıfı bulunacaktır. Benim durumumda
avro_rdd = sc.newAPIHadoopFile(
path,
"org.apache.avro.mapreduce.AvroKeyInputFormat",
"org.apache.avro.mapred.AvroKey",
"org.apache.hadoop.io.NullWritable",
keyConverter="org.apache.spark.examples.pythonconverters.AvroWrapperToJavaConverter",
conf=conf)
, ben Python komut içindeki her şeyi çalıştırmak için gereken, ben kavanoz dosya eklemek için bir ortam değişken oluşturmak için çalıştık, parmak arası Python yoluna kavanoz katacak ama açıkça değil , bana beklenmedik bir sınıf hatası veriyor.
os.environ['SPARK_SUBMIT_CLASSPATH'] = "/opt/cloudera/parcels/CDH-5.1.0-1.cdh5.1.0.p0.53/lib/spark/examples/lib/spark-examples_2.10-1.0.0-cdh5.1.0.jar"
Herkes bir python komut dosyasında avro dosyasını okuma konusunda bana yardımcı olabilir mi?