2016-09-06 10 views
6

Amazon S3 dosyaları yükleyemiyor:Kıvılcım - düzeni için FileSystem: https, ben tarafından bir Amazon S3 kova bazı verilerini yüklemek için çalışıyorum

SparkConf sparkConf = new SparkConf().setAppName("Importer"); 
JavaSparkContext ctx = new JavaSparkContext(sparkConf); 
HiveContext sqlContext = new HiveContext(ctx.sc()); 

DataFrame magento = sqlContext.read().json("https://s3.eu-central-1.amazonaws.com/*/*.json"); 

bu son satırı ancak bir hata atar:

Exception in thread "main" java.io.IOException: No FileSystem for scheme: https 

Aynı satır başka bir projede çalışıyor, neyi özlüyorum? Bir Hortonworks CentOS VM'de Spark'i çalıştırıyorum.

cevap

1

Spark, varsayılan olarak HDFS, S3 ve yerel destekler. // protokolleri (difference between s3a, s3n and s3 protocols)

Yani iyi aşağıdaki kullanmaktır bir dosyaya erişmek için: // veya S3N: S3 S3a tarafından erişilebilen kıvılcım sürümüne bağlı

s3a://bucket-name/key 

ve kütüphaneleri dahil Eğer dış kavanoz eklemek gerekebilir:? (Eğer önceki projelerde https protokolüyle s3 kullanıyormuş emin

Spark read file from S3 using sc.textFile ("s3n://...)

Are Belki özel kod veya kavanoz dahil etmişti https protokolünü destekliyor musunuz?)

İlgili konular