dataframe.repartition(1).save("s3n://mybucket/testfile","json")
Ancak S3'ten bir hata alıyorum "Önerilen yüklemeniz izin verilen maksimum boyutu aşıyor", Amazon tarafından izin verilen maksimum dosya boyutunun 5 GB olduğunu biliyorum.
S3 multipart yüklemesini Spark ile kullanmak mümkün mü? ya da bunu çözmek için başka bir yol var mı?
Verileri başka bir kullanıcı sonra indireceğinden, verileri tek bir dosyada istiyorum.
* Spark-ec2 betiği ile oluşturulan 3 düğümlü bir kümede apache spark 1.3.1 kullanıyorum.
teşekkürler bence Spark
JG
Sadece ben S3N yerine S3A kullanırsanız benim problem (http://wiki.apache.org/hadoop/AmazonS3) çözebiliriz gördü deneyin ama şey kullanıyorum hadoop sürümü (Hadoop 2.0.0-cdh4.2.0) s3a desteklemiyor. Herhangi bir fikir? Tekrar teşekkürler. – jegordon