Kümedeki düğümler arasında dağıtılan bir dosya var.pyspark/spark kullanarak geniş bir dağıtılmış veri kümesini örnekleme
Bu dosyadan 10 satırlık rasgele bir örnek almaya çalışıyorum. pyspark kabuğunda
, ben kullanarak bir RDD dosyayı okuyun:
>>> textFile = sc.textFile("/user/data/myfiles/*")
ve sonra ben sadece bir örnek almak istiyorum ... Kıvılcım hakkında serin şey komutları takeSample
gibi olmasıdır,
>>> textFile.takeSample(False, 10, 12345)
yüzden aşağıdaki komutu kullanarak bu bölümü örnek her düğümünde bir bölüm oluşturarak ve ardından her düğüm talimat çalıştı: ne yazık ki şu gerçekten çok uzun zaman alır, çünkü ben yanlış bir şey yapıyorum düşünüyorum
>>> textFile.partitionBy(4).mapPartitions(lambda blockOfLines: blockOfLines.takeSample(False, 10, 1234)).first()
ama bu bir hata ValueError: too many values to unpack
veriyor:
org.apache.spark.api.python.PythonException: Traceback (most recent call last):
File "/opt/cloudera/parcels/CDH-5.0.2-1.cdh5.0.2.p0.13/lib/spark/python/pyspark/worker.py", line 77, in main
serializer.dump_stream(func(split_index, iterator), outfile)
File "/opt/cloudera/parcels/CDH-5.0.2-1.cdh5.0.2.p0.13/lib/spark/python/pyspark/serializers.py", line 117, in dump_stream
for obj in iterator:
File "/opt/cloudera/parcels/CDH-5.0.2-1.cdh5.0.2.p0.13/lib/spark/python/pyspark/rdd.py", line 821, in add_shuffle_key
for (k, v) in iterator:
ValueError: too many values to unpack
nasıl büyük bir dağıtık verilerden 10 satır tadabilirsiniz kıvılcım veya pyspark kullanılarak ayarlanan?
Bunun kıvılcımla ilgili bir sorun olduğunu düşünmüyorum, http://stackoverflow.com/questions/7053551/python-valueerror-too-many-values-to-unpack – aaronman
@aaronman adresinde bulabilirsiniz. "çok fazla değer" hatasının kesinlikle bir python hatası olduğunu hissedin. Hata mesajı hakkında daha fazla ayrıntı ekleyeceğim. Önsezim pyspark kodumda yanlış bir şey olsa da - bu kodu kıvılcım düzeninizde başarılı bir şekilde çalıştırabiliyor musunuz? – mgoldwasser
Sadece gerçekten scala kıvılcım API'sini kullanıyorum, scala'nın fonksiyonel stilinin Mapreduce'a çok iyi uyduğunu düşünüyorum. – aaronman