Çıktı Python'da Apache Spark'ın Akışı

Gerçek zamanlı bir veri aktarımı oluşturmak için kullanacağım teknolojileri deniyorum ve içeriğimi bir dosyaya aktarırken bazı sorunlar yaşadım.Çıktı Python'da Apache Spark'ın Akışı

Yerel bir kafka kümesini ve yalnızca işlevselliği sınamak ve uygulamanın karmaşıklığını tahmin etmek için basit bir kısa mesaj gönderen bir node.js üreticisi kurdum.

Kafka'dan okuyan kıvılcım akışı işidir ve bir dosyaya yazmayı deniyorum.

from pyspark import SparkContext 
from pyspark.streaming import StreamingContext 
from pyspark.streaming.kafka import KafkaUtils 

# Create a local StreamingContext with two working thread and batch interval of 1 second 
sc = SparkContext("local[2]", "KafkaStreamingConsumer") 
ssc = StreamingContext(sc, 10) 

kafkaStream = KafkaUtils.createStream(ssc, "localhost:2181", "consumer-group", {"test": 1}) 

kafkaStream.saveAsTextFile('out.txt') 

print 'Event recieved in window: ', kafkaStream.pprint() 

ssc.start() 
ssc.awaitTermination()

kıvılcım işi gönderilirken i görüyorum hatadır:

kafkaStream.saveAsTextFile('out.txt') 
AttributeError: 'TransformedDStream' object has no attribute 'saveAsTextFile'

Hiçbir hesaplamaları veya dönüşümler verilere yapılır, ben sadece akışını kurmak istiyorum. Verileri bir dosyaya vermek için ne yapmalıyım/eklemeliyim?

kaynak

2015-08-12 Stelios Savva