2016-04-10 22 views
0

Pitondan itertools'u çalıştırmak mümkün mü?pyspark içinde itertools kombinasyonlarını() kullanma

varsayalım Ben bu aşağıdaki adımlar olarak yapmak istiyorum

data_rdd = sc.parallelize([(u'a',1),(u'b',1),(u'c',1),(u'c',2),(u'd',2)]) 

gibi RDD verilere sahip Ben (aynı id liste sözü sen (kelime, id) üzerinde kimliği çıkarılamadı istiyorum id = 1 ve ('c', 'd') = 2)

için ('a', 'b', 'c') gibi özütler daha sonra her bir kimlik için olası birleşimi bulmak üzere itertools kombinasyonlarını çalıştırın

sonuç

gibi olurdu
[((u'a',u'b'),1),((u'a',u'c'),1),((u'b',u'c'),1),((u'c',u'd'),2)] 

but I (RDDs iterable değildir) olamaz pyspark

cevap

0

yılında itertools kullanabilir ve hiçbir neden orada değil nasıl fikrim yok. Tek ihtiyacınız olan join ve filter.