Pitondan itertools'u çalıştırmak mümkün mü?pyspark içinde itertools kombinasyonlarını() kullanma
varsayalım Ben bu aşağıdaki adımlar olarak yapmak istiyorum
data_rdd = sc.parallelize([(u'a',1),(u'b',1),(u'c',1),(u'c',2),(u'd',2)])
gibi RDD verilere sahip Ben (aynı id liste sözü sen (kelime, id) üzerinde kimliği çıkarılamadı istiyorum id = 1 ve ('c', 'd') = 2)
için ('a', 'b', 'c') gibi özütler daha sonra her bir kimlik için olası birleşimi bulmak üzere itertools kombinasyonlarını çalıştırın
sonuç
gibi olurdu[((u'a',u'b'),1),((u'a',u'c'),1),((u'b',u'c'),1),((u'c',u'd'),2)]
but I (RDDs iterable değildir) olamaz pyspark