İki dosyam var, bir özet (csv dosyasından ayıklanan çok sayıda satır içeriyor) ve diğer sözcük listesi (csv dosyasında satır). Ben iki dosyayı okumak ve her biri için Array [Dize] var: summary
her hattı içinKelime-Sözlük Hattı-Satırından sözcükleri ayıkla
val summary: Array[String] = ...
val wordList: Array[String] = ...
, ben,
Numune verileri de wordList
mevcut kelimelerin listesini çıkarmak istiyorum summary
içinde:
hi how are you
I am good.how about you.
I would like to have tea.
Örnek veri wordList
içinde:
good
tea
you
like
Beklenen sonuç:
import scala.collection.mutable.ArrayBuffer
val results = summary.map(l => {
var result = ArrayBuffer[String]();
wordList.foreach(w => {if (l.contains(w)) result.append(w)});
result.toArray.mkString(",")
}).filter(l => l.length > 0)
Neden csv'yi doğrudan bir veri çerçevesine aktarmıyor musunuz? https://github.com/databricks/spark-csv – ulrich
Bu açıkça bir ödevdir. Ne denediğini ve tam olarak nerede sıkıştığını göstersen en iyisi olur. Ayrıca, bunu Spark ile etiketlediniz ama Diziler var - bunlar gerçekten RDD'ler mi? –
Aynı zamanda, cevap verdiğimi unuttuğum biri de dahil olmak üzere birçok başka sorunun kopyası… –