Bujiyi java ile kullanıyorum ve 5 milyon satırlık bir RDD kullanıyorum. RDD'mdeki satır sayısını hesaplamama izin veren bir yanma var mı? RDD.count()
'u denedim ama çok zaman alıyor. fold
işlevini kullanabileceğimi gördüm. Ama bu işlevin bir java belgesini bulamadım. Lütfen bana nasıl kullanılacağını gösterebilir veya RDD'mdeki satır sayısını elde etmek için başka bir çözüm gösterebilir misiniz? Bir RDD'deki satır sayısını sayın
JavaPairRDD<String, String> lines = getAllCustomers(sc).cache();
JavaPairRDD<String,String> CFIDNotNull = lines.filter(notNull()).cache();
JavaPairRDD<String, Tuple2<String, String>> join =lines.join(CFIDNotNull).cache();
double count_ctid = (double)join.count(); // i want to get the count of these three RDD
double all = (double)lines.count();
double count_cfid = all - CFIDNotNull.count();
System.out.println("********** :"+count_cfid*100/all +"% and now : "+ count_ctid*100/all+"%");
teşekkür ederiz:
İşte benim kodudur.