'da açıkça nasıl etkilenir Bir dosyadan büyük bir veri kümesi okumalı, onu bir Spark matrisine dönüştürmeli ve matriste bazı makine öğrenimi algoritmaları çalıştırmalıyım. Makine öğrenimi algoritmalarının hızını ölçmek istiyorum. Kıvılcım RDD'leri her zaman tembel olarak değerlendirildiğinden, makine öğrenimi algoritmasını karşılaştırmak zordur. Çalışma zamanını ölçtüğümde, giriş dosyasının ayrıştırılması için çalışma zamanını da içerir.Bir RDD'yi Spark
Spark'i bazı RDD'leri somutlaştırmak için zorlamanın bir yolu var mı? Böylece, makine öğrenimi algoritmasını çalıştırmadan önce giriş dosyasını ayrıştırabilir miyim?
sayesinde Da
Veritabanına ve saveAsTable'a dönüştürme hakkında? –