Spark'in Scala sürümünü kullanarak HDF5 dosyalarını okumak için bir yol var mı? Python'da (Pyspark üzerinden) yapılabilir, fakat Scala için bir şey bulamıyorum. o keyfi bölünmüş olma yeteneğine sahip olmadığı için HDF5 için Hadoop InputFormat
uygulama yokturHDF5 dosyalarını Apache Spark'de okuma
cevap
: "Breaking the container into blocks is a bit like taking an axe and chopping it to pieces, severing blindly the content and the smart wiring in the process. The result is a mess, because there's no alignment or correlation between HDFS block boundaries and the internal HDF5 cargo layout or container support structure." aynı site Avro dosyalara HDF5 dosyalarını dönüştürme olasılığını tartışıyor, böylece Hadoop/Kıvılcım tarafından okunacak sağlayarak, Ancak, aldığınız PySpark örneğinin muhtemelen daha basit bir yolu olduğunu, ancak bağlantılı belgenin de belirttiği gibi, Hadoop/Spark'de HDF5 belgeleriyle verimli ve etkili bir şekilde çalışmak için ele alınması gereken bazı teknik zorluklar vardır.
Bu, başlamanıza yardımcı olabilir.
http://hdfgroup.org/wp/2015/03/from-hdf5-datasets-to-apache-spark-rdds/
Scala aracılığıyla Apache Yeni Spark HDF5 konuşabilirsiniz yeni bir ürün var: Yukarıdaki ürün ile
https://www.hdfgroup.org/downloads/spark-connector/
sen Scala aşağıda gibi HDF5 açıp okuyabilir,:
//
// HOW TO RUN:
//
// $spark-2.3.0-SNAPSHOT-bin-hdf5s-0.0.1/bin/spark-shell -i demo.scala
import org.hdfgroup.spark.hdf5._
import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder().appName("Spark SQL HDF5 example").getOrCreate()
// We assume that HDF5 files (e.g., GSSTF_NCEP.3.2008.12.31.he5) are
// under /tmp directory. Change the path name ('/tmp') if necessary.
val df=spark.read.option("extension", "he5").option("recursion", "false").hdf5("/tmp/", "/HDFEOS/GRIDS/NCEP/Data Fields/SST")
// Let's print some values from the dataset.
df.show()
// The output will look like below.
//
//+------+-----+------+
//|FileID|Index| Value|
//+------+-----+------+
//| 0| 0|-999.0|
//| 0| 1|-999.0|
//| 0| 2|-999.0|
//...
System.exit(0)
this question cevabının birden fazla hdf5 f okumasıyla ilgili bir örneği vardır. Million Song Dataset'ten (.tar.gz olarak sıkıştırılmış) iles ve her dosyanın özelliklerini, her bir RDD öğesinin her bir hdf5 dosyasının özelliklerinden oluşan bir Dizi olduğu bir Spark RDD ile sonlanacak şekilde çıkarır.
- 1. hdf5 dosyalarını birleştirme
- 2. Apache Spark'de güzel baskı json dosyalarını okuma
- 3. Guitar Pro dosyalarını okuma
- 4. bmp dosyalarını okuma/yazma c
- 5. Python listelerine .csv dosyalarını okuma
- 6. HDF5 C Kod üretimi
- 7. Python w/scipy'de MatLab dosyalarını okuma
- 8. Akka Streams kullanarak bir CSV dosyalarını okuma
- 9. Apache POI'nin SXSSFSheet'i ile xlsx'ten veri okuma
- 10. Apache günlük dosyalarını döndürmenin en iyi yolu
- 11. h5py'yi kullanarak hdf5 veri kümesini silme
- 12. HDF5 Depolama Tepsisi
- 13. Apache
- 14. HDF5 Kullanıyor Güvenli Kitap Kütüphane
- 15. Chunked HDF5 DataSet ve slabsize
- 16. Test grubu varlığı hdf5/C++
- 17. Metin dosyalarını okuma satırı, tam ofset/konum bildirimi ile
- 18. WPF, WMF/EMF dosyalarını yerel olarak okuma/yazma destekliyor mu?
- 19. R içinde büyük RDS dosyalarını daha hızlı okuma
- 20. Apache
- 21. Apache .htaccess: .css dosyalarını ayrı bir alandan mı kullanıyorsunuz?
- 22. HDF5 C++ arabirimi: dinamik 2B dizilerini yazma
- 23. Java'da wav dosyası okuma
- 24. HDF5 dosyasını pandalara oku Şartlar altında DataFrame
- 25. Bir hdf5 dosyasını h5py'yi kullanarak nasıl geçirebilirim?
- 26. Pandalar, h5py ile oluşturulmuş hdf5 dosyasını okuyamaz
- 27. Değişken uzunluktaki listeleri pandalarda HDF5'e kaydetme
- 28. hdf5/h5py ImportError: libhdf5.so.7
- 29. h5py kullanarak HDF5 dosyasına tarama görüntüsü ekle
- 30. Apache