Apache Spark kullanarak pdf/ses/video dosyalarını (yapılandırılmamış veri) okumak mümkün mü? Örneğin, binlerce pdf faturam var ve bunlardan veri okumak ve bazı analizler yapmak istiyorum. Yapılandırılmamış verileri işlemek için hangi adımları uygulamalıyım?Apache Spark kullanarak pdf/ses/video dosyalarını (yapılandırılmamış veri) okumak mümkün mü?
5
A
cevap
6
Evet, öyle. Dosyaları ikili biçimde yüklemek için sparkContext.binaryFiles
'u kullanın ve başka bir formata eşlemek için map
kullanın, örneğin Apache Tika veya Apache POI ile ikili dosyaları ayrıştırın.
yalancı kod: cevabım önce belirtildiği gibi
önemli olanval rawFile = sparkContext.binaryFiles(...
val ready = rawFile.map (here parsing with other framework
, ayrıştırma diğer çerçeveyle yapılmalıdır. Harita, InputStream'i bir argüman olarak alacaktır
İlgili konular
- 1. Gömülü bir apache Spark node örneğini başlatmak mümkün mü?
- 2. Python kullanarak Apache Spark TFIDF
- 3. Apache Spark, HDFS veri düğümlerini nasıl biliyor?
- 4. Bir url'den System.IO.Stream nesnesine okumak mümkün mü?
- 5. iOS'ta korumalı NFC etiketlerini okumak mümkün mü?
- 6. Apache Spark vs. Apache Storm
- 7. Xlsxwriter kullanarak Python'daki bir Excel sayfasından veri okumak mümkün mü? Öyleyse nasıl?
- 8. .Gitignore dosyalarını SVN dışında tutmak mümkün mü?
- 9. LESS dosyalarını, lessc kullanarak yorumları kaldırmadan sıkıştırmak mümkün mü?
- 10. Apache Spark içinde Matris Çarpımı
- 11. HDF5 dosyalarını Apache Spark'de okuma
- 12. RDD ve bölüm, Apache Spark
- 13. Doküman dosyalarını Python ile düzenlemek mümkün mü?
- 14. Spark uygulamasında veri filtreleme Spark
- 15. Apache Ignite ve Apache Spark entegrasyonu, IgniteRDD
- 16. Apache Spark ALS önerileri yaklaşımı
- 17. Verileri SQL Server kullanarak Spark SQL kullanarak okuma
- 18. As3 kullanarak .m4a dosyasını oynatmak mümkün mü?
- 19. Android'de SMS başlığını okumak ve/veya değiştirmek mümkün mü?
- 20. Verileri Spark ile gruplara göre ölçeklendirmek mümkün mü?
- 21. MySQL'de Veri Denetimi'ni Düzenli İfade Kullanarak Uygulamak Mümkün mü
- 22. JavaScript kullanarak google sayfalarına veri yazmak mümkün mü?
- 23. Websphere MQ, Apache Spark Streaming için bir veri kaynağı olarak
- 24. Apache Spark'de güzel baskı json dosyalarını okuma
- 25. Apache Spark 2.0: java.lang.UnsupportedOperationException: java.time.LocalDate
- 26. Scalaz Tip Apache Spark için Sınıflar RDD'ler
- 27. Dizeleri okumak ve bir Regexp döndürmek mümkün mü?
- 28. C# içindeki konsoldan bilinmeyen satır sayısını okumak mümkün mü?
- 29. Android'de CPU önbellek isabet/miss oranını okumak mümkün mü?
- 30. Bir dosyanın değişiklik tarihini Ruby ile okumak mümkün mü?
"Okuma pdf kıvılcımı" aranıyor http://blog.cloudera.com/blog/2015/10/how-to-index-scanned-pdfs-at-scale-using- StackOverflow için konu dışıysa 50'den az satırlık kod/ –
Off-site kaynak önerisi. Bazı iş akışı ile cevap verdim, kendiniz uygulamanız gereken ayrıntılar –