S3 grubumda çok fazla json dosyası var ve bunları okuyabilmek ve bu dosyaları sorgulamak istiyorum. Sorun şu ki oldukça basılmışlar. Bir json dosyası sadece tek bir büyük sözlüğe sahiptir, ancak bir satırda değildir. this başlığına göre, json dosyasındaki bir sözlük Apache Spark'in bir sınırlaması olan bir satırda olmalıdır. Ben bu şekilde yapılandırılmış değil.Apache Spark'de güzel baskı json dosyalarını okuma
Apache Spark (her satıra bir sözlükte gerektirdiği şemanıza göre bu dosyaları dönüştürme önlemek Can - İşte
sorularım şunlardır -{ "dataset": [ { "key1": [ { "range": "range1", "value": 0.0 }, { "range": "range2", "value": 0.23 } ] }, {..}, {..} ], "last_refreshed_time": "2016/09/08 15:05:31" }
Benim JSON şema şöyle bir dosya) ve hala okuyabiliyor musunuz?
Değilse, Python'da bunu yapmanın en iyi yolu nedir? Kovadaki her gün için bir sürü dosyam var. Kova güne göre bölünmüştür.
Bu dosyaları Apache Spark dışında sorgulamak için daha uygun başka bir araç var mı? AWS yığınındayım, bu yüzden Zeppelin notebook'la önerebileceğiniz başka herhangi bir aracı deneyebilirsiniz. Sen Burada
sc.wholeTextFiles()
kullanabilirsiniz
Ben Spark aşina değilim, ama mevcut Python varsa sadece 'json' modülü kullanarak JSON dosyasına okumak ve sonra (güzel yazim olmadan geri dışarı yazma dahil istediğinizi yapabilirsiniz). – larsks