2016-02-04 10 views
8

DynamoDB tablosuna ürün yazmak için bir program yazdım. Şimdi PySpark kullanarak DynamoDB tablosundaki tüm öğeleri okumak istiyorum. Spark'de bunu yapmak için herhangi bir kütüphane var mı?Tüm öğeleri Python kullanarak bir tablodan yüklemek için Spark programından DynamoDB'ye bağlanma?

+0

Bunu yapabiliyor musunuz? – rabz100

+0

Hayır, sadece boto belgelerinin kıvılcım olmadan ne yaptığını kullandım. –

+1

Bu kodu düzeltmeyi denerdim - https://github.com/bchew/dynamodump –

cevap

1

Sen boto3 aracılığıyla DynamoDB API parçası ve PySpark için yazılmış paralel S3 dosya işleme uygulaması gibi bir şeması olarak kullanılabilir parallel scans kullanabilirsiniz here tanımladı. Temel olarak, tüm anahtarları a-priori okumak yerine, Spark için map_func işlevinde tarama için maksimum parça segmenti ve segment numarası ve sabit kod listesi oluşturun.

İlgili konular