Tüm öğeleri Python kullanarak bir tablodan yüklemek için Spark programından DynamoDB'ye bağlanma?

DynamoDB tablosuna ürün yazmak için bir program yazdım. Şimdi PySpark kullanarak DynamoDB tablosundaki tüm öğeleri okumak istiyorum. Spark'de bunu yapmak için herhangi bir kütüphane var mı?Tüm öğeleri Python kullanarak bir tablodan yüklemek için Spark programından DynamoDB'ye bağlanma?

kaynak

2016-02-04 sms_1190

Bunu yapabiliyor musunuz? – rabz100

Hayır, sadece boto belgelerinin kıvılcım olmadan ne yaptığını kullandım. –

Bu kodu düzeltmeyi denerdim - https://github.com/bchew/dynamodump –

Sen boto3 aracılığıyla DynamoDB API parçası ve PySpark için yazılmış paralel S3 dosya işleme uygulaması gibi bir şeması olarak kullanılabilir parallel scans kullanabilirsiniz here tanımladı. Temel olarak, tüm anahtarları a-priori okumak yerine, Spark için map_func işlevinde tarama için maksimum parça segmenti ve segment numarası ve sabit kod listesi oluşturun.

kaynak

2017-02-13 13:20:31

Tüm öğeleri Python kullanarak bir tablodan yüklemek için Spark programından DynamoDB'ye bağlanma?

cevap

İlgili konular