2012-08-29 18 views
10

Amazon Elastic MapReduce ürününü mevcut DB'mizde kullanmak istiyoruz (Cassandra'yı EC2'de kullanıyoruz). Amazon EMR SSS'sine bakıldığında, bu mümkün olmalıdır: Amazon EMR FAQ: Q: Can I load my data from the internet or somewhere other than Amazon S3?Elastik MapReduce için harici veri kaynağını yapılandırma

Ancak, yeni bir iş akışı oluştururken, S3 grubunu yalnızca giriş veri kaynağı olarak yapılandırabiliriz.

Bunu nasıl yapacağınıza dair herhangi bir fikir/örnek var mı?

Teşekkürler!

P.S .: Bu soruyu How to use external data with Elastic MapReduce görmüştüm ama cevaplar gerçekten nasıl yapılacağını/nasıl yapılandırılacağını açıklayamıyor, sadece bu mümkün.

cevap

0

senin EMR örneğine dosyaları kopyalamak için scp kullanmayı deneyin:

my-desktop-box$ scp mylocaldatafile my-emr-node:/path/to/local/file 

(veya ftp veya wget veya curl veya başka bir şey istediğiniz kullanın)

sonra ile EMR örneğine giriş ssh ve hadoop içine yüklemek:

my-desktop-box$ ssh my-emr-node 
    my-emr-node$ hadoop fs -put /path/to/local/file /path/in/hdfs/file 
1

Nasılsın verileri işliyor musun? EMR sadece yönetilen hadoop. Hala bir çeşit işlem yazmanız gerekiyor.

Hadoop Mapreduce işini yazıyorsanız, java yazıyorsunuz ve buna erişmek için Cassandra apis'i kullanabilirsiniz.

Kovan gibi bir şey kullanmak istiyorsanız, Cassandra tarafından desteklenen verileri kullanmak için bir Hive depolama işleyicisi yazmanız gerekecektir.

İlgili konular