2012-09-24 12 views
6

Dizüstü bilgisayarımdaki (Amazon Elastic Compute Cloud veya herhangi bir büyük kümede değil) Python mrjob modülü aracılığıyla bir mapreduce işini çalıştırmak için harici bir komut dosyası yazıyorum.Python'dan bir koşucu için giriş dosyası nasıl belirlenir?

MRJob.make_runner() kullanmam için aşağıdaki gibi bir ayrı python komut dosyasından bir mapreduce işini kullanmam gerektiğini mrjob documentation10'dan okurum.

mr_job = MRYourJob(args=['-r', 'emr']) 
with mr_job.make_runner() as runner: 
    ... 

Ancak, hangi girdi dosyasının kullanılacağını nasıl belirleyebilirim? Mapreduce komut dosyası ve haritayı azaltan başka bir python betiğiyle aynı dizinde bir "datalines.txt" dosyası kullanmak istiyorum. Ayrıca, çıkışı nasıl belirleyebilirim?

Bu parametreleri belirtmemi sağlayan mrjob belgelerinde bir işlev bulamadım.

mr_job = MRYourJob(args=["datalines.txt"]) 
:

cevap

İlgili konular