Centos 6.5 üzerinde çalışan bir tonoz küme var. Şu anda python 2.6 kullanıyorum. İlişkisiz nedenlerden dolayı python 2.7'ye yükseltme yapamıyorum. Bu talihsiz gerçek nedeniyle pydoop'u kuramıyorum. Hamdogu küme içinde ham "yearmonthdaytimehour" olarak adlandırılan büyük miktarda ham veri dosyaları var. .txt parantez içinde her şey bir sayıdır. Python'da bir dolandırıcı dizinindeki tüm dosyaların bir listesini yapmak için bir yol var mı? Yani program, bir şey gibi görünen bir liste oluşturur. Her şeyi yapacakPydoop olmadan HDFS Python'da bulunan tüm dosyaları listele
listoffiles=['raw160317220001.txt', 'raw160317230001.txt', ....]
i sadece dothing çağırmak gerekir gün 2 saat 15 dosyayı almak için çünkü çok daha kolay yapmak gerekir (listoffiles [39]). Bu şekilde neden yapmak zorunda olduğumun alakasız komplikasyonları var.
Yerel dizinlerle bunu kolayca yapmanın bir yolu olduğunu biliyorum, ancak hadoop her şeyi biraz daha karmaşık hale getiriyor.
Yani Pyphon'da HDFS dosyalarını pydoop olmadan listelemek için bir yol mu istiyorsunuz? – kichik
Sadece hadoop fs -ls komutunu bir kabuk işlemiyle çalıştırın (Hadoop ikili dosyalarını yüklediğiniz varsayılarak) –
Tüm hdfs dosyalarının adlarını içeren bir dizinin nasıl oluşturulacağını soruyorum. – Sam