2016-03-23 15 views
0

Karışık dosya kodlamalarla (maalesef Azure blob deposunda) HDF'ler üzerinde 100 GB'lık bir dosyam var. Her dosyanın dosya kodlamasını nasıl belirleyebilirim? Bazı dfs komut satırı komutu ideal olacaktır. Teşekkürler.HDF'lerdeki dosyanın dosya kodlaması nasıl belirlenir (Azure blob storage)?

+0

"İçerik-Kodlama" dosya yükleme ayarladınız mı:

hdfs dfs -cat wasb://[email protected]/path/to/file | head -n 10 > buffer; file -i buffer 

Bu, böyle bir şey olur? Eğer evet ise, bunu blobların özelliklerinden alabilirsiniz. Hayır ise, blobun bir parçasını ikili olarak alabilir ve blobun kodlamasını tahmin etmek için bir kodlama algılama programı kullanabilirsiniz. İşte kodlamayı tespit etmek için bir python paketi: [chardet] (https://pypi.python.org/pypi/chardet) –

cevap

1

Her dosyanın başlangıcını yerel bir arabelleğe yapıştırarak ve ardından file unix yardımcı programını uygulayarak ihtiyaç duyduğum sonuçları aldım. İşte komut tek bir dosya gibi görünür:

buffer: text/plain; charset=us-ascii 
0

Sen https://azure.microsoft.com/en-us/documentation/articles/xplat-cli-install/

komutu azure storage blob list deneyebilirsiniz ve azure storage blob show contentType, ContentLength, meta verileri de dahil tüm kullanılabilir damla özelliklerini dönecektir.

Bu bilgi istediğinizi içermiyorsa - dosya kodlamaları, her dosya için kendi metadata'u file-encoding tanımlamanız/ayarlamanız gerektiğini düşünüyorum. Daha sonra CLI aracıyla geri alabilirsiniz.

İlgili konular