2013-05-27 24 views
5

CSV dosyalarını kabul eden bir web sayfam var. Bu dosyalar çeşitli yerlerde oluşturulabilir. (Sanırım) bir CSV dosyasında kodlamayı belirtmenin bir yolu yoktur - bu yüzden hepsini utf-8 veya başka bir kodlama olarak güvenilir bir şekilde tedavi edemiyorum.Karakter kodlamasını "koklamak" mümkün mü?

Elde ettiğim CSV kodlamasını akıllıca tahmin etmenin bir yolu var mı? Python ile çalışıyorum ama aynı zamanda dil agnostik yöntemleri ile çalışmaya istekliyim.

+2

yolları sürece olabildiğince vardır Yanlış algılamalar ile yaşamak, çünkü kodlamayı tahmin etmek için% 100 emin bir yol yoktur. –

+0

olası bir kopyası [Bazı baytların karakter kodlamasını tahmin etmeye çalışan bir Python kitaplığı işlevi var mı?] (Http://stackoverflow.com/questions/269060/is-there-a-python-library-function-which -test-code-the-character-encodin) –

+0

Bu dosyaların içinde bulunduğu dili biliyorsanız, kodlamayı oldukça güvenilir bir şekilde algılayabilir misiniz? – georg

cevap

6

Orada sadece dosyasının kendisini bakarak bir dosyanın kodlamasını belirlemek için doğru bir yoldur, ancak bazı ampirik yaklaşımlarla çözümü kullanabilirsiniz, mesela .: chardet