utf-8'de kodlanmış Arapça, İngilizce, Rusça dosyalarım var. Bir Perl script kullanarak bu dosyaları işlemek için çalışılıyor, bu hatayı alıyorum:Metin dosyasından olmayan UTF-8 karakterleri nasıl kaldırılır
Malformed UTF-8 character (fatal)
Elle bu dosyaların içeriğini kontrol etmek, onlarda bazı garip karakterler bulundu. Şimdi bu karakterleri dosyalardan otomatik olarak kaldırmanın bir yolunu arıyorum.
Bunu yapmak için yine de var mı?
Belki de bununla aynı: http://stackoverflow.com/questions/7656283/malformed-utf-8-character-fatal-error-while-parsing-xml-using-xmllibxml –
Lütfen bu bağlantıya bakın: http://unix.stackexchange.com/questions/6516/filtering-invalid-utf8 – askmish
UTF-8 olmayan karakterler nedir? İyi biçimlendirilmiş bir UTF-8 dizesindeki tüm karakterler UTF-8 (aslında Unicode) karakterlerdir! Bunlardan bazıları, birkaç ardışık baytta kodlanmış UTF-8'dir .... –