Çok sayıda CSV dosyasını python'da işliyorum. Dosyalar harici organizasyonlardan alınır ve bir dizi kodlamayla kodlanır. Aşağıdaki kaldırmak için otomatik bir yöntem bulmak istiyoruz:Yazdırılamayan "gremlin" karakterlerini metin dosyalarından çıkarma
- ASCII olmayan Karakterler
- Kontrol karakterleri
- Boş (ASCII 0) Karakterler
ben diye bir ürün var 'Bul ve değiştirin! ' Normal ifadeleri kullanacak şekilde, yukarıdaki ifadeleri düzenli bir ifadeyle çözmenin çok yararı olacaktır.
Eğer
'Dosyalar dış kuruluşlardan alınmış ve bir dizi kodlamayla kodlanmıştır - ve bunlar ... Onları istemeyin mi? İlgili ürününüzün bununla ne ilgisi var? Verileri ne için kullanmaya çalışıyorsunuz ... Python'a gerçekten ihtiyacınız var mı? –
İyi sorular. CSV dosyaları. Kodlamalar 'bilinmeyen' (Bul ve Değiştir'e Göre!), 'Utf-8', 'iso-88591-1' ve diğerleri içerir. Onlara sorma - çok fazla e-posta, çok uzun. CSV dosyalarını yeniden biçimlendiren python'u zaten yazdım. Ve komut dosyası, gremlinlerin (bir şekilde eşdeğerde olduğu gibi) CSV.reader'ı dağıtmadığı durumlar hariç, çoğu durumda çalışır. Ancak, asciis olmayanı çıkarmak kodlanmış olsa beni çıkarırdı. Şerefe! –
Tüm bu yorumlar için teşekkürler. Yapılan işi elde etmek için aceleyle, BBEdit denen bir şey kullandım. Bu, pythonun tanımayacağı bir kodlamayla kodlanmış/r karakterleri gibi 'gremlinleri' kaldıracaktır (daha fazla çalışma olmadan). Şimdi bu gremlinleri BBEdit kullanarak nasıl tanımlayacağımı biliyorum, aşağıdaki çözümlerden herhangi birinin aynı şeyi yapıp yapmadığını kontrol edip ilk cevabı işaretlemem gerek. –