Metin yaklaşık 22.000 satırdır ve yaklaşık 3,5 MB'dir. İçinde çok sayıda yinelenen çizgi var. Sadece yinelenen satırları ve ayrıca gerekli olmayan belirli dizeleri içeren bazı satırları kaldırmak istiyorum.Python kullanarak bir txt dosyasında (ve ayrıca belirli dizeler içeren bazı satırlarda) yinelenen satırları çıkarmanın en hızlı yolu nedir?
Yolum, readlines() yöntemini kullanarak dosyayı büyük bir listeye okumaktır, sonra read() yöntemini kullanarak dosyayı büyük bir dize olarak okumaktır. Listeyi yineleyin, olayı sayın, satırı "" (boş dize) ile değiştirin. İşi bitirmem 10 dakikamı aldı?
Bunu yapmanın hızlı bir yolu var mı?
Çok teşekkürler!
Python şartı var mı:
Bu yöntem dosyaları dahil dizeleri döndürür herhangi iterable çalışır? Unix'te 'sort | uniq | grep -v 'badstring \ | çöp' komut satırından. –
"Olay sayısı" ile ne demek istiyorsun? Kaç tane kopyası olduğunu bilmek ister misiniz? Tamamen veya her bir kopya grubu için mi? –
Eh, Unix/Linux hakkında fazla bir şey bilmiyorum, bu yüzden winxp ile koymak zorunda kaldım ... – Shane