Her birinde (her yeni dosyadaki her kimlik) bir kimlik listesi içeren birçok (yaklaşık 6000) metin dosyası var. Her dosyada 10000 ila 10 milyon ID olabilir.Birçok listeden verimli bir şekilde benzersiz değerler kümesi nasıl elde edilir (Python)
Tüm bu dosyalardan bir dizi benzersiz kimlik nasıl edinilir?
Benim geçerli kod şöyle görünür: Geçerli koduyla
import glob
kk=glob.glob('C://Folder_with_all_txt_files/*')
ID_set=set()
for source in kk:
a=[]
csvReader = csv.reader(open(source, 'rt'))
for row in csvReader:
a.append(row)
for i in xrange(len(a)):
a[i]=a[i][0]
s=set(a)
ID_set=ID_set.union(s)
del a,s
Sorunları:
- 1) Çok fazla RAM tüketir
- 2) Çok yavaş
Bu görevi gerçekleştirmenin daha verimli bir yolu var mı?
Ayrıca, tüm CPU çekirdeğini bu görevde kullanmak mümkün mü?
Teşekkürler! şimdi daha hızlı çalışır .. Ama yine de çok miktarda RAM tüketir ( –