2015-05-11 29 views
6

Ben gibi listelerin bir dict varsa:Bir taslak ile listelerin büyüklüğü nasıl sayılır?

{ 
    'id1': ['a', 'b', 'c'], 
    'id2': ['a', 'b'], 
    # etc. 
} 

ve ben vs listelerin boyutunu, yani kimlikleri> 0 sayısı,> 1> 2 ...

çetelesini istiyorum.

böyle döngüler için iç içe daha kolay bir yolu var mı:

dictOfOutputs = {} 
for x in range(1,11): 
    count = 0 
    for agentId in userIdDict: 
     if len(userIdDict[agentId]) > x: 
      count += 1 
    dictOfOutputs[x] = count   
return dictOfOutputs 

cevap

2

Ben uzunlukları toplamak için bir collections.Counter() object kullanmayı tercih ediyorum, daha sonra toplamları birikir:

from collections import Counter 

lengths = Counter(len(v) for v in userIdDict.values()) 
total = 0 
accumulated = {} 
for length in range(max(lengths), -1, -1): 
    count = lengths.get(length, 0) 
    total += count 
    accumulated[length] = total 

Bu sayede her uzunluk için sayı toplar, sonra biriktirilmiş uzunluklarla bir sözlük oluşturur. Bu bir O (N) algoritmasıdır; tüm değerlerin üzerinde size döngü bir defa, daha sonra (max() için ve birikim döngüsü) bazı küçük düz döngüler üzerinde ekleyin:

>>> from collections import Counter 
>>> import random 
>>> testdata = {''.join(random.choice('abcdefghijklmnopqrstuvwxyz') for _ in range(5)): [None] * random.randint(1, 10) for _ in range(100)} 
>>> lengths = Counter(len(v) for v in testdata.values()) 
>>> lengths 
Counter({8: 14, 7: 13, 2: 11, 3: 10, 4: 9, 5: 9, 9: 9, 10: 9, 1: 8, 6: 8}) 
>>> total = 0 
>>> accumulated = {} 
>>> for length in range(max(lengths), -1, -1): 
...  count = lengths.get(length, 0) 
...  total += count 
...  accumulated[length] = total 
... 
>>> accumulated 
{0: 100, 1: 100, 2: 92, 3: 81, 4: 71, 5: 62, 6: 53, 7: 45, 8: 32, 9: 18, 10: 9} 
0

Evet, daha iyi bir yol yoktur. Onların verisinin uzunluğuna

Birincisi, indeks kimlikleri: Artık

my_dict = { 
    'id1': ['a', 'b', 'c'], 
    'id2': ['a', 'b'], 
} 

from collections import defaultdict 
ids_by_data_len = defaultdict(list) 

for id, data in my_dict.items(): 
    my_dict[len(data)].append(id) 

, senin dicti oluşturun:

output_dict = {} 
accumulator = 0 
# note: the end of a range is non-inclusive! 
for data_len in reversed(range(1, max(ids_by_data_len.keys()) + 1): 
    accumulator += len(ids_by_data_len.get(data_len, [])) 
    output_dict[data_len-1] = accumulator 

yerine O (n²) daha bu vardır O (n) karmaşıklık, bu yüzden büyük veri kümeleri için daha hızlıdır.

İlgili konular