2013-02-28 8 views
5

pandalar benzersiz değer sayısı başına sayım ve ben pandas'dan nasıl yararlanacağınızı öğrenmeye çalışıyor. Bu durumda Plot anahtar ise</em> (x = unique_id_count, y = key_count) saymak</em><em>benzersiz id başına tuşların <em>sayısını çizdirmek istediğiniz ben bir veri setine sahip

:

unique_ids 1 = anahtar sayım ben dışarı çekerek ne istiyorum veri parçalamaya başardınız 1

from pandas import * 
key_items = ("a", "a", "a", "a", "a", "b", "b", "b", "b", "b", "c", "c", "c") 
id_data = ("X", "X", "X", "X", "X", "X", "X", "Y", "Y", "Y", "X", "X", "X") 

df = DataFrame({'keys': key_items, 'ids': id_data}) 

unique_ids 2 = tuş sayısı veri çerçevesinden veri ve yeniden yapılandırılması ve yeni bir veri çerçevesinin yeniden oluşturulması. ... Bu pandalar olmadan python her şeyi muhtemelen iyidir Bu durumda

unique_values = defaultdict(list) 
for items in df.itertuples(index=False): 
    key = items[1] 
    v = items[0] 
    unique_values[key].append(v) 

unique_values_count = {} 
for k, values in unique_values.iteritems(): 
    unique_values_count[k] = [len(set(values))] 

# reformat for plotting 
key_col = ("a", "b", "c") 
id_col = [unique_values_count[k][0] for k in key_col] 



df2 = DataFrame({"keys":key_col, "unique_id_count": id_col}) 
df2.groupby("unique_id_count").size().plot(kind="bar") 

ilk dataframe kullanarak daha fazla doğrudan yapmak için daha iyi bir yolu var mı?

cevap

9
s = df.groupby("keys").ids.agg(lambda x:len(x.unique())) 
pd.value_counts(s).plot(kind="bar") 
+1

kullanmak nasıl: 's' pandaları' şöyle nunique' işlevini kullanarak lambdas olmadan hesaplanabilir: ' s = df.groupby ("anahtarlar") agg (Series.nunique) ' – mjul

4

hakkında sadece doğrudan Bu biraz basitleştirilmiş olabilir value_counts()

pd.value_counts(df['ids']).plot.bar() 

enter image description here

İlgili konular