pandas.factorize, numaralandırılmış bir tür veya kategorik değişken olarak giriş değerlerini kodlar.

Veri çerçevesinin birçok sütununu nasıl kolayca ve verimli bir şekilde dönüştürebilirim? Ters haritalama adımından ne haber?

Örnek: Bu veri çerçevesi, sayısal değerlere dönüştürmek istediğim "tip 2" gibi dize değerlerine sahip sütunlar içerir ve büyük olasılıkla bunları daha sonra çevirir.

kaynak

2016-09-08 clstaudt

Eğer factorize için ayrı ayrı sütun gerekiyorsa apply kullanabilirsiniz:

df = pd.DataFrame({'A':['type1','type2','type2'], 
        'B':['type1','type2','type3'], 
        'C':['type1','type3','type3']}) 

print (df) 
     A  B  C 
0 type1 type1 type1 
1 type2 type2 type3 
2 type2 type3 type3 

print (df.apply(lambda x: pd.factorize(x)[0])) 
    A B C 
0 0 0 0 
1 1 1 1 
2 1 2 1

aynı dize değeri aynı sayısal bir için gerekirse:

print (df.stack().rank(method='dense').unstack()) 
    A B C 
0 1.0 1.0 1.0 
1 2.0 2.0 3.0 
2 2.0 3.0 3.0

Yalnızca işlevin Eğer drop_duplicates tarafından çiftleri kaldırmak gerekir dict tarafından map aracılığıyla

stacked = df[['B','C']].stack() 
df[['B','C']] = pd.Series(stacked.factorize()[0], index=stacked.index).unstack() 
print (df) 
     A B C 
0 type1 0 0 
1 type2 1 2 
2 type2 2 2

onları geri Çevir olan olası:

df[['B','C']] = df[['B','C']].stack().rank(method='dense').unstack() 
print (df) 
     A B C 
0 type1 1.0 1.0 
1 type2 2.0 3.0 
2 type2 3.0 3.0

Çözüm factorize ile: Bazı sütunlar, bir alt kümesini kullanmak

vals = df.stack().drop_duplicates().values 
b = [x for x in df.stack().drop_duplicates().rank(method='dense')] 

d1 = dict(zip(b, vals)) 
print (d1) 
{1.0: 'type1', 2.0: 'type2', 3.0: 'type3'} 

df1 = df.stack().rank(method='dense').unstack() 
print (df1) 
    A B C 
0 1.0 1.0 1.0 
1 2.0 2.0 3.0 
2 2.0 3.0 3.0 

print (df1.stack().map(d1).unstack()) 
     A  B  C 
0 type1 type1 type1 
1 type2 type2 type3 
2 type2 type3 type3

kaynak

2016-09-08 11:53:16 jezrael

Ve sadece sütunlar listesine, her kolona fonksiyonunu uygulamak istemiyorsanız? – clstaudt

Altkümeyi kullanabilirsin, bana bir saniye ver. – jezrael

Cevabımı yeniden yönlendirmek istiyorum: https://stackoverflow.com/a/32011969/1694714

Eski cevap

sonuçta ortaya çıkan DataFrame tutarlı kategoriler tutmak istediğinizde, yerine kullanıyor Bu sorunun başka okunabilir çözüm: örneğin biraz daha kötü

def categorise(df): 
    categories = {k: v for v, k in enumerate(df.stack().unique())} 
    return df.replace(categories)

işlemini gerçekleştirir @ jezrael, ama okumak daha kolay. Ayrıca, daha büyük veri kümeleri için daha iyi tırmanabilir. İlgilenirse uygun bir test yapabilirim.

kaynak

2017-04-10 17:39:54 tbrittoborges

Ben de oldukça yararlı bu cevabı bulundu: Bir Pandalar DataFrame içinde mevcut bir sütunun ('SrcIP' adlı IP adreslerinin bir listesi) değerleri alıp sayısal değerlere bunları eşleştirmek için çalışıyordu https://stackoverflow.com/a/20051631/4643212

yeni bir sütun (bu örnekte 'ID').

Çözüm:

df['ID'] = pd.factorize(df.SrcIP)[0]

Sonuç:

 SrcIP | ID  
192.168.1.112 | 0 
192.168.1.112 | 0 
192.168.4.118 | 1 
192.168.1.112 | 0 
192.168.4.118 | 1 
192.168.5.122 | 2 
192.168.5.122 | 2 
...

kaynak

2017-10-14 08:12:55

pandas.factorize, numaralandırılmış bir tür veya kategorik değişken olarak giriş değerlerini kodlar.

cevap

İlgili konular