2015-09-16 24 views
10

Soru: pandalar veri alanında kategori sütunu için NaN'leri en sık kullanılan seviyeyle nasıl dolduracağınız sorusudur? R randomForest pakette pandalarda kategoriler için eksik değerlerin itirafı

na.roughfix seçenek vardır: A completed data matrix or data frame. For numeric variables, NAs are replaced with column medians. For factor variables, NAs are replaced with the most frequent levels (breaking ties at random). If object contains no NAs, it is returned unaltered. Ben NaN ile değerleri doldurabilirsiniz sayısal değişkenler için Pandalar içinde

:

df = df.fillna(df.median()) 

cevap

17

Sen en sık değerle NaN'ler doldurmak için df = df.fillna(df['Label'].value_counts().index[0]) kullanabilirsiniz bir sütundan. Eğer kendi en sık değerle her sütun doldurmak istiyorsanız

Eğer

df = df.apply(lambda x:x.fillna(x.value_counts().index[0]))

+0

Teşekkür kullanabilirsiniz işe yarıyor. Aynı zamanda numpy 'np.asscalar ile yapabileceğimi de öğrendim ((mode (df ['Label']) [0]))' –

+0

İlk durum için 'df.fillna' bir' inplace' anahtar kelimesini alır. biraz daha özlü kod için yapar 'True' olarak ayarlayabilirsiniz. – James