Kategorik verilerin nasıl kullanılacağını anlamaya çalışıyorum sklearn.linear_model
LogisticRegression
.Kategorik verileri sklean'da özellikler olarak kullanma LogisticRegression
Elbette bunu şifrelemem gerekiyor. Anlamıyorum ne
bir kategorik özellik olarak işlenmiş oluyor böylece Lojistik regresyon için kodlanmış özelliğini geçmek ve standart ölçülebilir özellik olarak kodlayan zaman var int değerini yorumlama değil nasıl olduğunu.
(Daha az önemli) Birisi,
preprocessing.LabelEncoder()
,DictVectorizer.vocabulary
kullanımı arasındaki farkı açıklayabilir mi yoksa yalnızca kategorik verileri kendiniz basit bir kodla kodluyor mu? Konuya Alex A.'s comment here dokunur ama çok derin değil.
Özellikle birincisi ile!
sayesinde benim asıl sorun Kedi 1 olarak kodlanan eğer öyleyse lojistik reg, standart bir sayısal değer olarak sayısal değerleri dikkate alacaktır olmasıdır ve Köpek 2 olarak, atanan değerlerin anlamsız olduğunu bildiğimiz halde, 'Köpek' ile ilgili gözlemlerin söz konusu mülkün 'daha fazla' olduğunu varsayacaktır. – Optimesh
@Optimesh, "Kodlanmış" ile ne demek istiyorsun? Hedef değişkenler hakkında konuşuyorsanız - hedeflerde [1,2,3] yanlış bir şey yoksa, LogisticRegression basitçe 3 (bu özel durumda) sınıflandırıcılar oluşturacak ve bunları OneVsRest şemasında birleştirecektir. Özellikler hakkında konuşuyorsanız - OneHotEncoder her bir kategorik özelliği ikili biçimde kodlayacaktır, yani kategorik özellik için her bir olası değer yerine yeni ikili özellik yaratacaktır, örneğin sonuç kümesi veri değerleri için ayrılmış ikili özellikler (sütunlar) olacaktır. 1, Köpek = 2, Köpek = 3, Kedi = 1, vb. Resmi belgelerindeki örneklere bakın. –