0

BlockquoteÖzellik seçim teknikleri ile ilgili öneriler?

Ben Makine Öğrenmesi bir öğrenci ve acemi değilim.
özellikli sütun seçimi yapmak istiyorum. Veri kümem 50000 X 370 ve ikili sınıflandırma problemidir. Önce sütunları std.deviation = 0 ile kaldırdım, ardından çift sütunları kaldırdım, Bundan sonra en yüksek ROC eğri alanıyla en iyi 20 özelliği işaretledim. PCA'yı bir sonraki adım ne yapmalı? Özellik seçimi için takip edilmesi gereken bir dizi adımı olan var mı?

cevap

0

Zaten önişleme bir sürü yapıyoruz. Önerdiğim tek ek adım, PCA'dan sonra değerleri normalleştirmek. Sonra verileriniz öğrenme algoritmanıza beslenmeye hazır olmalıdır.

Yoksa PCA kaçınmak istiyoruz? Özellikleriniz arasındaki ilişki çok güçlü değilse, bu tamam olabilir. Daha sonra PCA'yı atlayın ve sadece değerleri normalleştirin.

+0

Tamam, ben ilk bölümü için aldım. Sorunun ikinci kısmına yorum yapabilir misiniz? –

+0

Sabit bir adım sırası yok. Çoğu durumda, ilk etapta yaptığınız tüm ön işlem adımları mantıklı. Diğerleri de belirli avantajlara sahip L1 düzenlileştirme veya Rastgele Orman gibi ek adımlar bahsetti. Ama benim ana tavsiyem: Aşırıya kaçmayın. Öğrenme algoritmanız için yapılması gereken bazı çalışmalar bırakın. –

0

Bu teknikler/algoritmalar aşağıdakileri deneyin edilebilir:

  1. L1 regülarizasyonu: Bu seyrek özelliği matris oluşturur; en fazla özellik ağırlıkları sıfır olacaktır. Fakat bu teknik, sizin durumunuzda geçerli olan yüksek boyutlu veri kümeniz varsa yararlıdır. Düzenlemeyi desteklemeyen algoritmalar vardır.

  2. Sıralı özellik seçimi: Düzenlemeyi desteklemeyen algoritmalar için yararlı olabilir. Bu gibi algoritmalar, problemle daha alakalı olan özelliklerin bir alt kümesini otomatik olarak seçer. Bu konuda daha fazla bilgiye buradan ulaşabilirsiniz: (1) Comparative Study of Techniques for Large Scale Feature Selection, F. Ferri, P. Pudil, M. Hatef ve J. Kittler. Geniş ölçekli özellik seçimi için tekniklerin karşılaştırmalı çalışması. Uygulama IV'teki Örüntü Tanınması, sayfalar 403 - 413, 1994 (2) Feature selection in scikit-learn.

  3. Dimentionality İndirgeme: Veri doğrusal olarak ayrılabilir, yani sorunun doğrusal ise PCA (temel bileşenler analizi) ve LDA (Lineer Discriminant Analysis) iyi çalışacaktır. Eğer veriler doğrusal olarak ayrılabilir değilse, çekirdek prensibi bileşen analizini deneyebilirsiniz.

  4. Rastgele Ormandaki önem önemlidir: Bu, size önemli özellikler (sayısal değerler) kazandıracak bir tekniktir. Düşük önem taşıyan özellikleri kaldırabilirsiniz.

+0

Rastgele ormanın bilgi kazancı üzerinde çalıştığını biliyorum. Yani bilgi kazanımı maksimum olan sadece ilk 20 değişken seçersem. Öyleyse, en iyi 20 performans özelliğine sahip olduğum için pca, regülasyon ve diğer yöntemleri yapmam gerektiğini söyleyebilir miyim? Bunu söylediğimde haklı mıyım? –

+0

En iyi 20 özelliği seçme konusunda çok özelseniz, cevap evet olur. –