Belirli bir veri kümesinin en yüksek varyansıyla boyutları tanımlamak için pca kullanmalıyım. Bunu yapmak için scikit-learn'in pca'sını kullanıyorum, fakat pca yönteminin çıktısından, verilerimin en yüksek varyansa sahip bileşenleri neler olduğunu tanımlayamıyorum. Bu boyutları ortadan kaldırmak istemediğimi, sadece onları tanımladığımı unutmayın.Boyutları scikit-learn PCA kullanarak en yüksek varyansla bulma PCA
Verilerim, her biri 4 boyuta sahip 150 satırlık veri içeren bir matris olarak düzenlenmiştir. Ben aşağıdaki gibi yapıyorum:
pca = sklearn.decomposition.PCA()
pca.fit(data_matrix)
Ben pca.explained_variance_ratio_, bu en yüksekten en düşüğe sıralı varyans oranları bir dizi verir yazdırmak, ancak onlar karşılık verilerden hangi boyut bana söylemez (matrisimde sütunların sırasını değiştirmeyi denedim ve ortaya çıkan varyans oran dizisi aynıydı).
pca.components_ yazdırma bana ait ... scikit belgelerine göre anlam anlayamıyorum bazı değerlere sahip bir 4x4 matris (I PCA için argüman olarak bileşenlerin asıl sayısını sol) verir, bunlar olmalı Maksimum varyansa sahip bileşenler (belki özvektörler?), ancak bu değerlerin hangi boyutlara başvurduğuna dair bir işaret yoktur.
Verilerin dönüştürülmesi ya yardımcı olmaz çünkü boyutlar aslında hangisinin orijinal olduğunu bilmediğim şekilde değiştirilir.
Bu bilgiyi scikit'in pca ile elde etmenin herhangi bir yolu var mı? Teşekkürler
components_'' '' ilk satırında maksimum varyans yönü ise, dokümantasyon devletler olarak. Bunun hakkında net olmayan bir şey olduğundan emin değilim. '' Explan_variance_ratio_'' içindeki girdiler '' component_'' satırlarına karşılık gelir. Ne demek "bu değerlerin hangi ölçüye başvurduğunu gösteren bir işaret yok" mu? –
Peki, benim sorunum, verilerimde 4 boyutum olduğunu ve sadece 2 boyutun en yüksek varyansı olan boyutu korumak istediğimi, eğer PCA'yı uygularsam, verilerinimin hangi boyutlarının korunacağını nasıl anlarım? n_components = 2. Örneğin, verilerimin ikinci boyutu ve dördüncü boyutunun en yüksek varyansa sahip olduğunu varsayalım, ancak bunu bilmiyorum. PCA'yı uygulamak istiyorum ve bu bilgileri sonuçlardan almak için bir yolum var. Yine, verileri dönüştürmem gerekmiyor! –