Python'da bir DataFrame'im var ve verilerimi önceden işlemem gerekiyor. Verileri önceden işlemek için en iyi yöntem hangisidir ?, bazı değişkenlerin büyük ölçekli olduğunu ve diğerlerinin olmadığını bilmektedir. Veriler de büyük bir sapma göstermedi. Preprocessing.Scale fonksiyonu ile çalıştı ve çalışır, ama emin değilim eğer makine öğrenme algoritmaları devam etmek için en iyi yöntem ise.Veri Önişleme Python
0
A
cevap
0
Veri önişleme için çeşitli teknikler vardır, sklearn.preprocessing'deki fikirleri takip etmek için potansiyel yönergeler olarak kullanabilirsiniz.
http://scikit-learn.org/stable/modules/preprocessing.html
Ön İşleme
okuyan verilerine bağlanmış, ancak genel olarak keşfetmek olabilir: Sütun başına onların yüzdesini- değerlendirilmesi eksik değerleri ve çıkarın sıfır varyansı ile değişkenler
- Artıklığı saptamak için inter değişken korelasyonunu değerlendirin
Sen pandalar kolayca bu puanlardan hesaplayabiliriz:
data_file = "your_input_data_file.csv"
data = pd.read_csv(data_file, delimiter="|")
variance = data.var()
variance = variance.to_frame("variance")
variance["feature_names"] = variance.index
variance.reset_index(inplace=True)
#reordering columns
variance = variance[["feature_names","variance"]]
logging.debug("exporting variance to csv file")
variance.to_csv(data_file+"_variance.csv", sep="|", index=False)
missing_values_percentage = data.isnull().sum()/data.shape[0]
missing_values_percentage = missing_values_percentage.to_frame("missing_values_percentage")
missing_values_percentage["feature_names"] = missing_values_percentage.index
missing_values_percentage.reset_index(inplace=True)
missing_values_percentage = missing_values_percentage[["feature_names","missing_values_percentage"]]
logging.debug("exporting missing values to csv file")
missing_values_percentage.to_csv(data_file+"_mssing_values.csv", sep="|", index=False)
correlation = data.corr()
correlation.to_csv(data_file+"_correlation.csv", sep="|")
yukarıda sırasıyla varyansı tutan üç dosya üretecek, değerler yüzde ve korelasyon sonuçlarını eksik.
Eğitici üzerinde bir el için this blog makalesine bakın.
İlgili konular
- 1. Python veri kümesi
- 2. Veri noktalarını python
- 3. C99, "İsminin aksine, bir yönergeye karşın bir önişleme yönergesidir."
- 4. Görsel stüdyo otomatik olarak önişleme direktiflerini girebilir/biçimlendirebilir mi?
- 5. Python Kullanıcı Tanımlı Veri Türü
- 6. turşu ve python veri yapısı
- 7. Python MySQLdb ekleme değil veri
- 8. Python Numpy Veri Türleri Performansı
- 9. Python ctypes veri yapısını hizala
- 10. Python kullanarak Firebase'den Veri Alınma
- 11. Python ve Flask ile veri akışı
- 12. Python: Zaman çizelgesini bir veri çerçevesine dönüştürün
- 13. Python - veri çerçevesine matris, sütunları yeniden adlandır
- 14. SNMP'den python ile veri nasıl alınır?
- 15. panda kullanarak veri analizi için python kodu
- 16. python ile .numbers dosyasından veri ayıklama
- 17. python - bir plt.imshow() dosyasından veri nasıl alınır?
- 18. pyserial/python ve gerçek zamanlı veri toplama
- 19. Python kullanarak json stok dosyasından veri ayıkla
- 20. Python: Veri listeme ek girişler nasıl kaydedilir?
- 21. Python pandaları veri çerçevesi nasıl yeniden düzenlenir?
- 22. Python veri yapısı sıralama listesi alfabetik olarak
- 23. Python: veri çerçevesindeki verileri özetleyen bir
- 24. Python SpeedUp: Yavaş MongoDB veri okuma
- 25. Python-Sayısal olmayan veri listelerinden tablo oluşturma
- 26. Python
- 27. Python
- 28. Veri türü
- 29. Python
- 30. Python veri yapısı validator (veya benzer bir şey) kullanarak veri yapısı doğrulaması
sorunuzu çok genel, tam olarak ne arıyorsun belirtebilirsiniz? Genel olarak ön işlem konusunda bazı ipuçları verdim, ama ne aradığınızı bilmiyorum. – MedAli