Veri Önişleme Python

Python'da bir DataFrame'im var ve verilerimi önceden işlemem gerekiyor. Verileri önceden işlemek için en iyi yöntem hangisidir ?, bazı değişkenlerin büyük ölçekli olduğunu ve diğerlerinin olmadığını bilmektedir. Veriler de büyük bir sapma göstermedi. Preprocessing.Scale fonksiyonu ile çalıştı ve çalışır, ama emin değilim eğer makine öğrenme algoritmaları devam etmek için en iyi yöntem ise.Veri Önişleme Python

kaynak

2016-04-12 Diego Trujillo

sorunuzu çok genel, tam olarak ne arıyorsun belirtebilirsiniz? Genel olarak ön işlem konusunda bazı ipuçları verdim, ama ne aradığınızı bilmiyorum. – MedAli

Veri önişleme için çeşitli teknikler vardır, sklearn.preprocessing'deki fikirleri takip etmek için potansiyel yönergeler olarak kullanabilirsiniz.

http://scikit-learn.org/stable/modules/preprocessing.html

Ön İşleme

okuyan verilerine bağlanmış, ancak genel olarak keşfetmek olabilir: Sütun başına onların yüzdesini

hesaplayın varyans hesaplayarak,

değerlendirilmesi eksik değerleri ve çıkarın sıfır varyansı ile değişkenler
Artıklığı saptamak için inter değişken korelasyonunu değerlendirin

aşağıdaki gibi

Sen pandalar kolayca bu puanlardan hesaplayabiliriz:

data_file = "your_input_data_file.csv" 
data = pd.read_csv(data_file, delimiter="|") 
variance = data.var() 
variance = variance.to_frame("variance") 
variance["feature_names"] = variance.index 
variance.reset_index(inplace=True) 
#reordering columns 
variance = variance[["feature_names","variance"]] 
logging.debug("exporting variance to csv file") 
variance.to_csv(data_file+"_variance.csv", sep="|", index=False) 

missing_values_percentage = data.isnull().sum()/data.shape[0] 
missing_values_percentage = missing_values_percentage.to_frame("missing_values_percentage") 
missing_values_percentage["feature_names"] = missing_values_percentage.index 
missing_values_percentage.reset_index(inplace=True) 
missing_values_percentage = missing_values_percentage[["feature_names","missing_values_percentage"]] 
logging.debug("exporting missing values to csv file") 
missing_values_percentage.to_csv(data_file+"_mssing_values.csv", sep="|", index=False) 
correlation = data.corr() 
correlation.to_csv(data_file+"_correlation.csv", sep="|")

yukarıda sırasıyla varyansı tutan üç dosya üretecek, değerler yüzde ve korelasyon sonuçlarını eksik.

Eğitici üzerinde bir el için this blog makalesine bakın.

kaynak

2016-04-12 14:12:18 MedAli

Veri Önişleme Python

cevap

İlgili konular