2016-04-12 11 views
0

Python'da bir DataFrame'im var ve verilerimi önceden işlemem gerekiyor. Verileri önceden işlemek için en iyi yöntem hangisidir ?, bazı değişkenlerin büyük ölçekli olduğunu ve diğerlerinin olmadığını bilmektedir. Veriler de büyük bir sapma göstermedi. Preprocessing.Scale fonksiyonu ile çalıştı ve çalışır, ama emin değilim eğer makine öğrenme algoritmaları devam etmek için en iyi yöntem ise.Veri Önişleme Python

+0

sorunuzu çok genel, tam olarak ne arıyorsun belirtebilirsiniz? Genel olarak ön işlem konusunda bazı ipuçları verdim, ama ne aradığınızı bilmiyorum. – MedAli

cevap

0

Veri önişleme için çeşitli teknikler vardır, sklearn.preprocessing'deki fikirleri takip etmek için potansiyel yönergeler olarak kullanabilirsiniz.

http://scikit-learn.org/stable/modules/preprocessing.html

Ön İşleme

okuyan verilerine bağlanmış, ancak genel olarak keşfetmek olabilir: Sütun başına onların yüzdesini
  • hesaplayın varyans hesaplayarak,

    1. değerlendirilmesi eksik değerleri ve çıkarın sıfır varyansı ile değişkenler
    2. Artıklığı saptamak için inter değişken korelasyonunu değerlendirin
    aşağıdaki gibi

    Sen pandalar kolayca bu puanlardan hesaplayabiliriz:

    data_file = "your_input_data_file.csv" 
    data = pd.read_csv(data_file, delimiter="|") 
    variance = data.var() 
    variance = variance.to_frame("variance") 
    variance["feature_names"] = variance.index 
    variance.reset_index(inplace=True) 
    #reordering columns 
    variance = variance[["feature_names","variance"]] 
    logging.debug("exporting variance to csv file") 
    variance.to_csv(data_file+"_variance.csv", sep="|", index=False) 
    
    missing_values_percentage = data.isnull().sum()/data.shape[0] 
    missing_values_percentage = missing_values_percentage.to_frame("missing_values_percentage") 
    missing_values_percentage["feature_names"] = missing_values_percentage.index 
    missing_values_percentage.reset_index(inplace=True) 
    missing_values_percentage = missing_values_percentage[["feature_names","missing_values_percentage"]] 
    logging.debug("exporting missing values to csv file") 
    missing_values_percentage.to_csv(data_file+"_mssing_values.csv", sep="|", index=False) 
    correlation = data.corr() 
    correlation.to_csv(data_file+"_correlation.csv", sep="|") 
    

    yukarıda sırasıyla varyansı tutan üç dosya üretecek, değerler yüzde ve korelasyon sonuçlarını eksik.

    Eğitici üzerinde bir el için this blog makalesine bakın.