olduğunu. Veriler, bazı sütunların metin içermesi ve diğer sütunların sayı içermesi gibi karışık veri türlerini ele alabilmesinin büyük avantajıyla bir Pandas veri karesine yüklenir. Daha sonra, yalnızca sayısal sütunları kolayca seçebilir ve as_matrix ile bir numpy dizisine dönüştürebilirsiniz. Pandalar ayrıca read/write excel files and a bunch of other formats da olacak. Biz "mydata.csv" adlı bir CSV dosyası varsa
:
point_latitude,point_longitude,line,construction,point_granularity
30.102261, -81.711777, Residential, Masonry, 1
30.063936, -81.707664, Residential, Masonry, 3
30.089579, -81.700455, Residential, Wood , 1
30.063236, -81.707703, Residential, Wood , 3
30.060614, -81.702675, Residential, Wood , 1
Bu csv okumak ve scikit_learn için numpy diziye sayısal sütunları dönüştürür, sonra da sütunların sırasını değiştirmek ve yazma bir excel elektronik tabloya dışarı:
import numpy as np
import pandas as pd
input_file = "mydata.csv"
# comma delimited is the default
df = pd.read_csv(input_file, header = 0)
# for space delimited use:
# df = pd.read_csv(input_file, header = 0, delimiter = " ")
# for tab delimited use:
# df = pd.read_csv(input_file, header = 0, delimiter = "\t")
# put the original column names in a python list
original_headers = list(df.columns.values)
# remove the non-numeric columns
df = df._get_numeric_data()
# put the numeric column names in a python list
numeric_headers = list(df.columns.values)
# create a numpy array with the numeric values for input into scikit-learn
numpy_array = df.as_matrix()
# reverse the order of the columns
numeric_headers.reverse()
reverse_df = df[numeric_headers]
# write the reverse_df to an excel spreadsheet
reverse_df.to_excel('path_to_file.xls')
Bu yöntemi kullanarak özellik adlarını korumanın bir yolu var mı? – AlexFZ
@AlexFZ: doğrudan değil. Sadece 'f.readline()' yerine 'feature_names = f.readline() 'ı, split()' veya bunun bir varyantını (OP'nin üstbilgi çizgisi güzelce ayrılmış) yapamazsınız. [Pandas] (http://pandas.pydata.org) bunun için daha iyi bir işleve sahiptir. –
Soru soran bir boşluk ayrılmış dosya sağlamasına rağmen, soru bir csv veri dosyasına ilişkin olarak ortaya konmuştur. –