Ben twitter verilerle UTF-8 dosya var ve bir Python veri çerçevesi içine okumaya çalışıyorum ama sadece yerine Unicode dizeleri bir 'nesne' türü alabilirsiniz:Pandalar ile UTF-8 dosyaları nasıl okunur?
# file 1459966468_324.csv
#1459966468_324.csv: UTF-8 Unicode English text
df = pd.read_csv('1459966468_324.csv', dtype={'text': unicode})
df.dtypes
text object
Airline object
name object
retweet_count float64
sentiment object
tweet_location object
dtype: object
doğru nedir UTF-8 verilerini Pandalar ile unicode'a okuma ve zorlama yolu?
df = pd.read_csv('1459966468_324.csv', encoding = 'utf8')
df.apply(lambda x: pd.lib.infer_dtype(x.values))
Metin dosyası burada: https://raw.githubusercontent.com/l1x/nlp/master/1459966468_324.csv
http://stackoverflow.com/a/20670901/2141635 –
kullanarak 'df.apply (lambda x: pd.lib.infer_dtype (x. değerler)) 'Unicode ve karma olarak türleri gösterir, yukarıdaki linke bakarsanız neler olduğunu göreceksiniz –