'ö', 'ü', vb. Gibi karakterler içeren utf-8 kodlaması kullanan metin dosyalarım var. Bu dosyaları metin formunu ayrıştırmak istiyorum ancak belirteci alamıyorum. düzgün çalış.nltk kullanarak unicode kullanarak hizalama
f = open('C:\Python26\text.txt', 'r') # text = 'müsli pöök rääk'
text = f.read()
f.close
items = text.decode('utf8')
a = nltk.word_tokenize(items)
Çıktı:
f = open('C:\Python26\text.txt', 'r') # text = 'müsli pöök rääk'
text = f.read()
f.close
items = text.decode('utf8')
a = PunktWordTokenizer().tokenize(items)
çıktı: [u'\ufeffm\xfcsli', u'p\xf6\xf6k', u'r\xe4\xe4k']
yoktur [u'\ufeff', u'm', u'\xfc', u'sli', u'p', u'\xf6', u'\xf6', u'k', u'r', u'\xe4', u'\xe4', u'k']
Punkt tokenizer iyi yapmak gibi görünüyor ben standart nltk dizgeciklerini kullanırsanız yine İlk belirteçten önce '\ ufeff' anlayamadım (onu kaldıramıyorum). Neyi yanlış yapıyorum? Çok takdir edilmesine yardımcı olun.
Teşekkürler. Kodunuz hileyi kaldırıyor \ uFEFF – root
@ user1199589 Rica ederim. Yardımcı olduğuma sevindim. –
Bana da yardım etti. Çok teşekkürler! – Pitarou