piton nltk.sent_tokenize hata ASCII codec'i başarıyla bir değişkene metin okuyabilir

deşifre edemez ama metinler bu garip hata alıyorum im tokenize çalışırken: Ben hatasının nedenini olduğunu biliyoruzpiton nltk.sent_tokenize hata ASCII codec'i başarıyla bir değişkene metin okuyabilir

sentences=nltk.sent_tokenize(sample) 
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 11: ordinal not in range(128)

Tüyleştiricinin okuyamayacağı/çözemediği bazı özel dize/char'dur, ancak sonra bunu nasıl atlatabiliriz? Teşekkür

kaynak

2014-11-30 rzach

Bunu denemek gerekir: Özetle

sentences=nltk.sent_tokenize(sample.decode('utf-8'))

kaynak

2014-11-30 11:54:13 shalini

çekicilik gibi çalıştı. OP'nin hatasından – rzach

'a teşekkürler, NLTK'nın sent_tokenize sırasında ASCII kodlamasını kullandığı açıktır. Bu nedenle, yukarıdaki UNICODE karakterinin ASCII (= 256) 'dan çok daha büyük CHAR setine (> 1M) sahip olması durumunda her zaman geçerli olmayan eşdeğer ASCII'ye dönüştürülebiliyorsa, yukarıdaki çözüm YALNIZCA çalışacaktır. – chandresh

, NLTK3 en pos_tag işlevi çalışmaz.

NLTK2 işlevi iyi çalışıyor, ancak.

pip kaldırma nltk

pip Öte yandan http://pypi.python.org/packages/source/n/nltk/nltk-2.0.4.tar.gz

yükleyin tagger oldukça kötü (görünüşte 'konservatuvar' bir fiildir). SpaCy'nin Windows üzerinde çalışmasını isterdim.

kaynak

2015-08-12 01:46:52 user3297367

piton nltk.sent_tokenize hata ASCII codec'i başarıyla bir değişkene metin okuyabilir

cevap

İlgili konular