deşifre edemez ama metinler bu garip hata alıyorum im tokenize çalışırken: Ben hatasının nedenini olduğunu biliyoruzpiton nltk.sent_tokenize hata ASCII codec'i başarıyla bir değişkene metin okuyabilir
sentences=nltk.sent_tokenize(sample)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 11: ordinal not in range(128)
Tüyleştiricinin okuyamayacağı/çözemediği bazı özel dize/char'dur, ancak sonra bunu nasıl atlatabiliriz? Teşekkür
çekicilik gibi çalıştı. OP'nin hatasından – rzach
'a teşekkürler, NLTK'nın sent_tokenize sırasında ASCII kodlamasını kullandığı açıktır. Bu nedenle, yukarıdaki UNICODE karakterinin ASCII (= 256) 'dan çok daha büyük CHAR setine (> 1M) sahip olması durumunda her zaman geçerli olmayan eşdeğer ASCII'ye dönüştürülebiliyorsa, yukarıdaki çözüm YALNIZCA çalışacaktır. – chandresh