İlk akarsu veri yazma, G/nltk böylece özürlerimi piton için yeni. Jetonlaşmaya çalıştığım büyük bir dosyam var; Bellek hataları alıyorum.Python NLTK kullanarak büyük (> 70MB) TXT dosyasını toplu hale getirme. soru çok basit olup olmadığını Birleştirme & hataları Her
Okuduğum bir çözüm, bir defada bir satırı okumaktır, bu mantıklıdır, ancak bunu yaparken, cannot concatenate 'str' and 'list' objects
hatasını aldım. Bu hatanın neden görüntülendiğinden emin değilim (dosyayı okuduktan sonra, onun türünü kontrol ediyorum ve aslında bir dizedir.
7MB dosyalarını 4 küçük dosyaya bölme girişiminde bulundum. Ben olsun. error: failed to write data to stream
Son olarak dosya (100KB veya daha az) çok küçük bir örnek çalışıyor ve modifiye kodu çalıştırırken, dosyayı tokenize am güçlü olanları içine
Herhangi anlayış. ? teşekkür ederim.
# tokenizing large file one line at a time
import nltk
filename=open("X:\MyFile.txt","r").read()
type(raw) #str
tokens = ''
for line in filename
tokens+=nltk.word_tokenize(filename)
#cannot concatenate 'str' and 'list' objects
küçük dosya ile aşağıdaki işleri:
import nltk
filename=open("X:\MyFile.txt","r").read()
type(raw)
tokens = nltk.word.tokenize(filename)
Mükemmel çalışıyor! çok teşekkür ederim luke14free –
Ancak, 'word_tokenize' kelimesinin bir kerede tek bir cümle üzerinde çalıştığını varsayarsak, bu size bazı belirteç hatalarını verecektir. Gerçekten dosyanın bir yığınını okumalı, 'sent_tokenize' ile bölmeli, sonra bunu 'word_tokenize''ye iletmelisin. Eğer satır satır okumak gerekiyorsa, bir acıdır ve cümlenin satırları kırmak. Bu nedenle, şu an için kusurlarla yaşamayı tercih edebilirsiniz ... – alexis
Evet, kodum, bir cümlenin ortasında bir \ n bulamayacağınız oldukça güçlü bir varsayımdan kaynaklanıyor. – luke14free