Ben nltk.word_tokenize kullanarak bir metin tokenizing ediyorum ve ben denltk word_tokenize orijinal metnin indeksleri olsun
import nltk
x = 'hello world'
tokens = nltk.word_tokenize(x)
>>> ['hello', 'world']
yani her simge ilk karakterine orijinal ham metinde endeksi almak istiyorum Jetonların ham indekslerine karşılık gelen [0, 7]
dizisini nasıl alabilirim?
Burada TreebankWordTokenizer bir span_tokenizer eklendi: https://gist.github.com/ckoppelman/c93e4192d9f189fba590e095258f8f33. Herhangi bir yardım veya tavsiye takdir edilmektedir. – Charles