nltk word_tokenize orijinal metnin indeksleri olsun

Ben nltk.word_tokenize kullanarak bir metin tokenizing ediyorum ve ben denltk word_tokenize orijinal metnin indeksleri olsun

import nltk 
x = 'hello world' 
tokens = nltk.word_tokenize(x) 
>>> ['hello', 'world']

yani her simge ilk karakterine orijinal ham metinde endeksi almak istiyorum Jetonların ham indekslerine karşılık gelen [0, 7] dizisini nasıl alabilirim?

kaynak

2015-07-28 genekogan

Bence, span_tokenize() yöntemidir. Apparently bu, varsayılan belirteci tarafından desteklenmez. İşte başka bir belirteci olan bir kod örneği.

from nltk.tokenize import WhitespaceTokenizer 
s = "Good muffins cost $3.88\nin New York." 
span_generator = WhitespaceTokenizer().span_tokenize(s) 
spans = [span for span in span_generator] 
print(spans)

verir Hangi:

[(0, 4), (5, 12), (13, 17), (18, 23), (24, 26), (27, 30), (31, 36)]

sadece alma uzaklıklar:

offsets = [span[0] for span in spans] 
[0, 5, 13, 18, 24, 27, 31]

fazla bilgi için (farklı tokenizers üzerine) Şunları yapabilirsiniz tokenize api docs

kaynak

2015-07-28 09:55:49 b3000

Burada TreebankWordTokenizer bir span_tokenizer eklendi: https://gist.github.com/ckoppelman/c93e4192d9f189fba590e095258f8f33. Herhangi bir yardım veya tavsiye takdir edilmektedir. – Charles

bkz ayrıca bunu yapın:

def spans(txt): 
    tokens=nltk.word_tokenize(txt) 
    offset = 0 
    for token in tokens: 
     offset = txt.find(token, offset) 
     yield token, offset, offset+len(token) 
     offset += len(token) 


s = "And now for something completely different and." 
for token in spans(s): 
    print token 
    assert token[0]==s[token[1]:token[2]]

Ve olsun:

('And', 0, 3) 
('now', 4, 7) 
('for', 8, 11) 
('something', 12, 21) 
('completely', 22, 32) 
('different', 33, 42) 
('.', 42, 43)

kaynak

2016-11-20 04:47:53

nltk word_tokenize orijinal metnin indeksleri olsun

cevap

İlgili konular