NLTK'nin varsayılan belirteci, nltk.word_tokenizer, zincirleri iki belirteci, bir cümle belirteçleri ve daha sonra cümleler üzerinde çalışan bir sözcük belirteci. Kutunun dışında oldukça iyi bir iş çıkarıyor.NLTK'nın varsayılan belirtecini dizeleri yerine yayılmak için nasıl kullanırım?
>>> nltk.word_tokenize("(Dr. Edwards is my friend.)")
['(', 'Dr.', 'Edwards', 'is', 'my', 'friend', '.', ')']
Ben dize jeton yerine orijinal dizeye uzaklıklar dizilerini dönmek zorunda dışında bu aynı algoritmayı kullanmak istiyorum.
Ofset ile, özgün dizeye dizin görevi görebilen 2-kat demek istiyorum. [0: 1] s çünkü burada Mesela ben
>>> s = "(Dr. Edwards is my friend.)"
>>> s.token_spans()
[(0,1), (1,4), (5,12), (13,15), (16,18), (19,25), (25,26), (26,27)]
olurdu "(" dır, s [1: 4] benzeri "Dr" ve
mi var tek NLTK. o bunu yapar arayabilir veya kendi ofset aritmetik yazmak zorunda?
Ne demek "offset" ile. Belki listede dize endeksi? yani: 'Dr. index 1'dir. – felipsmartins
Ofset ile ne demek istediğimi açıklığa kavuşturmak için düzenlenmiştir. –