Bu yüzden, NLTK. numaralı belgede tek bir terim oluşturmak için birden çok terimi nasıl birleştirebileceği konusunda herhangi bir fikrin olup olmadığını merak ediyordum. ÖrneğinNLTK'de tagger'e bileşik sözcükler nasıl eklenir?
, bunu yaptığımda:
nltk.pos_tag(nltk.word_tokenize('Apple Incorporated is the largest company'))
Benim verir:
[('Apple', 'NNP'), ('Incorporated', 'NNP'), ('is', 'VBZ'), ('the', 'DT'), ('largest', 'JJS'), ('company', 'NN')]
Nasıl olmasını Birlikte 'Apple' ve 'Incorporated' koymak yapabilirim ('Apple Incorporated','NNP')
Bir chunker/ayrıştırıcısına ihtiyacınız olacak ve daha sonra parçaları/ifadeyi '_ ile eşleştirecek, ardından yapıyı tekrar tuple düzleştirecektir. – alvas