NLTK numaralı yazıda bir sürü stemmer ve lemmatizer ile oynuyordum ama hiçbiri istediğimi yapmıyor. "Odyolog", "radyoloji", "kardiyolog", "kardiyoloji" gibi bir sürü söz var. PorterStemmer, SnowballStemmer ve WordNet'in Lemmatizer'ı Python'da denedim, ama hiçbir şey bunları aynı kovaya göndermiyor. Bunun nedeni, bunun başarılması gerektiği gibi görünüyor ve bunlar inanılmaz derecede yaygın olmayan kelimeler değil. İstenilen sonuca ulaşmak için nasıl giderdin?Kök/lemmatize ile aynı kök için * ologist ve * ology gibi kelimeler nasıl alınır?
1
A
cevap
0
Böyle bir şey mi var?
>>> s = 'cardiology'
>>> s = s[:-5] if s.endswith('ology') else s
>>> s = s[:-7] if s.endswith('ologist') else s
>>> s
'cardi'
>>> s = 'cardiologist'
>>> s = s[:-5] if s.endswith('ology') else s
>>> s = s[:-7] if s.endswith('ologist') else s
>>> s
'cardi'
1
Morfessor'e baktınız mı? Morph segmenting algoritmaları bir demet özellikleri. Görünüşe göre, aradığınız analiz bu araç kullanılarak mümkündür. İşte buradaki [1]: [0]: http://asr.aalto.fi/morfessordemo/
İlgili konular
- 1. Kategorideki anahtar kelimeler nasıl alınır?
- 2. Kök URL'si nasıl alınır
- 3. Google Çeviri phrasebook'tan kelimeler nasıl alınır?
- 4. Bash'ta verilen yolun kök dizini nasıl alınır?
- 5. Çoklu kelimeler için preg_match
- 6. Jtree'deki tüm kök düğümleri nasıl alınır?
- 7. PHP - ve/veya anahtar kelimeler
- 8. IntelliJ IDEA ve Atom editöründe aynı anahtar kelimeler
- 9. Nasıl casusluk gibi aynı şekil gibi UIbutton noktaları ayarlamak için
- 10. Bir Sıcak Kodlama, keras'ta farklı kelimeler için aynı sayıyı veriyor
- 11. Aynı görüntü denetleyicisine giden iki cemiyet nasıl ele alınır?
- 12. Özü kelimeler
- 13. nasıl sadece belirli kelimeler
- 14. Aynı sütunun tüm td değeri jquery ile nasıl alınır?
- 15. Kök için bash_history nasıl görüntülenir?
- 16. Anahtar kelimeler için kullanılan alignas ve alignof nedir?
- 17. Akışta benzersiz kelimeler nasıl sayılır?
- 18. js ve css dosyaları için kök olmayan bir dizine htaccess
- 19. Kök
- 20. linux: Kök izni olmadan kablosuz ssid nasıl alınır?
- 21. Notepad ++ Styler yapılandırması için regex ile tanımlanan yeni anahtar kelimeler
- 22. Paket hedefi için kök klasör nasıl belirlenir?
- 23. Düzenli ifade tüm kelimeler
- 24. Belirli kelimeler istisnası ile normal ifade
- 25. Aynı satırda daktilo gibi nasıl yazılır?
- 26. Sorgu dizgisi "?" İle nasıl yönlendirilir? ve nasıl ele alınır
- 27. Tüm kelimeler nasıl aranır, php'de düzenli ifade karakteri ile eşleşir?
- 28. Kök
- 29. Kök UIViewController nasıl bulunur
- 30. Docker'da kök için .bashrc nasıl yapılır
C'mon, demek istediğim bu değil. – Eli
Gerçekten, verilerinizin mevcut lemmatizer/stemmer'ları "kesmek" için en uygun/en iyi yolu bulmak için nasıl göründüğüne bağlıdır. Verilerinizin temsili bir örneğini paylaşmanız, yanıtı iyileştirmeye yardımcı olur =) – alvas