kullanarak OCR'den aralıksız sözcükleri Tokizeing PDF dosyalarından alınan bazı metinleri işlemek için NLTK kullanıyorum. Metni çoğunlukla bozulmadan kurtarabilirim, ancak sözcükler arasındaki boşlukların yakalanmadığı birçok örnek var, bu yüzden if I
yerine ifI
veya that position
yerine thatposition
veya and he's
yerine andhe's
gibi sözcükler alıyorum.NLTK
Sorum şu: Bu, tanımadığı/öğrenmediği sözcükleri aramak için NLTK'yi nasıl kullanabilir ve oluşması daha olası olan "yakın" sözcük kombinasyonlarının olup olmadığını görebilir miyim? Bu tür kontrolleri uygulamak için, tanınmayan kelimeyi, her seferinde bir karakteri, bölmeyi ve iki tanınabilir sözün bulunup bulunmadığını görmekten daha zarif bir yolu var mı?
Öneri için teşekkürler, bir yazım denetleyicisi kullanmayı düşünmemiştim. Pyenchant yüklendiğinde/çözümü harika çalışıyor. Pyenchant'ın bağımlılıklarını kurmakta çok zorlandım ("pip install pyenchant" yok). Sitedeki Mac ikili dosyaları Python 2.5 veya 2.6 gerektirir, python paket dizini Python 2.7 için ikili sağlar ancak Homebrew Python gerektirir. Web sitesinde verilen pyenchant-bidst-osx-kaynak tarball'lar sürekli tekrarlayan bir Makefile'ye sahip. Homebrew, & libiconv & enchant kaynağını kullanarak gettext ve glib'in yüklenmesini tamamladıktan sonra, setup.py build/install ile pyenchant. – charlesreid1
@ charlesreid1 Vay. Mac ikili dosyalarının eşit olmadığını duyduğuma üzüldüm. İşleminizi buraya gönderdiğiniz için teşekkürler. Umarım birileri bunu faydalı bulacaktır. –