İki belge arasındaki benzerliği bulmak için java üzerinde çalışıyorum. Anlamsal bir benzerlik bulmayı tercih ediyorum, ancak henüz bunu bulmak için çaba sarf etmedim. Aşağıdaki yaklaşımı kullanıyorum.Python vs Java doğal dil işleme için
- Özü terimleri/jeton (I eş anlamlılarını uzaklaştırmak için WordNet'in çeneli kullanıyorum dolayısıyla benzerlik geliştirir)
- bir terim belge Matrisi
- LSA
- Kosinüs benzerlik yapmak
ı birkaç stackoverflow sayfasına bakıyordu, python uygulamalarına oldukça az bağlantı var.
Ben piton metin benzerliği bulmak için daha iyi bir dil olup olmadığını bilmek istiyorum ve ayrıca ben bir platformdur kısıtlama yok sizi varsayarsak piton
Python'da yapabileceğiniz her şey, aynı zamanda Java'da da (yeteri kadar çalışma ile) yapabilirsiniz. Doğal dil işleme için bir çok araç sağlayan bir Python kütüphanesi olan [Doğal Dil Araç Seti] (http://www.nltk.org/) var. –