2012-02-13 25 views
5

İki belge arasındaki benzerliği bulmak için java üzerinde çalışıyorum. Anlamsal bir benzerlik bulmayı tercih ediyorum, ancak henüz bunu bulmak için çaba sarf etmedim. Aşağıdaki yaklaşımı kullanıyorum.Python vs Java doğal dil işleme için

  1. Özü terimleri/jeton (I eş anlamlılarını uzaklaştırmak için WordNet'in çeneli kullanıyorum dolayısıyla benzerlik geliştirir)
  2. bir terim belge Matrisi
  3. LSA
  4. Kosinüs benzerlik yapmak

ı birkaç stackoverflow sayfasına bakıyordu, python uygulamalarına oldukça az bağlantı var.

Ben piton metin benzerliği bulmak için daha iyi bir dil olup olmadığını bilmek istiyorum ve ayrıca ben bir platformdur kısıtlama yok sizi varsayarsak piton

+0

Python'da yapabileceğiniz her şey, aynı zamanda Java'da da (yeteri kadar çalışma ile) yapabilirsiniz. Doğal dil işleme için bir çok araç sağlayan bir Python kütüphanesi olan [Doğal Dil Araç Seti] (http://www.nltk.org/) var. –

cevap

2

iki belge arasında anlamsal similairty bulabilirse bilmek istiyorum Bu sizin dil seçiminizi sınırlandıracaktır, dilinizi en rahat hissettiğiniz (Python'u kendim tercih ederim) ve uygulamanız için en iyi kütüphaneleri olan (dilinizi seçmelisiniz) (@GregHewgill, Python araçlarını işaret etti) (Natural Language Toolkit) olgun ve kapsamlı).

Kişisel olarak Python'u seçerken, kendiniz için seçmeniz gereken bir şey.

== DÜZENLEME ==

Java NLP kütüphaneleri ile ilgili bu question Eğer analiz için Java kullanabilirsiniz olmadığına karar vermenize yardımcı olabilir; En iyi cevabın araştırabileceğiniz bir listesi var. Sorun kümeniz hakkında daha fazla bilgi olmadan, daha spesifik öneriler sağlayamıyorum.

+0

Teşekkürler .. Daha önce hiç python üzerinde çalışmadım. Ama eğer çok fazla işlevsellik varsa, python'a geçip onu kullanmam gerektiğini düşündüm. Bu yüzden, avantajlı olup olmayacağını öğrenmek istedim ya da sadece – CTsiddharth

+1

benzer işlevler veriyorlar. Python'u daha doğal ve daha etkileyici bir dil olarak buluyorum. ** Ama gerçekten, kütüphaneler hakkında **. Çözmem gereken bir problem olsaydı ve en iyi kütüphaneler Java tabanlıydılar, JVM tabanlı bir dil kullanırdım. – ironchefpython

+0

Bağlantı için teşekkürler. Projem, bir referans dokümanı ile benzerliklerine dayanarak belgeleri sıralamayı hedefliyor. Yerel bir depodan en alakalı belgeyi bulmayı hedefliyorum. Gerçek zamanlı olarak kullanılma ihtimalleri olduğu için, olabildiğince etkili olmasını istiyorum. – CTsiddharth

İlgili konular