2008-10-09 16 views
25

Java için basit ama "yeterince iyi" Adlandırılmış Öğe Tanıma kitaplığı (ve sözlük) arıyorum, e-postaları ve belgeleri işlemek ve bazı "temel bilgileri" ayıklamak istiyorum: İsimler , yerler, Adres ve TarihlerAdlandırılmış Kimlik Tanıma Java için Kütüphaneler

Etrafa baktım ve çoğu da ağır taraf ve tam NLP projelerinin bir parçası gibi görünüyor.

Herhangi bir öneriniz var mı?

cevap

1

BTW, Kısa bir süre önce aradığım işlevsellikle ilgili olarak görünen OpenCalais ile karşılaştım.

+2

açık kaynağı değil. – wolfgang

22

Benzer bir soruna my earlier answers'dan birine bakmak isteyebilirsiniz.

Bunun dışında, daha hafif NER sistemleri kullanılan alana çok bağlıdır. Örneğin biyomedikal NER sistemleri hakkında bir sürü araç ve makale bulacaksınız. (Eğer NER yapmak istiyorsanız zaten benim ana öneri içerir) önceki yazıma ek olarak, burada biraz daha araçlardır içine bakmak isteyebilirsiniz:

  • Stanford CER-NER
  • Postech Biomedical NER System eğer ilgilendi Bu özel alanda,
  • OpenCalais ticari bir sistem gibi görünüyor. UIMA wrappers for OpenCalais var, ancak tarih görünüyor. UIMA için size yardımcı olabilecek bir sözlük tabanlı Bağlam-Haritalayıcı annotator da bulunmaktadır. UIMA'nın öğrenme eğrisinde önemli bir ek yük getirdiğini unutmayın ;-)
  • OpenNLP da bir NER aracına sahiptir. Diğer şeylerin yanı sıra NER de NER yapar. ABNER NER'yi yapar, ancak yine biyomedikal alana odaklanır. Ayrıca, Almanya'nın Jena kentindeki JULIE Lab Tools numaralı telefonu da NER yapmaktadır. Bağımsız versiyonları ve UIMA analiz motorları var.

Bir ek not: girişte simge belirtmeden kaybolmazsınız. Doğal dilin belirimi biraz önemsiz, bu yüzden sizin için her ikisini de yapan bir araç kutusu kullanmanızı öneririm.

+0

GENIA tagger/kontrol edebilirsiniz Stanford Ayrıştırıcı en simgeleştiricisine inşa! – nflacco

0

Alchemy API da denemek isteyebilirsiniz. Açık Calais'e benzer.

NLP dilbilgisi için
İlgili konular