2011-03-14 16 views
8

Metni cümle haline ayırmam gerekiyor. Şu anda OpenNLP'nin cümle dedektörü aracıyla uğraşıyorum. Ayrıca NLTK ve Stanford CoreNLP araçlarını da duydum. Orada en doğru İngilizce cümle algılama araçları nedir? Çok fazla NLP özelliğine ihtiyacım yok - sadece cümle bölme/algılama için iyi bir araç.Cümle bölünmesi için en doğru açık kaynak aracı nedir?

Ayrıca Lucene'i de duydum ... ama bu çok fazla olabilir. Ama eğer bir kick-ass cümle algılama modülü varsa, onu kullanacağım.

+1

Perl için, [Lingua :: EN :: Cümle] (http://search.cpan.org/~shlomoy/Lingua-EN-Sentence-0.25/lib/Lingua/EN/Sentence.pm)? – Konerak

cevap

1

onay lingpipe uygulaması http://alias-i.com/lingpipe/docs/api/com/aliasi/sentences/IndoEuropeanSentenceModel.html

Onların modeli oldukça güçlü ve uygulanması kolay - herhangi bir olası cümle bölünmüş en az öncesi/sonrası kuralları (aka düzenli ifadeleri) kontrol ve hepsi bu. Bunu GATE ve OpenNLP'de daha iyi çalışarak buldum.

örnek olarak bu sezgisel modeli destekleyen başka açık kaynak projesi,

+0

Ruhsat alma ücretleri oldukça ağırdır ve telifsiz lisansı kullanmaları durumunda şunları gerektirir: "İşlenen veriler serbestçe kullanılabilir olmalıdır". – samxli

+0

O zaman, şu anda GPL olan proje grafik ifademi kontrol edebilirsin, ancak diğer işverenler bulmam durumunda LGPL'ye geçmeyi düşünüyorum. – yura

+0

Sadece projenize baktım. Yarın test edecek :). Bugün NLTK'ya ve CPAN'da Lingua :: EN :: Cümle'ye bir göz attım. NLTK tamam, bazı yanlışlıklar vardı. Lingua :: EN, sıralı listeleri bir yığın olarak tanımakta zorlandı. Ek kısaltma tanımlarına izin verir ancak "1.", "2." vb. Tanımadı. – samxli

-4

Perl http://code.google.com/p/graph-expression/wiki/SentenceSplitting metin madenciliği için mükemmel ve basit bir kaynaktır bir metin işleme dilidir vardır. Cümle bölme yapmak kesinlikle sorun değil.

www.perl.org

+1

Perl için belirli cümle bölme modelleri var mı? Farklı alanlar için cümleler farklı şekilde tanımlanabilir. Ayrıca, kısaltmaları ve noktalardan sonraki çift boşlukları da kullanabilmeli. – samxli

+0

Perl, metin işleme, desen eşleme dilidir. Kısaltmalar ve boşluk sorunları ele alınabilir. –

+0

Bu yanıt, NLTK, LingPipe veya diğer belirli NLP araçlarından söz edenlerin kalitesinden değil. Cümle bölme sadece regex eşleşmesinden daha zordur - Ben tekerleği yeniden icat etmeyi önermiyorum. –

2

NLTK this paper tarif Punkt simgeleştiricisine bir uygulamayı içermektedir. Etrafımdaki en iyi şey olup olmadığını bilmiyorum ama çok iyi, hafif ve kullanımı kolay, ve ücretsizdir.

İlgili konular