2016-03-24 22 views
0

NLP'ye yeni yaşıyorum ve NLP sınıfım için bir alıştırmayı çözmem gerekiyor. Temel olarak, (CRF, ABC, vb.) Ve diğer büyük harfli sözcükler (GIDA, EV) gibi kısaltmalar içeren bir ham metin alıyorum ve bunları sınıflandırmam gerekiyor.Kısaltma ve sadece büyük harfle yazılmış kelimeler arasında ayrım yapın.

Nerden başlayacağımı bilmiyorum, bazı algoritmalara işaret edebilir misiniz? Sorunu çözmeme yardımcı olabilecek stokastik yaklaşımlar?

cevap

0

"Düzenli" İngilizce sözcükler (Linux, WordNet, vb. Üzerinde yazım denetimi) sözlüğü kullanın ve sözcüğün orada olup olmadığını kontrol edin. İkincisi, bir konuşma avcısı kullanın. Sözcük bir isim değilse, bir kısaltma olması olası değildir. Son olarak, mevcut yazılımı kontrol edin, ör. Kısaltma Bulucu ve makaleler (Google Akademik’de "kısaltma tespitini" aratın).

0

fnl ile katılıyorum. Ortak ingilizce kelimeleri içeren ve metin veri kümenizi eğiten bir konuşma bölümünü kullanma. Otomatik olarak 'Yok', 'Verb' ve 'Kısaltma' olarak işaretlenir. Metin verilerinize daha yakın bir alanı olan birini seçebilmeniz için çok sayıda konum vardır ve daha iyi olur. Örneğin, http://www.cs.cmu.edu/~ark/TweetNLP/, tweet'ler için bir konum sağlar.

+0

Sadece bir kısaltma ve isminiz olması durumunda bir pos teli kullanma fikrinin size yardımcı olacağını kabul ediyorum, fakat eğer roma harfleri (I, V, VI) gibi diğer yanlış kısaltmalardan veya alfabe (hepatit A, B veya C). Pos tack de bu davaları birbirinden ayırmak için yeterli olur mu? –

İlgili konular