2015-05-14 12 views
6

OpenNLP'de eğitim için cut-off ve iteration'un anlamı nedir? ya da bu doğal dil işleme için. Bu terimlerin sadece bir katil açıklamalarına ihtiyacım var. Düşündüğüm kadarıyla yineleme, algoritmanın tekrarlanma sayısıdır ve kesilmiş bir değerdir, eğer bir metnin üzerinde belirli bir kategori için bu değerin üzerinde bir değer varsa, o kategoriye eşlenecektir. Ben haklı mıyımOpenNLP'deki eğitimler için 'cut-off' ve 'iteration' anlamı nedir?

cevap

12

doğru, yineleme ardışık olarak tek bir "ideal" bir çözelti (muhtemelen giderek daha doğru) yaklaşımları üreterek bir sorunu çözmek için ortaya koymaktadır yinelemeli algoritmalar, genel kavramına terimi. Genel anlamda, daha fazla yineleme, sonuç ne kadar doğru ("daha iyi") olur, ama elbette daha hesaplamalı adımlar atılmalıdır.

terimi kesme (aka kesici frekansı) (örneğin OpenNLP, kendi payına-of-konuşma etiketleyen kimse tarafından kullanıldığı gibi) n-gram dil modelleri boyutunu azaltmak için bir yöntem göstermek için kullanılır. Aşağıdaki örnek, göz önünde bulundurun: Bu örnek için 1 kesici frekansa ayarlandığında

Sentence 1 = "The cat likes mice." 
Sentence 2 = "The cat likes fish." 
Bigram model = {"the cat" : 2, "cat likes" : 2, "likes mice" : 1, "likes fish" : 1} 

, n-gram modeli

olan
Bigram model = {"the cat" : 2, "cat likes" : 2} 

azaltılmış olur, kesme yöntemi dilinden kaldırır Eğitim verilerinde seyrek olarak meydana gelen n-gramları modelleyebilir. N-gram dil modellerinin büyüklüğünün azaltılması bazen gereklidir, çünkü daha büyük bir şirket için çift bigram sayısı (tek başına trigramlar, 4 gram, vs.) patlar. Arta kalan bilgiler (n-gram sayımları) daha sonra (n-1) kelimesi verilen kelimesi (veya POS etiketleri) verilen bir kelimenin (veya POS etiketinin) olasılığını istatistiksel olarak tahmin etmek için kullanılabilir.