2013-04-18 10 views
5

I (ilk kez) Stanford POS Tagger kullanıyorum etiketleme değil ve doğru İngilizce etiketleri ise, modelin parametre değişen bile Çince (Basitleştirilmiş) tanımak için görünmüyor. Bir şeyi gözden kaçırdım mı?Stanford POS Tagger Çince metni

Ben indirilen ve buradan son tam sürümü çözdükten ettik: "numune-input.txt" içine http://nlp.stanford.edu/software/tagger.shtml

Sonra inputed ettik örnek metin.

这 是 一个 测试 的 句子. 这 是 句子.

Sonra sadece koşmak 另一个

./stanford-postagger.sh modeller/çince-distsim.tagger numunesi -input.txt

beklenen çıkış konuşmasının bir kısmı ile kelimelerin her etiketlemek, ancak bunun yerine bir kelime olarak tüm metin dizesini tanır : Modellerden etiketleyen kimse modelleri/çince-distsim.tagger gelen

Yükleme varsayılan özellikleri

Okuma POS tagger modeli/çince-distsim.tagger ... bitti [3.5 sn].

這 是 一個 測試 的 句子. 這 是 另一個 句子. # NR saniyede 30,30 kelimeleri

Tagged 1 kelimeler.

Ben herhangi bir yardım ederiz.

+0

Ayrıca, ben zaten dosya ve ayarlar UTF-8 olduğunu kontrol ettirin. Farklı örnek metinlerle de çalıştım. –

cevap

6

Sonunda dizgeciklere/segmentasyon bu pos konu etiketlerinin dahil değildir fark etti. Bu kelimeler, onları tagger'e beslemeden önce boşluk olarak ayrılmış olmalıdır.

http://nlp.stanford.edu/software/segmenter.shtml

herkese teşekkürler: Çin maksimum entropi kelime segmentasyon ilgilenenler için, burada mevcut ayrı paket var.

+2

evet, POS tagger'a geçmeden önce segmenter'e geçmeniz gerekiyor. – alvas

İlgili konular