2014-11-20 11 views
5

Stanford POS Tagger (Python'da NLTK aracılığıyla) ile İspanyolca metni etiketliyorum. Tam olarak pd000000, vsip000, di0000, nc0s000, sp000 ne anlama geldiğini buldum neredeStanford İsminin Anlamı POS Tagger etiketleri

[(u'esta', u'pd000000'), 
(u'es', u'vsip000'), 
(u'una', u'di0000'), 
(u'oracion', u'nc0s000'), 
(u'de', u'sp000'), 
(u'prueba', u'nc0s000')] 

Bilmek istiyorum:

import nltk 
from nltk.tag.stanford import POSTagger 
spanish_postagger = POSTagger('models/spanish.tagger', 'stanford-postagger.jar') 
spanish_postagger.tag('esta es una oracion de prueba'.split()) 

sonucudur: Burada

benim kodudur?

cevap

9

Bu, AnCora treebank'da kullanılan etiket kümesinin basitleştirilmiş bir sürümüdür. Tagset belgelerini burada bulabilirsiniz: https://web.archive.org/web/20160325024315/http://nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-es.html

"Sadeleştirme", bir konuşma etiketine kesinlikle dahil olmayan son alanların çoğunu iptal etmekten oluşur. Örneğin, bizim part-of-konuşma tagger her zaman orijinal Tagset ait NER alanı için boş (0) değerleri (EAGLES noun documentation bakınız) verecektir. Kısacası

: Bizim konu etiketlerinin tarafından üretilen POS etiketleri alanlar Ancora POS alanları tam olarak karşılık, ancak bu alanların bir sürü boş olacaktır. En pratik amaçlar için, sadece etiketin ilk 2-4 karakterine bakmanız gerekir. İlk karakter her zaman geniş POS kategorisini gösterir ve ikinci karakter bir tür alt tip gösterir.


Şu anda (yani bu etiketleri anlama gelir, ve çok başka) CoreNLP ile İspanyolca kullanmak için bazı tanıtım belgelerine yazma işlemi devam etmektedir. Şu an için technical documentation'un ilk sayfasında daha fazla bilgi bulabilirsiniz.

+0

Cevabınız için teşekkür ederiz. –

+0

Stanford NLP kullanarak tam etiketi elde etmenin bir yolu var mı? Aslında fiillerin kişiliği, sayısı ve cinsiyeti ile ilgileniyorum. Freeling POS Etiketleme özelliğini kullanırken bunu yapabildim, ancak Stanford NLP ile nasıl bir şey yapacağımı bilmiyorum. – Kage

+0

Kage, şu soruya cevap verdim: http://stackoverflow.com/questions/29556109/spanish-pos-tagging-with-stanford-nlp-is-it-possible-to-get-the-person-number –

İlgili konular