2014-06-24 12 views
5

CMU's TurboParser tarafından oluşturulan bağımlılık ayrıştırma ağaçlarını kullanmaya çalışıyorum. Kusursuz çalışıyor. Ancak problem, çok az dokümantasyon olmasıdır. Ayrıştırıcılarının çıktısını tam olarak anlamanız gerekir. indeksleriTurboParser'ın bağımlılık ayrıştırma çıktısı ne anlama geliyor?

1 I   _ PRP PRP _ 2 SUB 
2 solved  _ VBD VBD _ 0 ROOT 
3 the   _ DT DT _ 4 NMOD 
4 problem  _ NN NN _ 2 OBJ 
5 with  _ IN IN _ 2 VMOD 
6 statistics _ NNS NNS _ 5 PMOD 
7 .   _ . . _ 2 P 

Çeşitli kolonlar için neyi anlamamıza yardımcı olabilecek tüm belgeleri bulamadı ve nasıl: Örneğin, cümle şu çıktıyı üretir "Ben istatistikleri ile sorunu çözdü" ikinci sütunda (2, 0, 4, 2, ...) oluşturulur. Ayrıca, neden konuşma etiketlerine ayrılmış iki sütun olduğunu bilmiyorum. Herhangi bir yardım (veya harici belgelere bağlantı) çok yardımcı olacaktır.

P.S. Ayrıştırıcılarını denemek isterseniz, here is their online demo.

P.P.S. Lütfen Stanford'un bağımlılık ayrıştırma çıktısını kullanmayı önermeyin. Stanford'un NLP sisteminin yaptığı gibi doğrusal programlama algoritmaları ile ilgileniyorum.

cevap

0

TurboParser'ı bilmiyorum, ama benim tahminim, ilk numara belirtecin kimliğini gösterir ve ikinci numara, yöneticisinin kimliğini gösterir. senin örneğin, :

solved(
I, 
problem(the), 
with(statistics), 
. 
) 

Aslında o CoNLL-X biçimdir. Burada daha fazla bilgi alabilirsiniz: Burada

6

http://ilk.uvt.nl/conll/#dataformat sütunların TurboParser çıkışları her birinin anlamı: jeton ait

  1. id, cümle içindeki tek tabanlı dizinini yani
  2. orijinal simge orijinal metinde (hayır lemmatizer ayarlandığı için buraya boş,)
  3. lemma, jetonun lemmatized formu olduğu gibi
  4. etiket (iri taneli kısım-of-konuşma etiketi)
  5. etiket 4 ile aynıdır (ince taneli kısım-of-konuşma etiketi.TurboParser ile)
  6. morfolojik özellikleri (indeksine ile temsil edilen belirteç, bir
  7. baş) burada boş (kök belirteci 0 bir baş değeri) mevcut belirtecin
  8. ilişkisi sahip başını

Eğer verdi üretilen çıktı birolarak temsil edilebilir:

representation of the dependency-based parse tree

CoNLL-X biçimi konusunda daha fazla bilgi almak için: