Ben cümlelere içine sonraki string
kırmak istiyorum:OpenNLP ve stringi ile cümle sınırları nasıl belirlenir?
library(NLP) # NLP_0.1-7
string <- as.String("Mr. Brown comes. He says hello. i give him coffee.")
Ben iki farklı yol göstermek istiyorum. Bir paketin openNLP
geliyor:
library(openNLP) # openNLP_0.2-5
sentence_token_annotator <- Maxent_Sent_Token_Annotator(language = "en")
boundaries_sentences<-annotate(string, sentence_token_annotator)
string[boundaries_sentences]
[1] "Mr. Brown comes." "He says hello." "i give him coffee."
Ve ikinci paketin stringi
geliyor:
library(stringi) # stringi_0.5-5
stri_split_boundaries(string , opts_brkiter=stri_opts_brkiter('sentence'))
[[1]]
[1] "Mr. " "Brown comes. "
[3] "He says hello. i give him coffee."
Ben fazladan boşlukları kaldırmak veya tekrar cümlelere yeni bir dize kırmaya cümleler hazırlamak gerekir bu ikinci yolla sonra. Sonuç kalitesini iyileştirmek için stringi işlevini ayarlayabilir miyim? Büyük bir veri hakkında olduğunda, openNLP
, stringi
(çok fazla) daha yavaştır, daha sonra stringi
.
stringi
(-> hızlı) ve openNLP
(-> kalite) birleştirmenin bir yolu var mı?
burada bir cevap alamazsanız, şansın olabilir [R forumuna sahip corpus linguistics] (https://groups.google.com/forum/#!forum/corpling-with-r) – drammock
Bunu ** stringi ** 'nin HitHub sayfasındaki bir sorun olarak açtım : https://github.com/Rexamine/stringi/issues/184 –
OpenNLP ve stringi, cümle sınırlarının nasıl tespit edileceği konusunda birbirlerinden farklıdır. stringi bir dizi kural ile çalışır gibi görünüyor. Ve openNLP bir öğrenme sürecinden bir modelle çalışır. Ama hala şişe boynunun nerede olduğunu göremiyorum. – SRRussel