Korpusu kaydetmenin bir yolu, önce bir veri çerçevesine dönüştürülür ve daha sonra bir csv dosyası olarak kaydedilir. Örnek metin sağlamadığınızdan, bazı tekrarlanabilir metinler oluşturdum. Kodun altında ilk örnek metinden corpus oluşturur. Daha sonra durma sözcükleri kaldırılır. Korpus yapısı bir listedir ve metin içerik öğesinde saklanır. Kod sadece metni çıkarır ve bir veri çerçevesi oluşturur. Sonunda veri çerçevesini kaydediyoruz.
Kodu:
#Reproducible data - Quotes from As You Like It by William Shakespeare
SampleText <- c("All the world's a stage,And all the men and women merely players;They have their exits and their entrances;And one man in his time plays many parts,
His acts being seven ages.",
"Men have died from time to time, and worms have eaten them, but not for love.",
"Love is merely a madness.")
library(tm)
mycorpus <- Corpus(VectorSource(SampleText)) # Corpus creation
mycorpus <-tm_map(mycorpus,removeWords,stopwords("english"))
mycorpus_dataframe <- data.frame(text=unlist(sapply(mycorpus, `[`, "content")),
stringsAsFactors=F)
write.csv(mycorpus_dataframe,'mycorpus_dataframe.csv', row.names=FALSE)
Çıktı:
> print(mycorpus_dataframe , row.names=FALSE)
text
All world's stage,And men women merely players;They exits entrances;And one man time plays many parts,\nHis acts seven ages.
Men died time time, worms eaten , love.
Love merely madness.
>
bu "birden çok satırda" ne olabilir ki? Örnek verilerle minimal [tekrarlanabilir bir örnek] (http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example) vermeniz daha iyi olacaktır. yerel bilgisayarınızda) ve beklenen çıktıyı açıkça göster. – MrFlick