2013-08-01 14 views
9

R'de tm paketi ile çalışıyorum ve her satırın farklı bir geri bildirim örneğiyle birlikte bir CSV dosyası müşteri geri bildirimi alıyorum. Bu geribildirimin tüm içeriğini bir corpus'a aktarmak istiyorum ancak her satırın corpus içinde farklı bir belge olmasını istiyorum, böylece bir DocTerms Matrixinde geri bildirimi karşılaştırabilirim. Veri kümemde 10.000'den fazla satır var. R CSV dosyasından metin madenciliği belgeleri (her belge için bir satır)

Başlangıçta aşağıdaki yaptım:

fdbk_corpus <-Corpus(VectorSource(fdbk), readerControl = list(language="eng"), sep="\t") 

Bu 1 belgesinde ve> 10.000 satır içeren bir külliyat oluşturur ve ben 1 sıranın her biri> 10.000 dokümanlar istiyoruz.

Sanırım bir klasörde 10,000'den fazla ayrı CSV veya TXT belgesi olabilir ve bundan bir corpus oluşturabilirim ... ama bence, her satırı ayrı bir belge olarak okuyarak daha basit bir yanıt var. .

cevap

17

Burada istediğini elde etmek tam bir iş akışı verilmiştir: dtm nesnede

# change this file location to suit your machine 
file_loc <- "C:\\Documents and Settings\\Administrator\\Desktop\\Book1.csv" 
# change TRUE to FALSE if you have no column headings in the CSV 
x <- read.csv(file_loc, header = TRUE) 
require(tm) 
corp <- Corpus(DataframeSource(x)) 
dtm <- DocumentTermMatrix(corp) 

her satır bir doktor, veya orijinal CSV dosyasının bir çizgi olacaktır. Her sütun bir kelime olacaktır.

0

TermDocumentMatrix() ürününü fdbk nesnesinde kullanabilir ve her satırın müşteri geri bildirimini temsil ettiği bir belge matrisi terimi edinebilirsiniz.

İlgili konular