Aynı anda birden fazla belgede oluşan kelimeleri bulmaya çalışıyorum.Aynı şekilde boşlukla ayrılmış sözcükleri aynı şekilde davranın
Örnek verelim.
doc1: "this is a document about milkyway"
doc2: "milky way is huge"
size 2 belgelerde yukarıda görebileceğiniz gibi
, kelime "milkyway" hem docs meydana gelen ancak ikinci belge dönem "Milkyway" içinde değil bir boşlukla ve ilk doc ayrılır.I Dönem milkyway
library(tm)
tmp.text <- data.frame(rbind(doc1, doc2))
tmp.corpus <- Corpus(DataframeSource(tmp.text))
tmpDTM <- TermDocumentMatrix(tmp.corpus, control = list(tolower = T, removeNumbers = T, removePunctuation = TRUE,stopwords = TRUE,wordLengths = c(2, Inf)))
tmp.df <- as.data.frame(as.matrix(tmpDTM))
tmp.df
1 2
document 1 0
huge 0 1
milky 0 1
milkyway 1 0
way 0 1
R.
belge terimi matris elde etmek için aşağıdaki işlemleri am yukarıdaki matriks başına birinci doküman sadece mevcut bulunmaktadır.Yukarıdaki matriste "milkyway" terimi için her iki belgede de 1 tane elde edebilmek istiyorum. Bu sadece bir örnektir. Bunu bir sürü belge için yapmalıyım. Nihayetinde benzer bir şekilde ("milkyway" & "sütlü yol") benzer bir şekilde davranabilmek istiyorum.
DÜZENLEME 1:
ben ne kelime için sadece bir olarak bu kelime aramak gerekir bunun için aramaya çalışıyor şekilde hesaplanan almak süreli belge matrisi zorunlu kılınamaz dizede ayrı bir kelime değil, aynı zamanda dizeler içinde? Örneğin, bir terim milky
ve this is milkyway
belgesi var, bu nedenle bu belgede şu anda milky
bulunmuyor, ancak algoritma dizeleri içinde söz konusu sözcüğü ararsadizesini milkyway
dizesinde bulabilirsiniz, bu şekilde milky
sözcükleri ve way
, her iki belgede de sayılır (önceki örnek).
DÜZENLEME 2:
Sonuçta ben belgeler arasında benzerlik kosinüs indeksini hesaplamak mümkün istiyorum.
Belki alanlardan kaldırın ve regex kullanın? – zx8754
Sadece 'samanyolu' ya da başkaları için mi ihtiyacınız var? İkisinin de 'Samanyolu' olmasını tercih ediyor musunuz? –
@ sebastian-c Bunu birden çok kelime için yapmalıyım. Ben her ikisini de "milkyway" olmaya tercih ederim. "Her gün" ve "her gün" gibi durumlar olabilir. Bu durumda onların "her gün" olmasını tercih ederim. – user3664020