2016-04-01 31 views
2

Farz edelim ki,belgesi, 70 politikasından ve 30 matematikten bahsediyorum (garip bir kombinasyon, bunu biliyorum).Belge Terimi Matrisleri arasında "Fark"

  • I (dokümanlar Bir külliyat üretmek: Amacım belgelerin bütün seti dikkate aldığımızda böyle yapmak vs. Çok boyutlu ölçekleme analizi, ağ analizleri, som gibi xy düşünce yöntemleri hakkında onları temsil etmektir) 100 element ile;
  • corpus'tan bir belge terim matrisi oluşturuyorum (dtm);
  • dtm'den, belgelerin bileşenlerini veya belgelerin kendileriyle ilgili olarak (temsil etmek istediklerime göre) ilgili mesafelerin bir matrisini oluşturun (dist).

Açıkçası, ikisi için ayrı grafikler oluşturabilirim, ancak farklı bir şey yapmak isterim. Üç mecmuaları (docs_tot, docs_P, docs_M) ve üç belge vadeli matrisleri (dtm_tot, dtm_P, dtm_M).

Çözeltiler:

1) farklı siyaset belge ve matematik olanlar boyama xy belgelerin miktarı temsil eder. Bu şekilde, xy'de doğal kümeleri temsil edip edemediklerini görebiliyorum. 2) Farklılıklar üzerinde bir ağ analizi yapılması. çıkarmaktır için kavramsal bir yolu, örneğin var mı, dtm_P ve dtm_P dtm_tot belgeleri (100) yalnızca bir alt kümesini (70) sahip olduğunu bilerek dtm_tot?

cevap

2

Bu, comparison.cloud()'u kullanmayı düşündüğünüz gibi geliyor. İşte wordcloud paketin yardım sayfasından bir örnek: Bu da gösterildiği gibi ikiden fazla gruplar, örneğin, here için çalışır

library(tm) 
library(wordcloud) 
data(SOTU) 
corp <- SOTU 
corp <- tm_map(corp, content_transformer(tolower)) 
corp <- tm_map(corp, removeNumbers) 
corp <- tm_map(corp, function(x)removeWords(x,stopwords())) 
corp <- tm_map(corp, removePunctuation) 
term.matrix <- TermDocumentMatrix(corp) 
term.matrix <- as.matrix(term.matrix) 
colnames(term.matrix) <- c("SOTU 2010","SOTU 2011") 
comparison.cloud(term.matrix,max.words=40,random.order=FALSE) 

enter image description here

.

Bu yardımcı olur umarım.

+0

Tam olarak aradığım şey değil ama yine de ilginç bir çözüm! –