oluşturmak ve bir matris oluşturmak için gereken D, belgelerin sayısıdır ve T, konuların sayısıdır. DT (ij), Di adlı belgedeki bir sözcüğün, Tj'e atanan sayısını belirtir. https://rstudio-pubs-static.s3.amazonaws.com/79360_850b2a69980c4488b1db95987a24867a.htmlGensim LDA Ben belgelerin bir dizi konu modelleme uygulamak gerekir bir proje üzerinde çalışıyorum bir 'belge-konu matrisi
Ben gensim için yeni ve şimdiye kadar ben 1. Önişlenmiş bir belge listesini 2. oluşturulan ve belgeleri simgeleþtirilmiþ var:
Şimdiye kadar Bu tut izlemiştir. 3. corpora.Dictionary() id-> sözlük terimi oluşturmak için kullanılır (id2word) 4. tokenized belgeleri bir belge dönem matrisine dönüştürür
bir LDA modeli oluşturdu. Şimdi konu başlıklarım var.
Daha önce bahsettiğim matrisi şimdi nasıl edinebilirim? Bu matrix kullanarak, t ile ilgili 2 belge arasındaki benzerliği hesaplayacağım:
sim (a, b) = 1- | DT (a, t) - DT (b, t) |
Soruyu cevapladığınız için teşekkür ederiz. Benzerliği bulmak için açıkladığınız süreçleri ben alırım. Ama aslında bir makalede önerilen bazı benzerlik ölçütlerini uygulamaya çalışıyorum. Aslında bu matrise ihtiyacım var: DT, D × T matrisi, burada D doküman sayısı ve T sayısı konu sayısıdır. DT (ij), Di adlı belgedeki bir sözcüğün, Tj'e atanan sayısını belirtir. Bunlar, LDA modelini oluşturmak için kullanılan aynı belgelerdir. –