i MLlib Spark kullanarak LDA konu modelleme uygulayarak ilgileniyorum. Ben kodu ve here yılında açıklamalar kontrol ettikten ama yeni görünmeyen belgede konu dağılımını bulmak için daha sonra modelin nasıl kullanılacağını bulamadık.Spark MLlib LDA, yeni görünmeyen bir belgenin konu dağılımını nasıl anlayacaksınız?
13
A
cevap
13
Spark 1.5'den itibaren bu işlev DistributedLDAModel
için uygulanmamıştır.
newDocuments: RDD[(Long, Vector)] = ...
val topicDistributions = distLDA.toLocal.topicDistributions(newDocuments)
: Ne yapmak ihtiyacımız olacak
documents
yeni (yani dışı eğitim) belgeleri, böyle bir şey vardır
topicDistributions(documents: RDD[(Long, Vector])
yöntemini çağırın sonra
toLocal
yöntemini kullanarak bir
LocalLDAModel
modelinizi dönüştürmek ve ise
Bu, this paper'un önerdiği EM algoritmasından daha az doğru olacaktır, ancak işe yarayacaktır. Alternatif olarak, zaten LocalLDAModel
ile sonuçlanan yeni çevrimiçi varyasyonel EM eğitim algoritmasını kullanabilirsiniz. Daha hızlı olmanın yanı sıra, bu yeni algoritma, DistributedLDAModels
uydurma için eski EM algoritmasından farklı olarak, Dirichlet'in parametrelerinin (alfa), belgeler için ağırlık karıştırma konusundaki konulardan önce optimize edilmesi nedeniyle de tercih edilir. Wallach, et. al.'a göre, iyi konular elde etmek için alfaların optimizasyonu oldukça önemlidir.
İlgili konular
- 1. Bir örnekte Spark MLlib
- 2. Tek tek Spark Mllib altmodülü nasıl oluşturulur
- 3. MLLib spark -ALStrainImplicit değeri 1'den fazla
- 4. Gensim LDA Ben belgelerin bir dizi konu modelleme uygulamak gerekir bir proje üzerinde çalışıyorum bir 'belge-konu matrisi
- 5. Spark MLlib: her veri grubu için bina sınıflandırıcıları
- 6. belgenin
- 7. Handler.post (çalıştırılabilir) yeni bir konu başlatır mı?
- 8. Yeni Konu JFrame ile çalışmadı
- 9. yeni Konu() ve Çöp Toplama
- 10. Spark RDD'ye yeni sütun nasıl eklenir?
- 11. Spark, daha yeni sürüme nasıl yükseltilir?
- 12. Gensim kullanarak LDA Modeli için en uygun konu sayısını elde etmenin en iyi yolu nedir?
- 13. MLlib ile DataFrame Kullanma
- 14. Apache Spark: Bir DataFrame'den bir matris nasıl oluşturulur?
- 15. C++: gauss dağılımını oluştur
- 16. Kullanım kiosklarını kullanarak TfIdf LDA
- 17. Spark-MLlib PMML dosyasında DataField değerleri tam sütun adları ile nasıl değiştirilir?
- 18. Görünmeyen ile çalışma nasıl TImage32
- 19. Bir belgenin Mongoid'deki _type'ı nasıl değiştirilir?
- 20. MS C# Birim Sınaması'nda, bir ArgumentException oluştuğunu nasıl anlayacaksınız?
- 21. MALLET konu başarımı
- 22. , bir docker görüntüsünün OS dağılımını belirler
- 23. Bir konu değişimi
- 24. Spark Satırları için yeni şema tanımlama
- 25. Bir belgenin değerini güncelleme MongoDB PHP
- 26. Basit Python işbirlikçi konu modellemesi uygulaması?
- 27. Python: Normal bir ağın Öklid mesafesi dağılımını nasıl hesaplarsınız?
- 28. Listemde görünmeyen metin ListView
- 29. Ben PySpark ve MLlib kullanarak Spark 1.3.0 ile çalışıyorum Kıvılcım \ PySpark
- 30. MongoDB'ye eklenen bir belgenin _idini alın?
teşekkürler. Cevap çok yararlı! Eğer mümkünse, topicDistributions'ın çıktısını daha açık bir sonuç için nasıl çıkaracağınız konusunda daha fazla ayrıntıya geçebilir miydiniz? – HappyCoding
Bunu uygulamam ve konuya nasıl yazılacağını gösterdim [burada] (https://gist.github.com/alex9311/774089d936eee505d7832c6df2eb597d) – alex9311
1.6 için bir şey değişti mi? –