2013-02-07 12 views
5

Geçerli Mahout 0.8-SNAPSHOT, Topic Modelleme için bir Daralmış Değişken Bayes (cvb) sürümü içerir ve Gizli Yönlendirme Analizi (lda) yaklaşımını kaldırır, çünkü cvb daha iyi bir şekilde paralelleştirilebilir. Ne yazık ki, bir örnek nasıl çalıştırılacağı ve anlamlı bir çıktı elde edileceği konusunda sadece lda belgesi bulunmaktadır.mahout'da çalışma cvb 0.8

Böylece istediğim için:

  • preprocess doğru
  • cvb ait cvb0_local sürümünü çalıştırmak bazı metinler
  • oluşturulan konuların her birinde üst n kelimeleri bakarak sonuçları incelemek

cevap

12

İşte bunu yapmak için bir linux kabuğunda aramak zorunda olduğum sonraki Mahout komutları. $ MAHOUT_HOME, mahout/bin klasörüme işaret ediyor.

$MAHOUT_HOME/mahout seqdirectory \ 
    -i path/to/directory/with/texts \ 
    -o out/sequenced 

$MAHOUT_HOME/mahout seq2sparse -i out/sequenced \ 
    -o out/sparseVectors \ 
    --namedVector \ 
    -wt tf 

$MAHOUT_HOME/mahout rowid \ 
    -i out/sparseVectors/tf-vectors/ \ 
    -o out/matrix 

$MAHOUT_HOME/mahout cvb0_local \ 
    -i out/matrix/matrix \ 
    -d out/sparseVectors/dictionary.file-0 \ 
    -a 0.5 \ 
    -top 4 -do out/cvb/do_out \ 
    -to out/cvb/to_out 

her konunun ilk 10 kelime göstererek çıkışını kontrol:

$MAHOUT_HOME/mahout vectordump \ 
    -i out/cvb/to_out \ 
    --dictionary out/sparseVectors/dictionary.file-0 \ 
    --dictionaryType sequencefile \ 
    --vectorSize 10 \ 
    -sort out/cvb/to_out 
+0

eache konular documen alınamadı için herhangi bir yolu var mı: --maxIterations (-m) maxIterations

Ben -m 20 kullanmak ve onu

çalışır bakın ts? ya da başka bir şekilde, belge konularını geri almak için? –

3

Teşekkür JoKnopp için detay komutlar için.

alırsanız: dizisindeki "ana" java.lang.ClassCastException: komut satırı seçeneği "maxIterations" eklemem gerekiyor java.lang.Integer java.lang.String

için döküm edilemez : https://issues.apache.org/jira/browse/MAHOUT-1141

İlgili konular