2009-12-04 24 views
12

Mahout kümeleme algoritmalarını uygulamak için kullanılabilecek bir lucene dizininden mahout vektörleri oluşturabildiğimi okuyorum. http://cwiki.apache.org/confluence/display/MAHOUT/Creating+Vectors+from+Textmahout lucene belge kümeleme nasıl?

benim Lucene endeksinde belgelerde algoritması kümeleme K-araçları uygulamak istiyorum, ama bu belgelerin anlamlı kümeleri ayıklamak için bu algoritmayı (veya hiyerarşik kümeleme) uygulayabilirsiniz nasıl açık değildir.

Bu sayfada http://cwiki.apache.org/confluence/display/MAHOUT/k-Means , algoritmanın iki giriş dizinini kabul ettiğini belirtir: biri veri noktaları için ve birincisi ilk kümeler için. Veri noktam belgeler mi? Bunların benim belgelerim (ya da vektörleri) olduklarını nasıl “ilan ettiler”, basitçe onları al ve kümelemeyi nasıl yapabilirim? Benim kötü bir dilbilgisi

için şimdiden özür

Eğer vektörleri varsa

cevap

3

, sen KMeansDriver çalıştırabilirsiniz ederiz. İşte bunun için yardım.

Güncelleştirme: Sonuç dizini HDFS'den yerel fs'ye alın. Ardından, bu kümedeki küme ve belgelerin listesini almak için ClusterDumper yardımcı programını kullanın.

+0

evet bu i anlayamıyorum olduğunu. Çıktı nedir? çıktıda, örneğin 5 ve 8 numaralı belgelerin aynı kümede nasıl göründüğünü nasıl görebilirim? – maiky