mahout lucene belge kümeleme nasıl?

Mahout kümeleme algoritmalarını uygulamak için kullanılabilecek bir lucene dizininden mahout vektörleri oluşturabildiğimi okuyorum. http://cwiki.apache.org/confluence/display/MAHOUT/Creating+Vectors+from+Text mahout lucene belge kümeleme nasıl?

benim Lucene endeksinde belgelerde algoritması kümeleme K-araçları uygulamak istiyorum, ama bu belgelerin anlamlı kümeleri ayıklamak için bu algoritmayı (veya hiyerarşik kümeleme) uygulayabilirsiniz nasıl açık değildir.

Bu sayfada http://cwiki.apache.org/confluence/display/MAHOUT/k-Means , algoritmanın iki giriş dizinini kabul ettiğini belirtir: biri veri noktaları için ve birincisi ilk kümeler için. Veri noktam belgeler mi? Bunların benim belgelerim (ya da vektörleri) olduklarını nasıl “ilan ettiler”, basitçe onları al ve kümelemeyi nasıl yapabilirim? Benim kötü bir dilbilgisi

için şimdiden özür

Eğer vektörleri varsa

kaynak

2009-12-04 maiky

, sen KMeansDriver çalıştırabilirsiniz ederiz. İşte bunun için yardım.

Güncelleştirme: Sonuç dizini HDFS'den yerel fs'ye alın. Ardından, bu kümedeki küme ve belgelerin listesini almak için ClusterDumper yardımcı programını kullanın.

kaynak

2009-12-04 12:40:51

evet bu i anlayamıyorum olduğunu. Çıktı nedir? çıktıda, örneğin 5 ve 8 numaralı belgelerin aynı kümede nasıl göründüğünü nasıl görebilirim? – maiky

maiky @ da çıkış okuma ve bu sayfadaki clusterdump yarar kullanımı hakkında daha fazla bilgi edinebilirsiniz ->https://cwiki.apache.org/confluence/display/MAHOUT/Cluster+Dumper

kaynak

2010-09-03 11:38:58

Oldukça iyi howto buradadır: integrating apache mahout with apache lucene

kaynak

2011-04-06 21:03:26

mahout lucene belge kümeleme nasıl?

cevap

İlgili konular