Mahout kümeleme algoritmalarını uygulamak için kullanılabilecek bir lucene dizininden mahout vektörleri oluşturabildiğimi okuyorum. http://cwiki.apache.org/confluence/display/MAHOUT/Creating+Vectors+from+Textmahout lucene belge kümeleme nasıl?
benim Lucene endeksinde belgelerde algoritması kümeleme K-araçları uygulamak istiyorum, ama bu belgelerin anlamlı kümeleri ayıklamak için bu algoritmayı (veya hiyerarşik kümeleme) uygulayabilirsiniz nasıl açık değildir.
Bu sayfada http://cwiki.apache.org/confluence/display/MAHOUT/k-Means , algoritmanın iki giriş dizinini kabul ettiğini belirtir: biri veri noktaları için ve birincisi ilk kümeler için. Veri noktam belgeler mi? Bunların benim belgelerim (ya da vektörleri) olduklarını nasıl “ilan ettiler”, basitçe onları al ve kümelemeyi nasıl yapabilirim? Benim kötü bir dilbilgisi
için şimdiden özür
Eğer vektörleri varsa
evet bu i anlayamıyorum olduğunu. Çıktı nedir? çıktıda, örneğin 5 ve 8 numaralı belgelerin aynı kümede nasıl göründüğünü nasıl görebilirim? – maiky