kullanarak sınıflandırın. Basit bir sınıflandırma problemi çözmeye çalışıyorum.Verileri, Apache Mahout
Sorun:
Bir metin setim var ve bunları içeriğe göre kategorilere ayırmam gerekiyor.
Mahout kullanarak çözüm:
Modeli oluşturmak için girişi bir sıra dosyasına dönüştürmem gerektiğini anladım. Evet, bunu yapabildim. Şimdi, test verilerimi nasıl sınıflandırabilirim? 20News örneği sadece doğruluk için test eder. Ama gerçek sınıflandırmayı yapmak istiyorum.
Kod yazmam veya test kümesini sınıflandırmak için var olan bazı sınıfları kullanmam gerektiğinden emin değilim.
de yayın öncesi sürümünü alabilirsiniz kitapta sınıflandırmasına ilişkin bölümler geliştirilebilir. Sınıflandırmadaki bölümler, çok belirsiz, belirsiz ve çoğu kez sekestir değildir. Daha fazla java kodlama örneği ve daha az bash kabuğu örneği olabilir. Sınıflandırma bölümü giriş bölümleri gibi daha fazla yazılırsa daha iyi olabilir: Sınıflandırma dosyaları için formatı, bunları nasıl okuyacağınızı, bunları sınıflandırıcınıza nasıl yükleyeceğinizi gösterin. Bir kez eğitilen, yeni bir örnek sınıflandırmak için sınıflandırıcıyı nasıl kullanılır. –
Keşke Mahout'ın daha fazla ve daha iyi dokümantasyonu var. Makine öğreniminde uzman olan insanlar, işlem boru hattının yapısını ve kod mimarisini anlamakta zorlanıyorlar. Javadoklar bile uygun olmayan terminolojiyi kullanırlar (setGramSize setNGramSize olmalıdır) küçük semantik kavramları ve kodları anlamada BÜYÜK bir fark yaratır. –