Makaleleri 'haber öyküleri' ala Google Haberler'e nasıl küme edeceğiniz konusunda biraz araştırma yapıyorum.Haber makalelerini gruplandırmak için artan kümeleme algoritması?
Konuyla ilgili önceki sorulara baktığımda, genellikle bir makaledeki kelimelerin bir vektörünü çıkarmanız, makalenin belirli bölümlerinde yer alıyorsa bazı kelimelerin daha fazla ağırlık almasını tavsiye ederim (ör. Başlık) ve sonra makaleleri kümelemek için bir k-aracı algoritması gibi bir şey kullanmak.
Ama bu soruların bir çift yol açar: önceden k-ortalama ile
nasıl anlarsınız ne kadar k olmalıdır? Dinamik bir haber ortamında çok değişken sayıda öykünüz olabilir ve önceden bir makale koleksiyonunun kaç tane hikayeyi temsil ettiğini bilemezsiniz.
Hiyerarşik kümeleme algoritmalarıyla, öyküleriniz olarak hangi kümelerin kullanılacağına nasıl karar verirsiniz? Ağacın alt kısmında, kullanmak istemeyeceğiniz sadece tek makaleler olan kümeler ve ağacın kökünde küme var. ... ama hikayeleri temsil etmek için hangi kümelerin nasıl kullanıldığını nereden biliyorsunuz? Son olarak, ya k-araçları ya da hiyerarşik algoritmalar ile, okudukları çoğu literatür, kümelemek istediğiniz önceden hazırlanmış bir belge koleksiyonuna sahip olduğunuzu varsayar ve bunları bir seferde toplar. Ama her zaman sık sık yeni makalelerin geldiği bir durum. Ne oluyor? Tüm makaleleri sıfırdan kümelemek zorunda mıydınız, şimdi ek bir tane var mı? Bu yüzden, yeniden kümelenmeden sıfırdan makaleleri ekleyebilmenize izin veren yaklaşımlar olup olmadığını merak ediyorum. Bunun çok verimli olduğunu hayal edemiyorum.
Teşekkürler Eric! Yararlı bir kağıttır :) Kümelerin sayısını önceden belirleme konusunu ele alır ve sanırım eşiğin seçimi küme kalitesi açısından oldukça kritiktir ... ama denenebilecek bir şeydir ile. Şunu merak ediyorum ... bu algoritmanın artan bir bağlamda işe yarayıp yaramayacağını biliyor musunuz? Yani, yeni bir makale ortaya çıkarsa ve onu mevcut kümelenmelere en az mesafeli bir kümeye atarsam, bu durum kümelenmelerin sıfırdan yeniden toplanmasıyla aynı sonuca ya da tüm amaç ve amaçlara yönelik bir sonuca yol açacaktır. iyi olarak mı? – Peter
Sonuç paragrafına dayanarak cevabın evet olduğuna inanıyorum ki, "iyi olarak", eğer mesafe hesaplamanızın doğru bir şekilde yapıldığı varsayılırsa, kümeleri sıfırdan yeniden topladığınız gibi. Bir betik dilinde bir prototip uygulamak çok uzun zaman alacağını sanmıyorum (birçok veri formatını hızlı bir şekilde ayrıştırmak ve küme görselleştirmesi için iyi kütüphaneler sağlamak kolay). Ardından, bir strateji modeli, adaptif k-araçlarını kullanan bir strateji ve her seferinde yeniden derlenen normal k-araçlarını kullanan bir strateji olabilir. –
k-en yakın komşular, yeni makalelerin çevrimiçi kümelenmesinde yardımcı olabilir. – crizCraig