2010-08-31 16 views
14

Makaleleri 'haber öyküleri' ala Google Haberler'e nasıl küme edeceğiniz konusunda biraz araştırma yapıyorum.Haber makalelerini gruplandırmak için artan kümeleme algoritması?

Konuyla ilgili önceki sorulara baktığımda, genellikle bir makaledeki kelimelerin bir vektörünü çıkarmanız, makalenin belirli bölümlerinde yer alıyorsa bazı kelimelerin daha fazla ağırlık almasını tavsiye ederim (ör. Başlık) ve sonra makaleleri kümelemek için bir k-aracı algoritması gibi bir şey kullanmak.

Ama bu soruların bir çift yol açar: önceden k-ortalama ile

  • nasıl anlarsınız ne kadar k olmalıdır? Dinamik bir haber ortamında çok değişken sayıda öykünüz olabilir ve önceden bir makale koleksiyonunun kaç tane hikayeyi temsil ettiğini bilemezsiniz.

  • Hiyerarşik kümeleme algoritmalarıyla, öyküleriniz olarak hangi kümelerin kullanılacağına nasıl karar verirsiniz? Ağacın alt kısmında, kullanmak istemeyeceğiniz sadece tek makaleler olan kümeler ve ağacın kökünde küme var. ... ama hikayeleri temsil etmek için hangi kümelerin nasıl kullanıldığını nereden biliyorsunuz? Son olarak, ya k-araçları ya da hiyerarşik algoritmalar ile, okudukları çoğu literatür, kümelemek istediğiniz önceden hazırlanmış bir belge koleksiyonuna sahip olduğunuzu varsayar ve bunları bir seferde toplar. Ama her zaman sık sık yeni makalelerin geldiği bir durum. Ne oluyor? Tüm makaleleri sıfırdan kümelemek zorunda mıydınız, şimdi ek bir tane var mı? Bu yüzden, yeniden kümelenmeden sıfırdan makaleleri ekleyebilmenize izin veren yaklaşımlar olup olmadığını merak ediyorum. Bunun çok verimli olduğunu hayal edemiyorum.

cevap

2

Uyumluluk K-aracı kümeleme algoritmaları için bir arama yapardım. Açıkladığınız problemlere adanmış iyi bir araştırma bölümü var. İşte böyle bir paper (pdf)

+0

Teşekkürler Eric! Yararlı bir kağıttır :) Kümelerin sayısını önceden belirleme konusunu ele alır ve sanırım eşiğin seçimi küme kalitesi açısından oldukça kritiktir ... ama denenebilecek bir şeydir ile. Şunu merak ediyorum ... bu algoritmanın artan bir bağlamda işe yarayıp yaramayacağını biliyor musunuz? Yani, yeni bir makale ortaya çıkarsa ve onu mevcut kümelenmelere en az mesafeli bir kümeye atarsam, bu durum kümelenmelerin sıfırdan yeniden toplanmasıyla aynı sonuca ya da tüm amaç ve amaçlara yönelik bir sonuca yol açacaktır. iyi olarak mı? – Peter

+0

Sonuç paragrafına dayanarak cevabın evet olduğuna inanıyorum ki, "iyi olarak", eğer mesafe hesaplamanızın doğru bir şekilde yapıldığı varsayılırsa, kümeleri sıfırdan yeniden topladığınız gibi. Bir betik dilinde bir prototip uygulamak çok uzun zaman alacağını sanmıyorum (birçok veri formatını hızlı bir şekilde ayrıştırmak ve küme görselleştirmesi için iyi kütüphaneler sağlamak kolay). Ardından, bir strateji modeli, adaptif k-araçlarını kullanan bir strateji ve her seferinde yeniden derlenen normal k-araçlarını kullanan bir strateji olabilir. –

+0

k-en yakın komşular, yeni makalelerin çevrimiçi kümelenmesinde yardımcı olabilir. – crizCraig

3

Tam olarak bunu yapan bir başlangıç ​​üzerinde çalıştım: haber makaleleri için artan bir kümelenme motoru. Algoritmamızı bu makaleye dayandırdık: Belge Dizini Grafiğini Kullanarak Web Belge Kümelemesi (http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=4289851). 10K makaleler/gün için bizim için iyi çalıştı.

Bu iki ana avantajı vardır: Gelen bir ürün akımından ile uğraşmak zorunda (ziyade tek seferde kümeleme ile sahip olduğunuz sorunu giderir 1) artışlı var,) 2) ifade temelli modelleme kullanır, çok daha yüksek doğrulukla sonuçlanan sadece "kelime torbası" nın tersine.

Bir Google arama http://www.similetrix.com ortaya çıkıyor, aradıklarınız olabilir.

İlgili konular