2010-10-27 17 views
16

Herhangi bir kişi, bir veri kümesindeki k-aracı kümelerinin sayısını belirlemek için L yöntemini uygulamadan önce değerlendirme metrikine daha pürüzsüz bir şekilde uygulama yapmayı denedi mi? Eğer öyleyse, sonuçları iyileştirdi mi? Ya da daha az sayıda k-aracı denemelerine izin verir ve dolayısıyla hızda daha büyük bir artış olur mu? Hangi düzeltme algoritmasını/yöntemini kullandınız? Determining the Number of Clusters/Segments in Hierarchical Clustering/Segmentation Algorithms, Salvador & ChanK-Means kümelerinin sayısını belirlemek için L Yöntemi ile bir pürüzsüz kullanılması

Bu, farklı test küme sayısı bir dizi için değerlendirme metrik birimi hesaplamaktadır: içinde

, "L-Yöntemi"

ayrıntılı olarak açıklanmaktadır. Daha sonra, diz (optimum sayıda küme için oluşur) bulmak için, iki çizgi doğrusal regresyon kullanılarak yerleştirilir. Diz uyumunu iyileştirmek için basit bir yinelemeli işlem uygulanır - bu, mevcut değerlendirme metrik hesaplarını kullanır ve k-araçlarının herhangi bir yeniden çalışmasını gerektirmez.

Değerlendirme metriği için, Dunns Dizininin basitleştirilmiş bir sürümünün bir karşılığını kullanıyorum. Hız için basitleştirilmiş (temel olarak çapım ve küme arası hesaplamalar basitleştirilmiştir). Karşılıklı olarak, indeks doğru yönde çalışacak şekildedir (yani daha düşük genellikle daha iyidir).

K-araçları stokastik bir algoritmadır, bu nedenle genellikle birden çok kez ve en uygun şekilde seçilir. Bu oldukça iyi çalışıyor, ancak bunu 1.NN kümeleri için yaptığınızda zaman hızla ekliyor. Bu yüzden kontrol sayısını kontrol altında tutmak benim ilgi alanım. Genel işlem süresi, uygulamamın pratik olup olmadığını belirleyebilir - hızlandıramazsam bu işlevi iptal edebilirim.

+0

Düşünmeyi okumadığınız bununla ilgili olarak, hatta (yani, ortalama çalışan) daha akıcı bir etkisi olacağını sanmıyorum, çünkü L-Metodu en az kareler kullanarak hatlara uyuyor. Ancak, bir Gaussian gibi daha yumuşak bir şekil farklı davranabilir. Orta büyüklükte bir Gaussian'ı deneyeceğim ve uygulayacağım (yaklaşık 6-10'luk yarı genişlik benim hakkımda). Kalitatif bir test olacak. – winwaed

+0

Bunun iyi bir orta ölçekli araştırma projesi olacağını düşünüyorum. Bir proje arayan üniversite öğrencileri varsa, işbirliği/mentorluk/birlikte yazma ile ilgilenirim. Böyle bir proje nicel karşılaştırmalar yapmalı ve benim özel uygulamamdan daha genel olmalıdır. Proje-fikirler etiketini soruya ekleyeceğim. – winwaed

+0

Çok kaba, bilim dışı ve niteliksel sonuçlara sahibim: 5 ve 3 nolu HalfWidthHalfHeight'ın Gauss filtrelerini denedim. Her iki durumda da, tahmin edilen sayı kümesini artırdı, ancak tahmin edilen hata düştü (yaklaşık 8-10 çalışma sınandı) her konfigürasyon ile). Bu gerçek dünya verileridir ve tahminde bir artış makul olacaktır. Bu yüzden, bu, kontrollü verilerle ve daha iyi şartlar altında bir mini araştırma projesini garantilemek için yeterli olduğunu düşünüyorum. – winwaed

cevap

5

Geçmişte SO üzerinde similar question sordum. Sorum şu, dizini tarif ettiğin L şekline bulmanın tutarlı bir yolunu bulmaktı. Söz konusu eğriler, karmaşıklık ile modelin uygun ölçüsü arasındaki dengeyi temsil ediyordu.

alt text

Not:

best solution gösterilen şekle göre maksimum mesafe d ile noktayı bulmak oldu ben henüz bağlantılı kağıdı ..

+0

Cevabınız için teşekkürler. Bu, kağıda daha geometrik bir yaklaşım benimsiyor gibi görünüyor, ancak aynı (veya çok benzer) matematiklere indirgendiğinde şaşırmam. Sorum şu, önce verileri düzeltmenin daha iyi olup olmadığı ve çok özel bir uygulama olup olmadığıydı (veri noktaları değişen sayım kümeleri için uygun ölçümlerdir). – winwaed

+0

@Amro: Bu tekniğin, ikinci türev testinden daha iyi çalıştığını gördünüz mü? Bu teknik için herhangi bir şansla standart bir isim var mı? – Legend

+0

L Yöntemi, kağıdın bunu çağırdığı şeydir. Dizini doğru bulmak için ikinci bir türev için çok fazla gürültüye sahip olduğumu düşünüyorum. – winwaed

İlgili konular