Herhangi bir kişi, bir veri kümesindeki k-aracı kümelerinin sayısını belirlemek için L yöntemini uygulamadan önce değerlendirme metrikine daha pürüzsüz bir şekilde uygulama yapmayı denedi mi? Eğer öyleyse, sonuçları iyileştirdi mi? Ya da daha az sayıda k-aracı denemelerine izin verir ve dolayısıyla hızda daha büyük bir artış olur mu? Hangi düzeltme algoritmasını/yöntemini kullandınız? Determining the Number of Clusters/Segments in Hierarchical Clustering/Segmentation Algorithms, Salvador & ChanK-Means kümelerinin sayısını belirlemek için L Yöntemi ile bir pürüzsüz kullanılması
Bu, farklı test küme sayısı bir dizi için değerlendirme metrik birimi hesaplamaktadır: içinde
, "L-Yöntemi"
ayrıntılı olarak açıklanmaktadır. Daha sonra, diz (optimum sayıda küme için oluşur) bulmak için, iki çizgi doğrusal regresyon kullanılarak yerleştirilir. Diz uyumunu iyileştirmek için basit bir yinelemeli işlem uygulanır - bu, mevcut değerlendirme metrik hesaplarını kullanır ve k-araçlarının herhangi bir yeniden çalışmasını gerektirmez.Değerlendirme metriği için, Dunns Dizininin basitleştirilmiş bir sürümünün bir karşılığını kullanıyorum. Hız için basitleştirilmiş (temel olarak çapım ve küme arası hesaplamalar basitleştirilmiştir). Karşılıklı olarak, indeks doğru yönde çalışacak şekildedir (yani daha düşük genellikle daha iyidir).
K-araçları stokastik bir algoritmadır, bu nedenle genellikle birden çok kez ve en uygun şekilde seçilir. Bu oldukça iyi çalışıyor, ancak bunu 1.NN kümeleri için yaptığınızda zaman hızla ekliyor. Bu yüzden kontrol sayısını kontrol altında tutmak benim ilgi alanım. Genel işlem süresi, uygulamamın pratik olup olmadığını belirleyebilir - hızlandıramazsam bu işlevi iptal edebilirim.
Düşünmeyi okumadığınız bununla ilgili olarak, hatta (yani, ortalama çalışan) daha akıcı bir etkisi olacağını sanmıyorum, çünkü L-Metodu en az kareler kullanarak hatlara uyuyor. Ancak, bir Gaussian gibi daha yumuşak bir şekil farklı davranabilir. Orta büyüklükte bir Gaussian'ı deneyeceğim ve uygulayacağım (yaklaşık 6-10'luk yarı genişlik benim hakkımda). Kalitatif bir test olacak. – winwaed
Bunun iyi bir orta ölçekli araştırma projesi olacağını düşünüyorum. Bir proje arayan üniversite öğrencileri varsa, işbirliği/mentorluk/birlikte yazma ile ilgilenirim. Böyle bir proje nicel karşılaştırmalar yapmalı ve benim özel uygulamamdan daha genel olmalıdır. Proje-fikirler etiketini soruya ekleyeceğim. – winwaed
Çok kaba, bilim dışı ve niteliksel sonuçlara sahibim: 5 ve 3 nolu HalfWidthHalfHeight'ın Gauss filtrelerini denedim. Her iki durumda da, tahmin edilen sayı kümesini artırdı, ancak tahmin edilen hata düştü (yaklaşık 8-10 çalışma sınandı) her konfigürasyon ile). Bu gerçek dünya verileridir ve tahminde bir artış makul olacaktır. Bu yüzden, bu, kontrollü verilerle ve daha iyi şartlar altında bir mini araştırma projesini garantilemek için yeterli olduğunu düşünüyorum. – winwaed