2015-11-19 16 views
6

Sunucularımızı izlemek için Riemann ve Riemann-health kullanıyoruz. Ancak şimdi çok fazla CPU kritik uyarısı alıyorum çünkü CPU çok kısa bir sürede zirveye çıktı - Bu, bence bilmem gereken bir şey değil. Anlayışımdan, sabit bir yüksek CPU kullanımı, aynı zamanda raporlanacak olan ve daha kullanışlı sesler yükünü arttıracaktır.Rapor İşlemci Riemann ile her zaman tamam

CPU'yu raporlamayı devre dışı bırakmak istemiyorum, her seviye iyi kabul edilmelidir. Mümkünse, Riemann sunucusundaki olayları değiştirmek istiyorum, bu yüzden tüm sunucuları değiştirmem gerekmiyor. İşte

bizim Riemann yapılandırma: kullanarak https://gist.github.com/iGEL/e352764a8c559440c851

+0

Ayrıca riemann kaydını da gönderebilir misiniz? –

cevap

0

Ben tam bir çözüm yok, ama teoride bir where fonksiyonu aracılığıyla CPU ilgili olayları filtrelemek mümkün olmalıdır ve "Tamam" a koşulsuz durumu ayarlama with olarak aşağıdaki gibidir: diğer taraftan

(streams 
    (where (service #"cpu") 
     (with :state "ok" index))) 

, yük ortalama güvenerek yüksek yük ortalama da a large number of processes are waiting for IO anlamına gelebilir çünkü iyi bir fikir değildir.

CPU uyarılarını susturmak yerine, yalnızca X zaman biriminden daha fazla bir süre için CPU durumdayken uyarırsınız. Daha da iyisi, yanıt gecikmesi, http durum kodları, hata seviyeleri vb. Gibi, istemciyi etkileyen bir sorunu temsil eden daha üst düzey bir metrik uyarısı yapın. Sonuçta, CPU yüksekse, ancak sistem üzerinde herhangi bir etkisi yoksa, bir uyarı muhtemelen sadece gürültüdür.