2015-12-22 25 views
6

Bazı parçacık fiziği analizlerini yapıyorum ve birilerinin bana Gaussian-Process uyumu hakkında biraz bilgi verebileceğini umuyordum. .Gauss-Süreci (scikit-learn) Tahmin Güven Aralığı Tuhaflıklar

Siçin öğrenme GaussianProcess algoritmasına beslediğim belirsizliklerle ilgili verilerim var. "Nugget" argümanı ile belirsizlikleri ekliyorum (benim uygulamam a standard example here ile eşleşiyor, burada "düzelt" üslemeli olarak üstel ve "nugget" değerleri (dy/y) olarak ayarlanıyor ** 2). Esas endişe şudur: Dağılımın kenarlarında mutlak belirsizlik (ancak yüksek kesinlik belirsizliği) var ve bu bölgede beklediğimden daha büyük bir güven aralığı oluşturuyor (aşağıdaki tabloya bakınız). belirsizlikler bu şekilde davranır

Data point and GP regression

nedeni farklı özellik (x) değerleri ile gözlenen parçacık sayımı bir histogramıdır parçacık fiziği verileri ile ilgili olmam. Bu sayımlar bir Poisson dağılımını izler ve böylece sqrt (N) 'nin belirsizliğine (standart sapma) sahiptir. Dolayısıyla, dağılımın yüksek sayım bölgeleri daha yüksek mutlak fakat daha düşük fraksiyonel belirsizliğe sahiptir ve düşük sayım bölgeleri için tersi de geçerlidir.

Anlattığım gibi, bu işlevdeki "nugget" argümanı, kare üstel çekirdekle çalışırken (fraksiyonel belirsizlik) ** 2 değerlerine sahip olmalıdır. Bu nedenle, tahmin edilen belirsizlik, girdilerin kesirdeki belirsizliğe dayanıyorsa, kenarlarda büyük olabileceği anlamına gelir. Ama ben bunun matematikte nasıl çalıştığını tam olarak anlayamıyorum ve tahmin edilen belirsizliğin büyüklüğü, veri noktalarından çok daha büyüktür ve kenarlardaki belirsizliklerin benim için yanlış göründüğünden daha büyüktür.

Burada neler olup bittiğine dair yorum yapabilir mi? Bu beklenen şekilde davranıyor mu? Öyleyse neden? Konuyla ilgili daha fazla okumaya yönelik herhangi bir düşünce ya da referans çok takdir edilecektir!

Bir kaç önemli uyarılar size bırakacağım: dağılımının kenarlarına sıfır sayıları ile birkaç veri nokta vardır

1). Bu "nugget" için kesirli belirsizlik içinde bir kink atar çünkü (sqrt (0)/0) ** 2 çok mutlu bir değer değildir. Bu puan için nugget değerinin 1,0'a ayarlanmasıyla ilgili bir ayar yaptım. Bu, 1'lik bir sayıysa elde ettiğiniz değere karşılık gelir. Bu sorunun eldeki soruyu etkileyen genel bir yaklaşım olduğuna inanıyorum, ama ben Bu konuyu temel olarak değiştirdiğini düşünün.

2) Çalıştığım veriler aslında bir 2d histogramıdır (yani bir bağımsız değişken (x demek), başka bir (y) ve bağımlı değişken olarak sayımlar (z)). Gösterilen çizim, 2d verisinin ve tahmininin 1d'lik bir dilimidir (yani, y'ye x, y'nin küçük bir aralığı boyunca entegre edilmiştir). Bunun gerçekten soruyu etkilediğini sanmıyorum ama bahsetmeyi düşündüm.

cevap

0

Sizden sunumda, davranışı doğru olduğundan şüpheleniyorum, ancak matematikten geçmedim. İçgüdüm beni anlatıyor: Tek tip histogram yapma. Dağıtım merkezinden uzaklaştıkça çöp kutusu boyutlarını büyütün. Bu sizin değerlerinizi artıracak ve kesirli hatalarınızı azaltacaktır.