Python ve pandalar için oldukça yeni (SAS'ı benim analitik platformum olarak kullanıyorum), bu yüzden önceden alınmışsa önceden özür dilerim. sordu/cevapladı. (Bu sitenin yanı sıra cevabı aramak için arama yaptım ve henüz bir şey bulamadık.)Ağırlıklı verilerle açıklamayı() kullanarak - ortalama, standart sapma, medyan, quantiller
Yanıt veren seviye anket verileri içeren bir veri karemem var. Alanlardan bir tanesine temel tanımlayıcı istatistikler yapmak istiyorum (anninc [yıllık gelir için kısa]). Bana temel istatistikler veriyor
resp["anninc"].describe()
:
count 76310.000000
mean 43455.874862
std 33154.848314
min 0.000000
25% 20140.000000
50% 34980.000000
75% 56710.000000
max 152884.330000
dtype: float64
Ama bir sorun var. Numunenin nasıl yapıldığı göz önüne alındığında, yanıt veren verileri ayarlamak için bir analojiyi gerçekleştirirken her birinin "eşit" olarak kabul edilmemesi için bir ihtiyaç vardı. Veritabanında (tufnwgrp adı verilen) analiz sırasında her kayıt için uygulanması gereken ağırlığı temsil eden başka bir sütunum var.
Önceki SAS hayatımda, proc'ların çoğunun verileri bu gibi ağırlıklar ile işlemek için seçenekleri vardır. Benzer bir tür var mı
proc univariate data=resp;
var anninc;
weight tufnwgrp;
output out=resp_univars mean=mean median=50pct q1=25pct q3=75pct min=min max=max n=count
run;
:
proc univariate data=resp;
var anninc;
output out=resp_univars mean=mean median=50pct q1=25pct q3=75pct min=min max=max n=count;
run;
Ve böyle bir şey olmazdı ağırlıklı verileri kullanılarak aynı analizi: Örneğin, standart bir proc tek değişkenli aynı sonuçlar şöyle görünecektir vermek pandalarda weighting seçeneğinin define() gibi yöntemler için kullanılabilir mi?
Bunu yapmak için DataFrame bir yöntemin farkında değilim.Sayım ve miktarlar gibi şeylerin değişmesini bekliyor musunuz? Veya sadece ortalama ve standart sapma? İlk önce ağırlığı uygulayabilir ve daha sonra ortaya çıkan dizide tarif edebilir misiniz? – TomAugspurger
Teşekkürler TomAuspurger ... bu benim şüphemdi, ama bu ekstra kodlamadan kaçınmayı umuyordum ... Tüm metriklere uygulanmasını beklerdim. –
Bu kadar çok çalışma olmamalı. Bence (df ['anninc'] * df ['tufnwgrp']), define() 'hile yapardı. Bir noktaya dtypes dönüştürmek zorunda kalabilirsiniz. – TomAugspurger