Ben bir vektör bir alt kümesi ortalamasını ve varyansını hesaplamak gerekir vektörleri. x
vektörü olsun ve y
, gözlemin alt grupta olup olmadığını gösteren bir gösterge olsun. Hangisi daha verimlidir:En etkili yolu
sub.mean <- mean(x[y])
sub.var <- var(x[y])
veya
sub <- x[y]
sub.mean <- mean(sub)
sub.var <- var(sub)
sub <- NULL
Birinci yaklaşım yeni bir nesne açıkça yaratmaz; ama mean
ve var
numaralarına yapılan çağrılar bunu dolaylı olarak yapıyor mu? Yoksa orijinal vektörde depolandığı gibi mi çalışıyorlar?
Ben hızıyla ve büyük veri kümeleri için bellek yönetimi ile endişeleniyorum. uzunluk 10M bir vektör üzerine
gerçekten büyük veri kümelerinde çalışma hakkında endişeleriniz varsa, o zaman Ar uzaklaştıkça (veya örnekleme bir sürü yapmak) gerekecek. Bu arada, neden iki yaklaşımı kıyaslamıyorsunuz? –
@JackManey: Bu, yalnızca, kullanıcının "büyük" veri kümelerinin ne kadar büyük olduğunu bilmediğinizden, doğru (veya yapıcı) değil. –
@JackManey 'ff' ve 'ffbase' paketleri (ve diğer "büyük veri" paketler) ile saf açık kaynak R verimi ve hızı ile çok büyük veri setleri taşıma oldukça sahip olabilir. Revolutions Analytics milletvekilleri, R'nin "büyük veri" glm çalışmaları için SAS'dan daha iyi performans sağlamak için genişletilebileceğinin bir kanıtıdır. Baz paketleri * büyük veri kümeleri altında parçalanmasına rağmen, R bir şişe boynuna sahip değildir. – Dinre