Sayısal dizideki sütunların sayımlarının sayımı

2 x boyutlu bir sayısal sayı dizisi M verildiğinde, her bir M sütununun sayı sayısını saymak istiyorum. Yani, bincount'un genel bir sürümünü arıyorum.Sayısal dizideki sütunların sayımlarının sayımı

Şimdiye kadar denediğim: (1) Dönüştürülen sütunlar tuple (2) Karma sayılar (hash aracılığıyla) doğal sayılara (3) numpy.bincount kullanıldı.

Bu oldukça hantal görünüyor. Daha şık ve verimli bir yoldan haberdar olan var mı?

kaynak

2015-12-12 Christopher

İlginç bir soru. Herhangi bir çözümü görmeyi dört gözle bekliyorum çünkü ilk ve tek düşüncem tam olarak yaptığınız şeydi. – Reti43

Yani benzersiz sütunların listesini ve sayımlarını mı bekliyorsunuz? Sütunların sırası korunmalıdır mu? – imp9

Lütfen girişimlerinizin kodunu gösteriniz. –

Sen collections.Counter kullanabilirsiniz:

>>> import numpy as np 
>>> a = np.array([[ 0, 1, 2, 4, 5, 1, 2, 3], 
...    [ 4, 5, 6, 8, 9, 5, 6, 7], 
...    [ 8, 9, 10, 12, 13, 9, 10, 11]]) 
>>> from collections import Counter 
>>> Counter(map(tuple, a.T)) 
Counter({(2, 6, 10): 2, (1, 5, 9): 2, (4, 8, 12): 1, (5, 9, 13): 1, (3, 7, 11): 
1, (0, 4, 8): 1})

kaynak

2015-12-12 05:09:58 eph

Verilen:

a = np.array([[ 0, 1, 2, 4, 5, 1, 2, 3], 
       [ 4, 5, 6, 8, 9, 5, 6, 7], 
       [ 8, 9, 10, 12, 13, 9, 10, 11]]) 
b = np.transpose(a)

(yine işleme gerektirir) karma daha etkili bir çözüm:

esnek bir veri türü np.void, dizinin bir görünüm oluşturmak (here bakınız), örneğin her satır tek bir eleman haline gelir. Bu şekle dönüştürmek, np.unique'un üzerinde çalışmasına izin verecektir. a eşsiz sütunlara eklenen

%%timeit  
c = np.ascontiguousarray(b).view(np.dtype((np.void, b.dtype.itemsize*b.shape[1]))) 
_, index, counts = np.unique(c, return_index = True, return_counts = True) 
#counts are in the last column, remember original array is transposed 
>>>np.concatenate((b[idx], cnt[:, None]), axis = 1) 
array([[ 0, 4, 8, 1], 
     [ 1, 5, 9, 2], 
     [ 2, 6, 10, 2], 
     [ 3, 7, 11, 1], 
     [ 4, 8, 12, 1], 
     [ 5, 9, 13, 1]]) 
10000 loops, best of 3: 65.4 µs per loop

sayar.

Karma çözümünüz.

%%timeit 
array_hash = [hash(tuple(row)) for row in b] 
uniq, index, counts = np.unique(array_hash, return_index= True, return_counts = True) 
np.concatenate((b[idx], cnt[:, None]), axis = 1) 
10000 loops, best of 3: 89.5 µs per loop

Güncelleme: EPH çözümü en verimli ve zarif.

%%timeit 
Counter(map(tuple, a.T)) 
10000 loops, best of 3: 38.3 µs per loop

kaynak

2015-12-12 04:42:31 imp9

Sayısal dizideki sütunların sayımlarının sayımı

cevap

İlgili konular