2014-06-13 33 views
5

Sütunlarında negatif değerler içeren tüm dizinleri nasıl temizleyebileceğimi merak ediyordum. Pandalar DataFrames kullanıyorum.Python Pandas: DataFrame süzgeci negatif değerleri

Documentation Pandas DataFrame

Biçimi:

MyID - valuecol1 - valuecol2 - valuecol3 -... valuecol30

Yani benim DataFrame denir data

Ben 1 sütun için bunun nasıl biliyorum:

data2 = data.index[data['valuecol1'] > 0] 
data3 = data.ix[data3] 

Yani sadece, nasıl and deyimi çeşit yapabiliriz valuecol1 > 0 kimlikleri olsun?

valuecol1 && valuecol2 && valuecol3 && ... && valuecol30 > 0?

cevap

3

Yapabilirsin Tüm bir satırı veya sütunu kontrol etmek all kullanabilirsiniz

for cols in data.columns.tolist()[1:]: 
    data = data.ix[data[cols] > 0] 
+0

sayesinde çok teşekkür ederim. Bu işe yarıyor. – zer02

5

sütun adları üzerinde döngü Doğru:

In [11]: df = pd.DataFrame(np.random.randn(10, 3)) 

In [12]: df 
Out[12]: 
      0   1   2 
0 -1.003735 0.792479 0.787538 
1 -2.056750 -1.508980 0.676378 
2 1.355528 0.307063 0.369505 
3 1.201093 0.994041 -1.169323 
4 -0.305359 0.044360 -0.085346 
5 -0.684149 -0.482129 -0.598155 
6 1.795011 1.231198 -0.465683 
7 -0.632216 -0.075575 0.812735 
8 -0.479523 -1.900072 -0.966430 
9 -1.441645 -1.189408 1.338681 

In [13]: (df > 0).all(1) 
Out[13]: 
0 False 
1 False 
2  True 
3 False 
4 False 
5 False 
6 False 
7 False 
8 False 
9 False 
dtype: bool 

In [14]: df[(df > 0).all(1)] 
Out[14]: 
      0   1   2 
2 1.355528 0.307063 0.369505 

yalnızca bir alt kümesine bakmak isterseniz sütunlar, örneğin [0, 1]:

In [15]: df[(df[[0, 1]] > 0).all(1)] 
Out[15]: 
      0   1   2 
2 1.355528 0.307063 0.369505 
3 1.201093 0.994041 -1.169323 
6 1.795011 1.231198 -0.465683 
0

onuncu ikinci örneğin, sütunların bitişik grubun değerlerini kontrol etmek istiyorsanız:

df[(df.ix[:,2:10] > 0).all(1)] 

Ayrıca bir seri kullanabilirsiniz

df[(df.ix[:,range(1,10,3)] > 0).all(1)] 

ve kendi listesi listesi

mylist=[1,2,4,8] 
df[(df.ix[:, mylist] > 0).all(1)] 
2

Bir veri çerçevesinin içinde kullanmak ve ifadeleri kullanmak için sadece tek bir & karakterini kullanmanız ve her koşulu parantez ile ayırmanız gerekir. Örneğin

:

data = data[(data['col1']>0) & (data['valuecol2']>0) & (data['valuecol3']>0)] 
İlgili konular