HDF5 dosyasını pandalara oku Şartlar altında DataFrame

Çok büyük bir HDF5 dosyam var, bir kısmını bazı işlemleri gerçekleştirmek için bir panda DataFrame'e yüklemek istiyorum ancak bazı satırları filtrelemekle ilgileniyorum.HDF5 dosyasını pandalara oku Şartlar altında DataFrame

Ben bir örnekle daha iyi açıklayabiliriz:

benzer görünümde olacaktır Orjinal HDF5 dosyası: Bir pandalar için

A B C D 
1 0 34 11 
2 0 32 15 
3 1 35 22 
4 1 34 15 
5 1 31 9 
1 0 34 15 
2 1 29 11 
3 0 34 15 
4 1 12 14 
5 0 34 15 
1 0 32 13 
2 1 34 15 
etc etc etc etc

Ne yapmaya çalışıyorum değişiklik yapmadan olduğu gibi, bu yük olduğunu, Dataframe ama sadece

where A==1 or 3 or 4 Şu ana kadar sadece kullanarak bütün HDF5 yükleyebilirsiniz:

store = pd.HDFStore('Resutls2015_10_21.h5') 
df = pd.DataFrame(store['results_table'])

Burada bir where koşulunun nasıl ekleneceğini anlamıyorum.

kaynak

2015-10-31 codeKiller

df.to_hdf('/tmp/out.h5', 'results_table', mode='w', data_columns=True, 
      format='table')

Sonra etmek

pd.read_hdf('/tmp/out.h5', 'results_table', where='A in [1,3,4]')

kullanabilirsiniz: (queryable) veri sütunları gibi tüm sütunları belirtmek için,

df.to_hdf('/tmp/out.h5', 'results_table', mode='w', data_columns=['A'], 
      format='table')

ya:

Dahası, Adeclared as a data_column olmalı A değer sütununun 1, 3 veya 4 olduğu satırları seçin.

where='A in {}'.format(vals)

: örnek,

import numpy as np 
import pandas as pd 

df = pd.DataFrame({ 
    'A': [1, 2, 3, 4, 5, 1, 2, 3, 4, 5, 1, 2], 
    'B': [0, 0, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1], 
    'C': [34, 32, 35, 34, 31, 34, 29, 34, 12, 34, 32, 34], 
    'D': [11, 15, 22, 15, 9, 15, 11, 15, 14, 15, 13, 15]}) 

df.to_hdf('/tmp/out.h5', 'results_table', mode='w', data_columns=['A'], 
      format='table') 

print(pd.read_hdf('/tmp/out.h5', 'results_table', where='A in [1,3,4]'))

Eğer değerler, vals çok uzun bir liste varsa, o zaman doğru where argüman oluşturmak için biçimlendirme dize kullanabilirsiniz

A B C D 
0 1 0 34 11 
2 3 1 35 22 
3 4 1 34 15 
5 1 0 34 15 
7 3 0 34 15 
8 4 1 12 14 
10 1 0 32 13

verir

kaynak

2015-10-31 13:57:07 unutbu

Teşekkürler unutbu, bu iyi cevaba sadece bazı yorumlar. Anladığım kadarıyla, cevabınızın başlangıcında df'yi tablo formatında h5'e yazarsınız. Ancak, betiğimin girdisi zaten kaydedilmiş bir h5'tir, doğru biçimde olup olmadığını nasıl anlayabilirim? – codeKiller

Eğer 'h5' dosyanız 'table' biçiminde değilse,' pd.read_hdf' ile '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' dir'' bir sabit formattan okuduğunda bir belirtimi iletemez. Eğer 'h5' dosyası 'table' biçiminde' A' 'data_column' olarak belirtilmemişse, o zaman 'ValueError' ifadesini alırsınız: İfadenin gerçekleştiği yer: [1,3,4] 'de A geçersiz bir değişken içeriyor referans ... '. – unutbu

Bir h5 dosyasını 'fixed'' 'table' formatına dönüştürmek veya' data_columns' eklemek için hızlı/kolay bir yol bilmiyorum. Bildiğim kadarıyla, tüm h5 dosyasını bir DataFrame'e (veya "chunksize" parametresini kullanarak parçalara ayırmak) okumak ve sonra bunu yazmak veya farklı bir "h5" dosyasına eklemek zorundasınız. tablo biçimi. – unutbu

Bunu pandas.read_hdf (here) kullanarak where isteğe bağlı parametresiyle yapabilirsiniz. example için
: read_hdf('store_tl.h5', 'table', where = ['index>2'])pd.read_hdf sitesindeki where bağımsız değişken ile sorgulanabilir olması için (fixed biçimine karşı) hdf5 dosya table format yazılmalıdır

kaynak

2015-10-31 13:21:23

Teşekkürler Dekan, daha karmaşık koşulları dahil etmek mümkün mü? Mesela benim A sütununun 1'den 100'e kadar değerleri varsa ve [1,3,11,16,27,33,34,44,41,55,68,70,77,81] gibi rastgele bir şey seçmek istiyorum. , 90] ... Bunu soruyorum çünkü asıl soruda bunu kolaylaştırmak istedim, ama benim gerçek durumumda 'nerede' durumunun daha karmaşık olması gerekecekti – codeKiller

Expr belgelerini buldum. http://nullege.com/codes/search/pandas.computation.pytables.Expr?fulldoc=1 (Bu, filtrelenerek filtreleme için bir seçenek görmese de yararlı olabilir) –

tamam, çok teşekkürler – codeKiller

HDF5 dosyasını pandalara oku Şartlar altında DataFrame

cevap

İlgili konular