2012-12-04 39 views
9
ben sonradan planlamaktan korumak için gereken CDATA'da blokları bir dizi XML dosyasını ayrıştırmak gerekiyor

ile xml:Ayrıştırma CDATA piton

<process id="process1"> <log name="name1" device="device1"><![CDATA[timestamp value]]]></log> <log name="name2" device="device2"><![CDATA[timestamp value, timestamp value, timestamp]]]></log> </process>

Ben defalarca ve hızlı bir şekilde bunu yapmak gerekecektir ve bunu yapmanın en iyi yolunu arıyorum. ElementTree'nin yöntemlerin daha hızlı olduğunu okudum ama diğer önerilere açığım.

+0

xtree, sorununuz için öğe ağacından daha iyi bir alternatiftir. – Rajendra

cevap

10

İşte bunu nasıl iki örnek:

from lxml import etree 
import xml.etree.ElementTree as ElementTree 

CONTENT = """ 
<process id="process1"> 
<log name="name1" device="device1"><![CDATA[timestamp value]]></log> 
<log name="name2" device="device2"><![CDATA[timestamp value, timestamp value, timestamp]]></log> 
</process> 
""" 

def parse_with_lxml(): 
    root = etree.fromstring(CONTENT) 
    for log in root.xpath("//log"): 
     print log.text 

def parse_with_stdlib(): 
    root = ElementTree.fromstring(CONTENT) 
    for log in root.iter('log'): 
     print log.text 

if __name__ == '__main__': 
    parse_with_lxml() 
    parse_with_stdlib() 

Çıktı:

timestamp value 
timestamp value, timestamp value, timestamp 
timestamp value 
timestamp value, timestamp value, timestamp 

metin her iki durumda da; o işi bağlıyor.

+1

Performans için, "cElementTree" kullanılabilir (not: leadind 'c') – jfs