2016-03-22 16 views
1

Im ben 202 içeren tüm satır kazımak için gereken tüm veriler tr td kullanarak tek masadan inşa edilmiştir bu sitedeVeri Kazıma xPath

http://webapps.nyc.gov:8084/cics/f704/f403001i?DET=1-00835-0041

kapalı verileri kazımak için iple çalışırken bulmak ve bağıl Hesap Türü, Dönem I

xpath kullanarak TÜM 202 tr satır var

Bitiş tarihi, başlangıç ​​tarihleri: //td/font[contains(.,'202')]/../ ..

tarih

Herhangi Fikirler nedeniyle Ben dönemini göreli hesap türünü nasıl anlamaya olamaz

başlangıç ​​tarihi ? çok teşekkür ederim

+0

Bir xml örneği gönderir misiniz? Yardım etmeyi çok daha kolaylaştırabilir ve bu soruyu, daha sonra soruyla karşılaşan benzer sorunlarla karşılaşan kullanıcılar için daha yararlı hale getirir. –

+0

Siteye bağlantı çalışmıyor (sayfa hiç yüklenmiyor). –

cevap

0

sadece tr ile ifadesini başlatmak .. ile ağaca çıkıp içine td/font için kontrol etmeye gerek yok:

:

//tr[td/font[contains(., '202')]] 

sıranın içindeki tüm hücreleri elde etmek için

//tr[td/font[contains(., '202')]]/td 
+0

Sadece '202' ile en üst sıradaki bilgilere ihtiyacım var. Sorun, hesap türü, dönem başlangıç ​​tarihi, 202 değerine göre son tarih olan –

+0

@ ParkBroom'un nasıl yanıtlanacağını, "// tr [şunu içerir (td/font, '202')) ] 'size başlangıç ​​verecektir - 202'nin mevcut olduğu satır. Örneğin, // tr [içerir (td/font, '202')]/td [6]/font/text() 'size Dönemi Bitiş/Bitiş Tarihi vermelidir .. – alecxe

+0

@ParkBroom Aslında benim için çalıştığım şeyle cevap ver. Şu anda hangi programlama dilini kullanıyorsunuz? Size Python + lxml'de bir örnek verebilirim, olur mu? – alecxe