Anahtar kelimeden sonra satır topla

Bir sayfada metin bulma konusunda sorun yaşıyorum. En büyük kısmı, metnin konumlarının sayfalar arasında değişmesidir.Anahtar kelimeden sonra satır topla

Ben anahtar kelime "Kamp Direktörü"

html örnek içeren çizgi SONRA hat metnini ayıklanması biraz yardım alabilirsem:

<div class="span4"> 
        <strong>Camp Director : </strong> 
              <span>Camp Directors Name</span> 
            </div>

bu oynamalar:

def parse1(self, response): 
hxs = Selector(response) 
titles = hxs.xpath('//*[@id="fullwidth-container"]') 
body = hxs.xpath('/html/body') 
items = [] 

for titles in titles: 
    item = BayItem() 

    item["director"] = "".join(response.css('#fullwidth-container > div > div > div.geobase.complex-module-container.module > div.geobase-listing > div > div.premium.row-fluid.complex-module-columns-container > div.span8.respond-container.main-block > div.custom-field.geobase-cf-text > div:nth-child(4) > div:nth-child(3) > span').extract()) 
    item["director1"] = titles.xpath('//*[@id="fullwidth-container"]/div/div/div[1]/div[1]/div/div[2]/div[1]/div[3]/div[3]/div[2]/span').extract() 
    item["director2"] = titles.xpath('//*[@id="fullwidth-container"]/div/div/div[1]/div[1]/div/div[2]/div[1]/div[4]/div[3]/div[2]/span').extract() 
    item["director3"] = titles.xpath('//*[@id="fullwidth-container"]/div/div/div[1]/div[1]/div/div[2]/div[1]/div[5]/div[4]/div[2]/span').extract() 
    item["director4"] = re.findall('Camp Director(\*)', response.body) 
    converter = html2text.HTML2Text() 
    converter.ignore_links = True 
    items.append(item) 
    return items

Daha fazla regex kullanmam gerektiğine inanıyorum ama nasıl kullanılacağını tam olarak bilmiyorum. Yardım çocuklar için teşekkür ederiz!

kaynak

2016-04-14 Max Uland

Lütfen deneyin: 're.findall (' Camp Director. * \ n (. * \ n) ', yanıt. beden) – Quinn

sürece bu biçim bu sizin için çalışması gerekir (İçinde "Camp Direktörü" ile satırdan sonra yeni bir çizgi vardır anlamında) tutarlıdır olarak:.

regex = Camp \ sDirector + strong> \ n \ s * (. *)

Bu, sonraki satırdaki metni yakalar.

kaynak

2016-04-14 18:48:25 AmericanMade

Teşekkürler ama bunu nasıl elde edersiniz, böylece onu alabilirim. Çünkü onunla oynadığımda hiçbir şey gösteremiyorum. –

Python kullanıyor musunuz? Sadece bir değişken tanımlayın (örn. Regex = .....) ve daha sonra aşağıdaki gibi bir grup kullanarak yazdırın: print regex.group (1) – AmericanMade

Ben sadece çok yeni, bu yüzden bu işe yaramaz ama scrapy için değil düşünüyorum. benim sözdizimim im gibi bir şeydir: item ["director4"] = re.findall ('Camp Director (\ *)', response.body) –

Yardımın için teşekkürler! İhtiyacım olan cevabı buldum. Extract text based on previous and next sibling

Final kodu @AmericanMade ve @Dimitre Novatchev yardımıyla oldu:

def parse1(self, response): 
hxs = Selector(response) 
titles = hxs.xpath('//*[@id="fullwidth-container"]') 
items = [] 

for titles in titles: 
    item = BayItem() 
    item["director"] = response.xpath('//div[contains(text(), "Camp Director : ")]/following-sibling::text()') 
    converter = html2text.HTML2Text() 
    converter.ignore_links = True 
    items.append(item) 
    return items

Ham satır öğesi [ "yönetmen"] = response.xpath

('// div [içeriyor (text(), "Camp Director:")]/aşağıdaki-kardeş :: text() ')

kaynak

2016-04-14 21:34:42

Anahtar kelimeden sonra satır topla

cevap

İlgili konular