2014-10-25 26 views
5

Sculum ile kazandığım bir belgenin içinde bir dizi <p> elemanım var.
are bazıları: <p><span>bla bla bla</span></p> veya <p><span><span>bla bla bla</span><span>second bla bla</span></span></p>scrapy Çocuklar da dahil olmak üzere tüm metni alın

çocuklara
(Zaten <p ait seçici olduğunu varsayalım) ile tüm metin ayıklamak istiyorum (ikinci örnek: Bir dize bla bla bla second bla bla olması)

+0

Bazı kodları, verileri yanıt kuruluşundan nasıl ayıkladığınızı gösterebilir misiniz? – Anzel

+0

[Beautifulsoup] (http://www.crummy.com/software/BeautifulSoup/bs4/doc/) kazıma için harika bir kütüphanedir. Bunu scrapy ile kullanabilirsiniz. –

cevap

6

sadece çocuklardan tüm metin örneğin

düğümlerin ayıklamak için //text() kullanabilirsiniz:

.//p//text() 
+0

ahhh ... // text() yerine/text() - ne 1 charachter ne yapabilirim :) – Boaz

+0

yardımcı olur. evet '//', tüm öğeleri elemanın ana düğümünden sonra yinelemeli olarak alacaktır. – Anzel

İlgili konular