Web sayfasındaki tüm bağlantıları bulabilmek için Python lxml/beautiful soup

Web sayfasını okumak için bir komut dosyası yazıyorum ve belirli bir ölçütle eşleşen bağlantılar veritabanı oluşturuyorum. Şu andaWeb sayfasındaki tüm bağlantıları bulabilmek için Python lxml/beautiful soup

result = self._openurl(self.mainurl) 
content = result.read() 
html = lxml.html.fromstring(content) 
print lxml.html.find_rel_links(html,'href')

kaynak

2011-05-25 Cmag

bu kez onlarca istendi lxml.cssselect sağlanan fonksiyonunu kullanır ve iyi cevaplar, ör: http://stackoverflow.com/questions/1080411/retrieve-links- -Pet-page-using-python-ve-güzel-çorba –

Kullanım XPath ... LXML ve html tüm <a href> 's kapmak için nasıl anlamak ile şaşırıp. Böyle bir şey (buradan test edemez): iterlinks ile

urls = html.xpath('//a/@href')

kaynak

2011-05-25 21:27:04

teşekkür ederim çok! Ben URL ve açıklama – Cmag

OK test edeceğimiz, o zaman nasıl geri 2 değişkenler bir dizeden gibi alabilirsiniz) '' yerine ve sonra (başımın üstünden) '.attr ['href']' için url ve '.text' içindekiler. – Cmag

Kullan ihtiyaç

Economic & Name

'html.xpath ('// a' i –

, Lxml bu görev için mükemmel bir işlev sağlar.

bir eylem, arşiv, arka plan, alıntı classid kod temeli, veri, href, longdesc, profil, src, USEMAP her bağlantıyı [...] Bu verim (öğe, öznitelik, bağlantı, pos)
, dynsrc veya lowsrc özniteliği.

kaynak

2011-05-28 07:55:45

Alternatif bir lxml tabanlı çözüm sağlamak istiyorum.

çözüm

import urllib 
    import lxml.html 
    from lxml.cssselect import CSSSelector 
    connection = urllib.urlopen('http://www.yourTargetURL/') 
    dom = lxml.html.fromstring(connection.read()) 
    selAnchor = CSSSelector('a') 
    foundElements = selAnchor(dom) 
    print [e.get('href') for e in foundElements]

kaynak

2011-08-16 07:53:08

Web sayfasındaki tüm bağlantıları bulabilmek için Python lxml/beautiful soup

cevap

İlgili konular