2010-10-06 18 views
7

Tüm komut dosyası ve stil etiketlerini kaldırmak için bir HTML sayfası alıp, BeautifulSoup'a aktardığım basit bir komut dosyası var, sonra HTML sonucunu başka bir yönteme aktarmak istiyorum. Bunu yapmanın kolay bir yolu var mı? BeautifulSoup.py'yi gözden geçirdim, henüz görmedim.BeautifulSoup ile html komut dosyası ve stil etiketlerinden sıyrılıyor mu?

soup = BeautifulSoup(html) 
for script in soup("script"): 
    soup.script.extract() 

for style in soup("style"): 
    soup.style.extract() 
contents = soup.html.contents 
text = loader.extract_text(contents) 

içeriği = soup.html.contents sadece bir liste alır ve her şey orada sınıfları tanımlanmıştır. Çorba işleminden sonra ham html'yi döndüren bir yöntem var mı? Ya da sadece contents listesinden geçmeli ve html'yi & stil etiketleri komut dosyası dışında bir araya getirmem gerekiyor mu?

Ya da istediğimi gerçekleştirmek için daha iyi bir çözüm var mı?

cevap

8

unicode(soup) size html verir.

for elem in soup.findAll(['script', 'style']): 
    elem.extract() 
+0

Hah:

Ayrıca ne istediğinizi budur. çok basit. Teşekkürler! – Nathan

+0

güzel sopaa – Yarin