7

Bir tabloyu web'den kazıyıp, & nbsp; varlıklar bozulmadan HTML’i daha sonra yeniden yayınlayabilirim. BeautifulSoup bunları olsa da alanlara dönüştürüyor gibi görünüyor. Örnek:Güzel Çorba koruyarak kazıyın   objektifler

from bs4 import BeautifulSoup 

html = "<html><body><table><tr>" 
html += "<td>&nbsp;hello&nbsp;</td>" 
html += "</tr></table></body></html>" 

soup = BeautifulSoup(html) 
table = soup.find_all('table')[0] 
row = table.find_all('tr')[0] 
cell = row.find_all('td')[0] 

print cell 

gözlenen sonucu:

<td> hello </td> 

gerekli sonucu: BeautifulSoup kurucu BS4 olarak

<td>&nbsp;hello&nbsp;</td> 

cevap

5

convertEntities parametresi artık desteklenmez. HTML varlıkları her zaman karşılık gelen Unicode karakterlerine dönüştürülür (bkz. docs).

Docs göre, bu gibi bir çıkış biçimlendirici kullanmak gerekir: cevap için

print soup.find_all('td')[0].prettify(formatter="html") 
+0

Teşekkür :) –

İlgili konular