BeautifulSoup ile html belgelerinden bazı metinler almaya çalışıyorum. Benim için çok nazik bir durumda, bu garip ve ilginç bir sonuç ortaya çıkarır: belirli bir noktadan sonra, çorba metin içinde fazladan boşluklarla doludur (bir alan aşağıdakilerden her harfi ayırır). Bunun için bir neden bulmak için web'de arama yapmaya çalıştım, ancak karşıdaki hata hakkında sadece bazı haberlerle karşılaştım (hiç boşluk yok). BeautifulSoup beklenmedik fazladan boşluk döndürüyor
bazı önerim var veya bu olur neden ipucu mı ve nasıl bu sorunu çözmek için ?.Bu i yarattı çok temel kodudur:
from bs4 import BeautifulSoup
import urllib2
html = urllib2.urlopen("http://www.beppegrillo.it")
prova = html.read()
soup = BeautifulSoup(prova)
print soup
Ve bu, bu sorunun görünmeye başlar sonuçlarından alınan bir çizgi, çizgi:
değeri = \" Giuseppe LABBATE ogm? olmayan vorremmo nuovi uccelli chiamati lontre \ "> < giriş onmouseover = \" Uç (' < cen terclass = \ \ 'başlık _ Video \ \' > <b> G iuseppelabbateo g m? o n o n v o r r e m a y u v u C C l l I c h i m t, i l o n tr e <
Neden ultrasoup 'yazıyorsunuz? Çorba olmamalı mı? – svineet
Aynı sorun başka bir web sitesiyle burada. Hala bunun, BeautifulSoup ya da temeldeki lxml ile ilgili bir sorun olup olmadığını anlamaya çalışıyorum. Yazılım 32bit-Python üzerinde sorunsuz çalışıyor ve 64bit ile başarısız oluyor. – Matthias
'Ultrasoup' için özür dilerim, küçük bir hata. Tabii ki, doğru kod 'baskı çorba' oldu –