2016-03-22 19 views
2

Redsox haberlerinden başlığını ve açıklamasını almayı denemek için kullanıyorum aşağıdaki kod var. Çalışıyorum ama küçük bir detay için. etiketleri gösteriliyor. Onları nasıl yok edebilirim?Python ve BeautifulSoup URL ayrıştırması

print "Title: %s " % (title.text) 
print "Summary: %s " % (desc.text) 

Sen BeautifulSoup ile daha iyi yapabilirsiniz, ancak bu çalışması için hızlı bir yoldur: Bu

Title: <title>Shaw or Panda? Hot corner duel heats up</title> 
Summary: <description>With two weeks until Opening Day, the hottest topic in Red Sox camp is the competition at the hot corner between incumbent Pablo Sandoval and the emerging Travis Shaw.</description> 
>>> 
+0

http://stackoverflow.com/questions/16206380/python-beautifulsoup-how-to-remove-all-tags-from-an-element –

+0

Dokümanları okumak isteyebilirsiniz http://www.crummy.com/software/BeautifulSoup/bs4/doc/# get-text –

cevap

2

deneyin gösterir budur

import urllib2 
from BeautifulSoup import BeautifulSoup 
# or if you're using BeautifulSoup4: 
# from bs4 import BeautifulSoup 

soup = BeautifulSoup(urllib2.urlopen('http://partner.mlb.com/partnerxml/gen/news/rss/bos.xml').read()) 

title = soup.find('item').title 
desc = soup.find('item').description 

print "Title: %s " % (title) 
print "Summary: %s " % (desc) 

.

+0

Bu kısa ama güzel cevap için teşekkürler –