2016-03-27 22 views
0

Python öğreniyorum ve bir html'den veri almak için normal ifadeyi kullanmaya çalışıyorum ve sorun yaşıyorum. kodundapython düzenli Çince hakkında

# -*- coding:utf-8 -*- 

import urllib2 
import re 

url = u'http://www.6vhao.net/dy1/' 
msg = u'ssss<a href="http://www.6vhao.net/dy1/index_2.html">下一页</a>&nbsp;<a' 
pattern = re.compile(ur'\<a href="(?P<url>.*)"\>下一页</a\>') 

response = urllib2.urlopen(url) 
html = response.read() 
#print html 
for m in pattern.finditer(msg): 
    s = m.group('url') 
    print 'msg: '+s 

for m in pattern.finditer(html): 
    s = m.group('url') 
    print 'html: '+s 

'msg' ben html den almak istiyorum veridir: Bu benim kodudur. Ancak çıktı sadece "msg: http://www.6vhao.net/dy1/index_2.html". Normal ifadenin neden html'de çalışmadığını ve nasıl çalışacağını bilmek istiyorum. Teşekkürler!

cevap

1

Önce bir Unicode nesnesine .read() sonucunu deşifre gerekir:

html = response.read().decode("utf-8")