2016-03-31 18 views
0

Ben bir site kolay bir kazıma ama diğer hata alıyorum ??? web sitesiWeb sitesi kazıyıcı benim bağlantılardan birini kurcalamak

import random 
from bs4 import BeautifulSoup 
import urllib2 
import re 
from urlparse import urljoin 

user_input = raw_input ("Search for Team = "); 


resp = urllib2.urlopen("http://idimsports.eu/football.html") ###working 
soup = BeautifulSoup(resp, from_encoding=resp.info().getparam('charset')) 

base_url = "http://idimsports.eu" 
links = soup.find_all('a', href=re.compile(''+user_input)) 
if len(links) == 0: 
    print "No Streams Available" 
else: 
    for link in links: 
     print urljoin(base_url, link['href']) 

resp = urllib2.urlopen("http://cricfree.tv/football-live-stream") ###not working 
soup = BeautifulSoup(resp, from_encoding=resp.info().getparam('charset')) 

links = soup.find_all('a', href=re.compile(''+user_input)) 
if len(links) == 0: 
    print "No Streams Available" 
else: 
    for link in links: 
     print urljoin(base_url, link['href']) 
+0

Hangi hatayı alıyorsunuz ve hangi hat üzerine atılıyor? – Sam

+0

Muhtemelen urllib2.HTTPError: HTTP Hata 403: Yasaklanıyorsunuz (Ben) – jDo

cevap

0

ikinci döngü

headers = { 'User-Agent' : 'Mozilla/5.0' } 
req = urllib2.Request("http://cricfree.tv/football-live-stream", None, headers) 
resp = urllib2.urlopen(req) 

da isteğinizin kullanıcı aracısı başlığını ayarlayın bazı bloğun tür veya bir şey vardır çünkü onun size base_url yeniden eğer Im emin değil Muhtemelen bunu yapmak istemiyorum.