Web sitesi kazıyıcı benim bağlantılardan birini kurcalamak

Ben bir site kolay bir kazıma ama diğer hata alıyorum ??? web sitesiWeb sitesi kazıyıcı benim bağlantılardan birini kurcalamak

import random 
from bs4 import BeautifulSoup 
import urllib2 
import re 
from urlparse import urljoin 

user_input = raw_input ("Search for Team = "); 


resp = urllib2.urlopen("http://idimsports.eu/football.html") ###working 
soup = BeautifulSoup(resp, from_encoding=resp.info().getparam('charset')) 

base_url = "http://idimsports.eu" 
links = soup.find_all('a', href=re.compile(''+user_input)) 
if len(links) == 0: 
    print "No Streams Available" 
else: 
    for link in links: 
     print urljoin(base_url, link['href']) 

resp = urllib2.urlopen("http://cricfree.tv/football-live-stream") ###not working 
soup = BeautifulSoup(resp, from_encoding=resp.info().getparam('charset')) 

links = soup.find_all('a', href=re.compile(''+user_input)) 
if len(links) == 0: 
    print "No Streams Available" 
else: 
    for link in links: 
     print urljoin(base_url, link['href'])

kaynak

2016-03-31 Alex Mcbatman

Hangi hatayı alıyorsunuz ve hangi hat üzerine atılıyor? – Sam

Muhtemelen urllib2.HTTPError: HTTP Hata 403: Yasaklanıyorsunuz (Ben) – jDo

ikinci döngü

headers = { 'User-Agent' : 'Mozilla/5.0' } 
req = urllib2.Request("http://cricfree.tv/football-live-stream", None, headers) 
resp = urllib2.urlopen(req)

da isteğinizin kullanıcı aracısı başlığını ayarlayın bazı bloğun tür veya bir şey vardır çünkü onun size base_url yeniden eğer Im emin değil Muhtemelen bunu yapmak istemiyorum.

kaynak

2016-03-31 21:44:29 John

Web sitesi kazıyıcı benim bağlantılardan birini kurcalamak

cevap

İlgili konular