Bazı sayfaları taramak için Scrapy kullanıyorum. Start_urls'u bir excel sayfasından alıyorum ve url'i öğeye kaydetmem gerekiyor.sculum'da orijinal start_url (yönlendirme öncesi) nasıl edinilir
class abc_Spider(BaseSpider):
name = 'abc'
allowed_domains = ['abc.com']
wb = xlrd.open_workbook(path + '/somefile.xlsx')
wb.sheet_names()
sh = wb.sheet_by_name(u'Sheet1')
first_column = sh.col_values(15)
start_urls = first_column
handle_httpstatus_list = [404]
def parse(self, response):
item = abcspiderItem()
item['url'] = response.url
sorun url diğer bazı url yönlendirilir (ve dolayısıyla tepki url başka bir şey verir) olur olmasıdır. Excel'den aldığım orijinal url'yi nasıl alabilirim?
"response.request.url" ifadesini denediniz mi? – alecxe
@alecxe: evet, bunu da denedim, bana yeniden yönlendirilen URL'yi aldım, aynı url'den aldım.url –