scrapy-splash
middleware, kazınmış HTML kaynağını, bir docker konteynerinin içinde çalışan Splash
javascript motoru üzerinden geçiriyoruz. Biz örümcek içinde Splash kullanmak istiyorsanızScrapy Shell ve Scrapy Splash
, biz required project settings birkaç yapılandırmak ve bir Request
belirli meta
arguments belirterek verim: belgelenmiş gibi çalışır
yield Request(url, self.parse_result, meta={
'splash': {
'args': {
# set rendering arguments here
'html': 1,
'png': 1,
# 'url' is prefilled from request url
},
# optional parameters
'endpoint': 'render.json', # optional; default is render.json
'splash_url': '<url>', # overrides SPLASH_URL
'slot_policy': scrapyjs.SlotPolicy.PER_DOMAIN,
}
})
. Ancak, 'un içinde scrapy-splash
'u nasıl kullanabiliriz?
Bir DEFAULT_REQUEST_HEADERS (http://doc.scrapy.org/en/latest/topics/settings.html?#std:setting-DEFAULT_REQUEST_HEADERS ilave. Varsayılan olarak bir ara yazılım aracılığıyla Splash'i etkinleştirmeye yönelik açık tartışmalar vardır (bkz. Https://github.com/scrapinghub/scrapy-splash/issues/11). Başka bir seçenek, scrapy-splash mdw alt sınıfını ve buradaki zorlama ayarlarını yapmaktır. Fikirler https://github.com/scrapinghub/scrapy-splash/issues –