Hangileri here anlatıldığı gibi bir komut dosyasından scrapy çalıştırmaya çalışıyorum. this snippet'i kullanarak önerdi, ancak yaptığımda süresiz olarak askıda kalıyor. Bu, sürüm .10; Halen mevcut kararlılıkla uyumlu mu?Script bir komut dosyasından çalıştırılıyor -
cevap
from scrapy import signals, log
from scrapy.xlib.pydispatch import dispatcher
from scrapy.crawler import CrawlerProcess
from scrapy.conf import settings
from scrapy.http import Request
def handleSpiderIdle(spider):
'''Handle spider idle event.''' # http://doc.scrapy.org/topics/signals.html#spider-idle
print '\nSpider idle: %s. Restarting it... ' % spider.name
for url in spider.start_urls: # reschedule start urls
spider.crawler.engine.crawl(Request(url, dont_filter=True), spider)
mySettings = {'LOG_ENABLED': True, 'ITEM_PIPELINES': 'mybot.pipeline.validate.ValidateMyItem'} # global settings http://doc.scrapy.org/topics/settings.html
settings.overrides.update(mySettings)
crawlerProcess = CrawlerProcess(settings)
crawlerProcess.install()
crawlerProcess.configure()
class MySpider(BaseSpider):
start_urls = ['http://site_to_scrape']
def parse(self, response):
yield item
spider = MySpider() # create a spider ourselves
crawlerProcess.queue.append_spider(spider) # add it to spiders pool
dispatcher.connect(handleSpiderIdle, signals.spider_idle) # use this if you need to handle idle event (restart spider?)
log.start() # depends on LOG_ENABLED
print "Starting crawler."
crawlerProcess.start()
print "Crawler stopped."
GÜNCELLEME:
siz de gerekirse örümcek başına ayarlar bu örneğe bakın:
name = punderhere_com
allowed_domains = plunderhere.com
spiderClass = scraper.spiders.plunderhere_com
start_urls = http://www.plunderhere.com/categories.php?
Bu [https://gist.github.com/1051117) traceback'i alıyorum. Scrapy projem kazıyıcı olarak adlandırıldı. Sorun bu olabilir mi? – ciferkey
Sanırım sorun bu. Bu gerçek bir projeden. Referansları kazıyıcıya kaldırabilirsiniz. Örümcekler için sadece bazı ayarlara ihtiyacın var. – warvariuc
böylece kazıyıcıya yapılan referansları kaldırdıktan sonra projem için ayarlarımdan nasıl bahsedeceğim? – ciferkey
- 1. NFS komut dosyasından çalışan babel-cli çalıştırılıyor
- 2. xdotool komut dosyası çalıştırılıyor
- 3. Başka bir komut dosyasından bir python betiği içe aktarma ve bağımsız değişkenlerle çalıştırılıyor
- 4. Komut dosyasından Swift komut dosyasının yolunu alın
- 5. Linux'taki bir dosyadan Perl komut dosyaları çalıştırılıyor
- 6. Tek başına groovy komut dosyası netbeans'ten çalıştırılıyor
- 7. Perl komut satırı argümanlarını bir bash komut dosyasından alanlarla mı?
- 8. piton komut dosyasından
- 9. Arasındaki fark nedir: ". [Script]" veya "source [script]", "bash [script] veya $ SHELL [script]" ve "./ [script]" veya "[script]"?
- 10. Bir Android uygulamasından bir kabuk kullanıcısı olarak komut çalıştırılıyor
- 11. (local) python komut dosyasından çalıştır (uzak) php komut dosyası
- 12. Vim: Girintili bir komut dosyasından metin değiştirme
- 13. Bir içerik komut dosyasından HTML'yi sayfaya dönüştürün
- 14. Bir python komut dosyasından diğerine dönüş değeri
- 15. SQL'i bir bash komut dosyasından nasıl çalıştırıyorsunuz?
- 16. Bir python komut dosyasından exiftool çağırın.
- 17. Uzak bir komut dosyasından veri alma
- 18. Bir elisp komut dosyasından metin/bölgeleri vurgulama
- 19. Bir komut dosyasından eclipse eklentileri nasıl yüklenir?
- 20. Node.js sunucusunu başlatmak için gulp ile bir komut çalıştırılıyor
- 21. Bir kabuk komutunu bir php komut dosyasından yürütme
- 22. Başka bir SQL komut dosyasından SQL komut dosyası nasıl aranır?
- 23. Bir Gradle komut dosyasından komut satırı aracı çağırın
- 24. Komut dosyasından kök parolayı değiştir
- 25. Komut içeride ise bash script ifadesi
- 26. Access logger Elasticsearch komut dosyasından
- 27. KODA komut dosyasından çalışan Python komut dosyasını GCD kullanarak yönetme
- 28. : komut dosyasından hatalı biçimlendirilmiş başlık. Hatalı başlık
- 29. Belirli bir Python komut dosyasından özel Scrapy örümcekleri nasıl çağırılır
- 30. Bir python komut dosyasından SVN komutları nasıl çalıştırılır?
: örümcekler için dosyadaki ayarları
Örnek Bu soru ve cevap güncellemeye hazır olabilir. İşte [Scrapy'den yeni bir snippet] (http://scrapy.readthedocs.org/en/0.16/topics/practices.html). İşe yarıyor, ama benim için soru şu oluyor: Twisted reaktörünü nasıl durdurup bittiğinde nasıl devam edersiniz? – bahmait