2012-12-06 11 views
5
burada

ilk sorum :)Web sayfasının tüm bağlantılarını scrapy ile taramaya çalışıyor. Ama çıkış olamaz bir sayfadaki bağlantıların

Ben orada tüm olası web sayfaları için benim okullar sitenizi taramaya çalışıyordu. Ancak bağlantıları bir metin dosyasına alamıyorum. Doğru izinlerim var, bu sorun değil. Bu yüzden sadece hsleiden.nl sayfasında tarama yapıyorum. Ve ben answer.url textfile hsleiden-output.txt dosyasına sahip olmak isterim.

Bunu yapmak için herhangi bir yol var mı?

+0

Lütfen sorununuza özellikle dikkat edin. Ne olmasını bekliyorsun? Bunun yerine ne oluyor? – Sheena

+0

Kodunuzu ödünç almak istedim, buna nasıl derim? –

cevap

1

CrawlSpider belgelerine başvurularak, birden çok kural aynı bağlantıyla eşleşiyorsa, yalnızca ilk kullanılacaktır. Bu nedenle, yeniden yönlendirmeler sonucunda, ilk kuralın kullanılması görünürde sonsuz bir döngü ile sonuçlanır. İkinci kural göz ardı edildiğinden, eşleşen bağlantılardan hiçbiri parse_item geri çağrısına aktarılmaz, bu da çıktı dosyası anlamına gelir.

Bazı soruşturma yönlendirme sorunu gidermek için (ve ikinci çatışma olmayacak şekilde birinci kuralı değiştirmek için) gereklidir, ancak tümüyle dışında yorum şöyle bağlantıların bir çıkış dosyası üretecektir:

http://www.hsleiden.nl/activiteitenkalenderhttp://www.hsleiden.nlhttp://www.hsleiden.nl/vind-je-studie/proefstuderenhttp://www.hsleiden.nl/studiumgenerale

vb

, yeni satır karakteri ya separatörlerde çıkış dosyasına yazma her zaman eklemek isteyebilirsiniz böylece hepsi tek bir hat üzerinde bir araya munged edildi

.

+0

Thx arkadaşı, benim için çalışıyor. Ayrıca çıktıdaki '\ n' çözümünüz de sabittir. –

İlgili konular