2016-03-31 14 views
1

Yani, erkek ayakkabılarını jabong.com'dan taramaya çalışıyorum.Nutch 2.3.1 ile web sitelerini taramak, ürün bağlantılarını atlar ama diğer bağlantılara tarar

Benim tohum url:

http://www.jabong.com/men/shoes/ 

ben hayır bu regex-urlfilter.txt olduğunu kullanılarak ? ve = atlamak olmadığından emin nutch yapıyorum: Bu nutch-site.xml dosyasını içinde benim protocol.includes

-[*[email protected]] 

geçerli:

protocol-httpclient|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|scoring-opic|urlnormalizer-(pass|regex|basic)|indexer-solr 

Bu gibi bağlantıları tarar Aşağıdaki ben solr bunları arayabilirsiniz:

http://www.jabong.com/men/shoes/andrew-hill/ 
http://www.jabong.com/men/shoes/?sh_size=40 
http://www.jabong.com/all-products/?promotion=app-10-promo&cmpgp=takeover5 

Ama ben aslında taramasını istediğiniz ürünleri tarama değildir. Ürün bağlantılar şunlardır:

http://www.jabong.com/Alberto-Torresi-Black-Sandals-2024892.html?pos=2 
http://www.jabong.com/Clarks-Un-Walk-Brown-Formal-Shoes-874785.html?pos=11 

bu bağlantıları tohum URL ile aynı sayfada olduğundan bu garip, ama onlar sürünerek sakın. Sayfayı almak için bir wget yaptım ve bağlantıların oraya javascript içermediğini gördüm.

Ne yapıyorum?

cevap

0

Sayfanızın gezinmesinin çerezlere bağlı olmadığından emin olun. TaramayıBD ve segmentleri boşaltmayı deneyin ve beklenen URL'lerin gezinip yönlendirilmediğini kontrol edin. Gezinildiğinde, bu URL’den hangi içerik getirildi.

İlgili konular