Yani, erkek ayakkabılarını jabong.com'dan taramaya çalışıyorum.Nutch 2.3.1 ile web sitelerini taramak, ürün bağlantılarını atlar ama diğer bağlantılara tarar
Benim tohum url:
http://www.jabong.com/men/shoes/
ben hayır bu regex-urlfilter.txt
olduğunu kullanılarak ?
ve =
atlamak olmadığından emin nutch yapıyorum: Bu nutch-site.xml dosyasını içinde benim protocol.includes
-[*[email protected]]
geçerli:
protocol-httpclient|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|scoring-opic|urlnormalizer-(pass|regex|basic)|indexer-solr
Bu gibi bağlantıları tarar Aşağıdaki ben solr bunları arayabilirsiniz:
http://www.jabong.com/men/shoes/andrew-hill/
http://www.jabong.com/men/shoes/?sh_size=40
http://www.jabong.com/all-products/?promotion=app-10-promo&cmpgp=takeover5
Ama ben aslında taramasını istediğiniz ürünleri tarama değildir. Ürün bağlantılar şunlardır:
http://www.jabong.com/Alberto-Torresi-Black-Sandals-2024892.html?pos=2
http://www.jabong.com/Clarks-Un-Walk-Brown-Formal-Shoes-874785.html?pos=11
bu bağlantıları tohum URL ile aynı sayfada olduğundan bu garip, ama onlar sürünerek sakın. Sayfayı almak için bir wget
yaptım ve bağlantıların oraya javascript içermediğini gördüm.
Ne yapıyorum?