2014-11-04 22 views
8
Ben URL'ler

wget kullanarak fakat görmezden url parametreleri

URL'ye içinde

http://www.example.com/level1/level2?option1=1&option2=2

sadece http://www.example.com/level1/level2 her sayfa için benzersiz olarak inşa edilmiş bir web sitesinin içeriğini indirmek istediğiniz

ve seçenek1 değerleri ve option2 değişiyor. Aslında, her benzersiz sayfa bu değişkenlere bağlı olarak yüzlerce farklı notasyona sahip olabilir. Tüm sitenin içeriğini almak için wget kullanıyorum. 3GB'tan fazla veriyi zaten indirdiğim sorundan dolayı. URL’nin soru işaretinin arkasındaki her şeyi görmezden gelmek için wget’i söylemenin bir yolu var mı? Adam sayfalarında bulamıyorum.

+0

Umarım parametresiz URL hala size yararlı bir şey döndürür. –

+0

Yapıyor. Soru işaretinin arkasında bir şey yoksa ya da yoktur. Tarayıcının nereden geldiğini izler. – cootje

+0

wget man sayfasına dayanarak, bu noktada wget ile sorgu dizeleri karşı hiçbir zaman eşleşen yoktur. Wget'i kullanmanın belirli bir sebebi, scrub ya da curl gibi bir şey değil mi? –

cevap

0

Sorun çözüldü.

http://www.example.com/main-topic/whatever-content-in-this-page

Tüm diğer URL'ler CMS başvurular vardı: Ben indirmek istediğiniz URL'ler açıklamaları tire kullanılarak oluşturuldu dostu tüm arama motoru vardır fark ettim. Hepsini ben kazandım, bu hile yaptı. Düşünce paylaşımı için teşekkürler!

+0

Bu sizin için çalıştıklarına sevindim, ancak bu, orijinal sorunuzun bir çözümü değil, "URL’nin soru işaretinin ardındaki her şeyi görmezden gelmenin bir yolu var mı?" kenorb, bu sorunla karşılaşan herkes için en iyi çözümü sağladı – thinkmassive

7

Belirli URL adreslerini reddetmek için örüntüyü belirtmek üzere --reject-regex kullanabilirsiniz.

Web sitesi yansıtılacak, ancak soru işareti olan adresleri görmezden gelecektir - wiki sitelerini yansıtmak için kullanışlıdır.

+0

Teşekkür ederim, bu mümkün olan en iyi wget-only çözümdür (bir filtreleme proxy'si gibi ek araçlar dahil olmaksızın). Bağlantıları ayrıştırmak için her bir html sayfası hala bir kez getirilir, ancak bir web sunucusu dosya listesindeki üstbilgi bağlantıları gibi GET paramları ile aynı bağlantıyı silme + tekrar tekrar silmeden kaçınır. – thinkmassive