2010-03-15 11 views

cevap

0

Lynx metin tarayıcısını kullanarak html dosyalarından bağlantıları ayıklayabilirsiniz. Bu etrafında Bash komut dosyası zor olmamalıdır.

+0

Lynx bunu kullanarak ayrıştırabilir, ancak gerçekten desteklemiyor. wget amaç için çok daha uygundur. – reinierpost

+0

Sayfadaki bağlantıların bir listesini çıkarmak için nasıl wget alırsınız? – Quentin

+0

Gerçekten harika bir fikir. Neden daha önce düşünmedim? –

2

Sana Perl, aynı yazar tarafından HTML::TagReader modülü ile rahat iseniz checklink (W3C projesi)

+0

Kullanıcı aracısını ayarladığınıza ve üstbilgileri kabul ettiğiniz sürece (bot detektörlerinden gelen sahte hata kodlarından kaçınmak için) bu işe yarayacaktır. –

+0

Tamam görünüyor, ama kesinlikle bu kadar büyük projeler için tasarlanmamıştır - sadece kırık linkleri listelemenin hiçbir yolu yoktur ve projem için çıktı * gerçekten * büyüktür. –

0

, webgrep komut satırı araçlarını deneyin veya kullanmayı tercih ediyorum. Eğer wget kullanabilirsiniz

4

, output.log dosyanın altındaki örn

wget -r --spider -o output.log http://somedomain.com 

, bu wget kırık bağlantılar bulmuştur olmadığını gösterir. awk/grep

+0

Kırık linkleri kontrol etmek için alternatif bir ** wget ** komut satırı [bu yanıt] 'da bulunabilir (http://stackoverflow.com/a/15029100/1497596). Ayrıca, bu cevapta bıraktığım bir yorumun Windows ** için ** wget bağlantısına da sahip olduğunu unutmayın. – DavidRR

İlgili konular