2010-10-16 21 views

cevap

30
wget --spider --recursive --no-verbose --output-file=wgetlog.txt http://somewebsite.com 
sed -n "[email protected]\+ URL:\([^ ]\+\) .\[email protected]\[email protected]" wgetlog.txt | sed "[email protected]&@\&@" > sedlog.txt 

Bu belirtilen web sitesinde bulunan tüm bağlantılar içeren sedlog.txt adlı bir dosya oluşturur. Metin dosyası site haritasını XML site haritasına dönüştürmek için PHP veya kabuk betiğini kullanabilirsiniz. Sadece ihtiyacınız olan bağlantıları almak için wget komutunun parametrelerini (kabul et/reddet/dahil et/hariç tut) seçin.

+0

+1 Bana bir sürü hata (muhtemelen farklı wget/sed sürümleri nedeniyle) veriyormuş gibi kullanamazdım. Ama bir kez ince ayar yaptım, bir çekicilik gibi çalıştı. Teşekkürler! – Julian

+2

'--wait = 1' kullanarak istekler arasında küçük bir gecikme eklemelisiniz, aksi takdirde sitenin performansını etkileyebilir. – Liam

1

Sen hile yapmak için bu Perl kullanabilirsiniz:

+0

Dosya sistemi taranarak oluşturulur, ancak "tarama" yapmayacaktır. Örümcek kurmak istediğim siteler dinamik. –

İlgili konular