Bir web sitesini örtebilen ve taranan tüm sayfaların listesini düz metin veya benzer biçimde döndürebilen bir komut dosyasına ihtiyacım var; arama motorlarına site haritası olarak göndereceğim. Bir web sitesinin site haritasını oluşturmak için WGET kullanabilir miyim? Yoksa aynı şeyi yapan bir PHP betiği var mı?URL'si verilen bir web sitesinin site haritasını oluşturmak için WGET kullanabilir miyim?
7
A
cevap
30
wget --spider --recursive --no-verbose --output-file=wgetlog.txt http://somewebsite.com
sed -n "[email protected]\+ URL:\([^ ]\+\) .\[email protected]\[email protected]" wgetlog.txt | sed "[email protected]&@\&@" > sedlog.txt
Bu belirtilen web sitesinde bulunan tüm bağlantılar içeren sedlog.txt
adlı bir dosya oluşturur. Metin dosyası site haritasını XML site haritasına dönüştürmek için PHP veya kabuk betiğini kullanabilirsiniz. Sadece ihtiyacınız olan bağlantıları almak için wget komutunun parametrelerini (kabul et/reddet/dahil et/hariç tut) seçin.
1
Sen hile yapmak için bu Perl kullanabilirsiniz:
+0
Dosya sistemi taranarak oluşturulur, ancak "tarama" yapmayacaktır. Örümcek kurmak istediğim siteler dinamik. –
İlgili konular
- 1. Bir web sitesinin HSTS
- 2. İstemci tarafında e-posta oluşturmak için JavaScript kullanabilir miyim?
- 3. Bir url bağlantısını, özellikle bir cgi komutunu içeren bir url'yi tıklatmak/yürütmek için wget kullanabilir miyim?
- 4. Web sitesinin olağan eylemlerini tetiklemenin bir tıklamasını durdurabilir miyim?
- 5. Bir akışı ayrıştırmak için Boost.Regex'i kullanabilir miyim?
- 6. Bir ASP.NET web sitesi için IIS site adını alın
- 7. Web Görünümü'nü bir Görünümün içinde kullanabilir miyim (yerel tepki)?
- 8. Polonyalı/web bileşenlerini Cordova'lı yerel bir Android uygulamasında kullanabilir miyim?
- 9. Bir Site Haritasından ASP.NET MVC rotaları oluşturabilir miyim?
- 10. S3’te bulunan site haritasını manuel olarak google web yöneticisi araçlarına ekleyin
- 11. Farklı bir veritabanını kullanabilir miyim?
- 12. Wget kullanarak Web Service'i arayın
- 13. İçinde bir açıklık ile bir bağlantı oluşturmak için bir link_to kullanabilir miyim?
- 14. Kullanmak için JavaScript seç yazıcımı kullanabilir miyim?
- 15. Yerel geliştirme için https kullanabilir miyim?
- 16. Bir web sitesinin tek bir dizinindeki tüm resimleri indirme
- 17. QtCreator'ı bir Qt Windows uygulaması için Windows yüklemesi oluşturmak için kullanabilir miyim?
- 18. Web sitesinin ön ucunu bir etki alanında ve başka bir alandaki web sitesinin arka ucunda çalıştırın
- 19. Google Streeview API'sini kendi resimlerimle kullanabilir miyim?
- 20. benim web sitesinde haritasını görüntülemek için istiyorum ve bunun
- 21. Webview, web sitesinin tamamını yüklemiyor
- 22. Özel bir haritayı görüntülemek için Google Haritalar API'sını kullanabilir miyim?
- 23. Tüm site için W3C doğrulama
- 24. Android'de jmonkeyengine kullanabilir miyim?
- 25. Üretim alanında paster kullanabilir miyim?
- 26. Yerel bir dosyayı public_html üzerinde göreli yol kullanarak bir cron işi olarak çalıştırmak için wget kullanabilir miyim?
- 27. Bir mysql veritabanını yeniden adlandırmak için ALTER DATABASE kullanabilir miyim?
- 28. Bir MoinMoin sitesinin statik kopyası oluşturma
- 29. Dizide update_all kullanabilir miyim?
- 30. GAE'de Spring kullanabilir miyim?
+1 Bana bir sürü hata (muhtemelen farklı wget/sed sürümleri nedeniyle) veriyormuş gibi kullanamazdım. Ama bir kez ince ayar yaptım, bir çekicilik gibi çalıştı. Teşekkürler! – Julian
'--wait = 1' kullanarak istekler arasında küçük bir gecikme eklemelisiniz, aksi takdirde sitenin performansını etkileyebilir. – Liam