2010-11-09 24 views
11

Ruby'de web tarayıcısı yazmak için önerileriniz nelerdir? Herhangi bir lib, mekanize etmekten daha mı iyidir?Web tarayıcısı ruby ​​içinde

+2

Hangi yolla daha iyi? –

+0

Mechanize, bir web sitesinde gezinmeniz, formları doldurmanız, kimlik doğrulamanız vs. için harika bir araçtır. Örümcek değildir, çünkü her şeyi nasıl yapacağınızı söylemeniz gerekir. Anemone'u denemedim ama özellikleri iyi görünüyor. Ne yaparsanız yapın, karşı çalıştığınız sitenin 'robots.txt' dosyasını onurlandırdığınızdan emin olun veya kodunuzu geri gönderin. Kötü huylu örümcekler seni yasaklayabilir. Bir örümcek yazmak o kadar da zor değil; Hatırlayabildiğimden daha çok yazdım. İyi bir vatandaş olan ve sağlam olan bir yazı yazmak daha büyük bir görevdir, bu yüzden eğer yapabiliyorsanız önceden yapılmış bir tekerleğe geçin. –

+0

"[Bazı iyi Ruby tabanlı web tarayıcıları nelerdir?]" (Http://stackoverflow.com/questions/4981379/what-are-some-good-ruby-based-web-crawlers/4981595 " –

cevap

25

anemone ürününü denemeliyim. Kullanımı basit, özellikle basit bir tarayıcı yazmanız gerekiyorsa. Benim düşünceme göre, çok iyi tasarlanmış. Örneğin, sitemdeki 404 hatasını çok kısa sürede aramak için bir ruby ​​script yazdım.

+0

Yakında aynı işlevleri uygulayacağım için bu konuda bir özet yazmalısın. Diğerleri de muhtemelen kullanacaktır. – cha55son

5

Mekanize/Nokogiri'nin üzerine kurulmuş olan wombat'u incelemek isteyebilirsiniz ve sayfaları ayrıştırmak için DSL (örneğin, Sinatra gibi) sağlar. Oldukça düzgün :)

1

Bir örümcek olmadığı pioneer gem üzerinde çalışıyorum, ama sadece son zamanlarda Klepto diye bir tane serbest

+1

En iyi Ben 'web örümcek' ve 'web gezgin' eşanlamlı olduğunu söyleyebilirim. –

+0

Türkçe, benim ana dilim değil, bu yüzden yanılıyor olabilirim, ama bana öyle geliyor ki, bu paletli daha genel bir şey örümcek. Örümcek bir çok şeyden ibaret bir şey: bağlantılar üzerinden tekrar tekrar gezinmek. Ve öncü, küçük bir çerçeve gibidir. Kendi örümcekinizi öncü ile yazabilirsiniz ve daha fazlasını yapabilirsiniz;). Ancak, öncü kullanmak için daha fazla iş yapmanız gerekir, ancak daha çeviktir. – fl00r

+1

[Wikipedia] 'ya (http://en.wikipedia.org/wiki/Web_crawler) göre: "Web tarayıcıları için diğer terimler karıncalar, otomatik dizinleyiciler, botlar, Web örümcekleri, Web robotlarıdır ..." [Web tarayıcısı için StackOverflow eş anlamlı] (http://stackoverflow.com/tags/web-crawler/synonyms). –

0

em-synchrony gem basit asenkron paletli tabanlı. Onun oldukça basit bir DSL var, capibara üzerine inşa edilmiş ve çok sayıda harika konfigürasyon seçeneği var.

+2

Cevabınızı genişletip, bu harika seçenekler hakkında daha fazla bilgi ve kitaplığınızın görev için neden daha iyi olduğunu açıklarsanız iyi olur. Ayrıca kendi projelerinize link gönderirken dikkatli olun, topluluk bunu biraz spam olarak görebilir. – Kev

İlgili konular