2011-12-07 18 views
5

Bir iyisi bu dört Nutch/Heritrix/OpenPipeLine/Apache Tika kıyaslıyorum? Her birinin esası ve zararı nedir? Ben web sitelerinin listesini tarayabilsek ve gerekirse değiştirilebilir bazı uzatılabilir tarayıcısının istiyorum.Hangi Open Source Crawler en iyisidir?

cevap

1

Sana söz tarayıcıların araştırılmış değil ama ben yazdım bir genişletilebilir ve değiştirilebilir olduğunu biliyoruz. Ayrıca AJAX ve "javascript okunur" web siteleri (Google Web Toolkit kullanarak yani siteler) ile kullanılabilir.

adı

forklabs-javaxpcom ve http://code.google.com/p/forklabs-javaxpcom/ bulunabilir olduğunu.

3

Nutch en hepsi etrafında, son derece yapılandırılabilir. 100m belgelerle denendi. Güvenilir.

Heritrix ince, çok, ama daha iyi Nutch çalışır.

Hızlı taramaya ihtiyaç duyduğunuzda, Crawler4j numaralı telefonu deneyebilirsiniz.

Bir giriş taraması yapmak ve basit bir kullanıcı arabirimiyle tarayıcınızı kolayca kullanmak ve yapılandırmak için websphinx'u deneyebilirsiniz.

Tika bir paletli değildir: it's a toolkit detects and extracts metadata and structured text content

ben sürünerek gerekli bir iş vardı, ama OpenPipeLine favori tarayıcılarının listesinde değildi. Bir UI, iş zamanlayıcısı vardır; Kurumsal çözümler için kullanılır. Bazı web sitelerini taramak istediğinizde, böyle şeylere ihtiyacınız olmayacak.

İlgili konular