Nutch

2010-11-24 19 views
19

için alternatif bir web tarayıcısı Sınırlı sayıda web sitesini dizine ekleyen özel bir arama motoru web sitesi oluşturmaya çalışıyorum. Ben ile geldi çözümdür:Nutch

web tarayıcısı olarak nutch kullanılarak
  • , arama motoru olarak solr kullanılarak
  • ,
  • ön uç ve site mantık Wicket ile kodlanmıştır.

Sorun şu ki, Nutch'ı oldukça karmaşık buluyorum ve ayrıntılı bir dökümantasyon (kitaplar, son eğiticiler .. vb.) Olmamasına rağmen, özelleştirilmesi gereken büyük bir yazılım parçası. Şimdi

Sorular:

  1. sitenin delik fikri hakkında herhangi yapıcı eleştiri?
  2. Nutch'a (sitenin taranan kısmı olarak) iyi ancak basit bir alternatif var mı?

Teşekkür

+7

Yıllardır herşeyi denedik: Nutch, Heritrix, Storm Crawler, crawler4j, kendi in-house paletli ...Ancak, tüm ekibimizin yemin ettiği tek bir gerçekten etkileyici alternatif var: Mixnode. –

cevap

4

Scrapy web sitelerini tarayan bir piton kütüphanesidir. Oldukça küçük (Nutch'a kıyasla) ve sınırlı alan taramları için tasarlandı. Özelleştirmesi oldukça kolay bulduğum bir Django tipi MVC stili var.

4

Tarama bölümü için gerçekten anemone ve crawler4j'u beğeniyorum. Her ikisi de bağlantılar seçimi ve sayfa yönetimi için özel mantığınızı eklemenize izin verir. Tutmaya karar verdiğiniz her sayfa için çağrıyı Solr'a kolayca ekleyebilirsiniz.

2

C#, ancak çok daha basit ve doğrudan yazarla iletişim kurabilirsiniz. (bana)

Nutch'ı kullanırdım ve siz haklısınız; çalışmak için bir ayı.

http://arachnode.net

3

Bu taramayı düşünüyorum kaç böylece web siteleri ve URL'ler bağlıdır. Apache Nutch, Apache HBase'deki (Apache Hadoop'a dayanan) sayfa belgelerini saklar, katıdır, kurulumu ve yönetimi çok zordur.

Tarayıcı, yalnızca bir sayfa getirme (CURL gibi) ve URL'lerinizin veri tabanını besleyecek bağlantıların listesini aldığından, bir tarayıcıyı kendi başınıza yazabileceğine eminim (özellikle birkaç web siteniz varsa). , basit bir MySQL veritabanı kullanın (tarama işlerini planlamak için RabbitMQ gibi bir kuyruk yazılımı).

Diğer yandan

, bir paletli daha sofistike olabilir, sen ... Ayrıca

, Nutch HTML belgesinin HEAD bölümü kaldırmak ve sayfanın vb tek gerçek "içerik" tutmak istiyorum olabilir Sayfalarınızı bir PageRank algo ile sıralayabilir, aynı şeyi yapmak için Apache Spark'i kullanabilirsiniz (Spark, verileri bellekteki belleği önleyebilir).

0

Nutch'ın uygulamanız için en iyi seçim olduğuna inanıyorum, ancak isterseniz, basit bir araç var: Heritrix. Bunun yanında, ön uç dili için js'yi öneririm çünkü solr, js tarafından kolayca işlenen jsonu döndürür.

İlgili konular