2013-01-10 13 views

cevap

5

Basitçe yapamazsınız. Güncellenmiş olup olmadığını kontrol etmek için sayfayı yeniden taramanız gerekir. Dolayısıyla, ihtiyaçlarınıza göre sayfalara/alanlara öncelik verin ve bunları bir süre içinde yeniden tarayın. Bunun için Quartz gibi bir iş programına ihtiyacınız vardır.

Sayfaları karşılaştıran bir işlev yazmanız gerekir. Ancak, Nutch orijinal olarak sayfaları dizin dosyaları olarak kaydeder. Başka bir deyişle, Nutch HTML'leri kaydetmek için yeni ikili dosyalar oluşturur. Nutch, tüm tarama sonuçlarını tek bir dosyada birleştirdiği için ikili dosyaları karşılaştırmanın mümkün olduğunu düşünmüyorum. Karşılaştırmak ham HTML biçiminde sayfaları kaydetmek istiyorsanız, Sen
Ancak İşi Ateşleme, Nutch AdaptiveFetchSchedule taramaya olanak ve dizin sayfaları ve olmadığını tespit etmelidir için Job ta programlayın zorunda this question.

+0

JOB zamanlayıcı, güncellenmiş veya aynı ise, taramayı nasıl karşılaştırır? Nutch ya da güneşin içeriği nasıl karşılaştırdığı? –

+0

Yanıtı düzenlediniz. –

+1

Yani, eski ile karşılaştırmak bazı değişiklikler varsa her sayfa kontrol edilmelidir ve yeni şeyler varsa, sayfa taranacaktır. Doğru anladıysam, dizeleri karşılaştıracak basit bir işleve ihtiyacım var? –

4

cevabım bkz sayfa yeni veya güncellenmiş ve bunu manuel olarak yapmak zorunda değilsiniz.

Article, aynısını ayrıntılı olarak açıklar.

+0

Tamam, makaleyi okudum ve başka bir sorum var.O verilen URL'yi taramak için komutumu çalıştırmak için herhangi bir işi sheduler kullanmalı mıyım yoksa bunu yapmak için Adaptive Fetch scheduler'a mı ihtiyacım var? Eğer Adaptif Getirme doğruysa, onu nasıl kullanabilirim? –

+0

konfigürasyon ayarlarını konfigürasyonda yapılandırabilirsiniz. Ve işi ateşlemek için bir programlayıcıya ihtiyaç duyarsınız. Autosys, Quartz vb. – Jayendra

+2

Burada size katılmam gerekecek. Bahsettiğiniz sınıf, taranan sitenin "if-modified-since" ve "son değiştirilmiş" http başlıklarına göre çalışır. Ve şunu söylemeliyim ki, etrafındaki sitelerin hiçbiri (google, youtube, stackoverflow vb. Hariç) bu başlıkların doğruluğu konusunda güvenilir olmamalıdır. –

1

http://pascaldimassimo.com/2010/06/11/how-to-re-crawl-with-nutch/ ilgili bu üzerinde tartışılmıştır ne: Yukarıda belirtilen çözüm gerçekten işe yarayacak mı How to recrawle nutch

merak ediyorum. Konuşurken deniyorum. Haber sitelerini tararım ve ön sayfalarını sık sık güncellerler. Bu nedenle, dizini/ön sayfayı sık sık yeniden taramalıyım ve yeni keşfedilen bağlantıları getirmem gerekiyor.

+0

Aslında önceki bir cevapta önerilen aynı makaleyi önermeyi düşünüyorsunuz? –

İlgili konular