2016-03-30 14 views
0

Web tarayıcısını ve dizin verilerini solr olarak başarılı bir şekilde taradım.
ama Solr içine tarama ve indekslenecek tüm linkler için bir pdf dosyası oluşturmam gerekiyor. Phantomların bana pdf vereceğini biliyorum ama Nutch'da phantomları nerede yapılandıracağımı anlamadım. Bunu araştırıyorum ve Nutch'ın Fetcher sınıfını özelleştirmem gerektiğini biliyorum, ancak bunu nasıl özelleştireceğimi bilmiyordum. lütfen herhangi biri yardımcı olabilir. Son iki haftadan bu yana sıkışıp kaldım.Nutch Fetcher sınıfını kişiselleştirmek mümkün mü?

+0

bir göz biraz daha açıklar mısınız var, sen burada ulaşmaya çalıştıkları ne görev anlamak zordur. Şu ana kadar taradığınız tüm URL'lerin bir listesini ister misiniz? –

+0

@SujenShah Nutch tarafından taranacak olan tüm URL'ler için pdf oluşturmak istiyorum. Bu yüzden pdf (pdf oluşturmak için phantomjs kullanıyorum) değiştirecek hangi sınıfta bilmem gerekiyor yani. sadece biliyorum pdf oluşturmak için herhangi bir sınıfta kod koymak gerekir ama şimdiye kadar yapmadım Sınıfı bul. –

cevap

0

Crawldb'yi csv biçiminde bırakmak için mi arıyorsunuz? Herhangi bir kod değişikliği yapmadan ve aşağıdakileri takip ederek (Nutch tarafından taranacak tüm URL'lerin bir listesini almak) görevinizi gerçekleştirebildiğinizi düşünüyorum.

Sen ./bin/nutch readdb <crawldb path> -dump <output_dir> -format csv

Bu komut size Nutch içinde/unfetched getirilen tüm URL'ler verecektir kullanabilirsiniz. Csv'ye ekledikten sonra kolayca pdf olarak dışa aktarabilirsiniz. komutu hakkında daha fazla bilgi için

https://wiki.apache.org/nutch/bin/nutch%20readdb

+0

Aslında benim görevim, nutch tarafından taranacak tüm URL için pdf dosyası oluşturmam gerektiğidir ve ayrıca URL'nin pdf'sini oluştururken, bu PDF yolunu HBASE'ye depolamak ve solr'a endeks olacak. –