Web tarayıcısını ve dizin verilerini solr olarak başarılı bir şekilde taradım.
ama Solr içine tarama ve indekslenecek tüm linkler için bir pdf dosyası oluşturmam gerekiyor. Phantomların bana pdf vereceğini biliyorum ama Nutch'da phantomları nerede yapılandıracağımı anlamadım. Bunu araştırıyorum ve Nutch'ın Fetcher sınıfını özelleştirmem gerektiğini biliyorum, ancak bunu nasıl özelleştireceğimi bilmiyordum. lütfen herhangi biri yardımcı olabilir. Son iki haftadan bu yana sıkışıp kaldım.Nutch Fetcher sınıfını kişiselleştirmek mümkün mü?
cevap
Crawldb'yi csv biçiminde bırakmak için mi arıyorsunuz? Herhangi bir kod değişikliği yapmadan ve aşağıdakileri takip ederek (Nutch tarafından taranacak tüm URL'lerin bir listesini almak) görevinizi gerçekleştirebildiğinizi düşünüyorum.
Sen ./bin/nutch readdb <crawldb path> -dump <output_dir> -format csv
Bu komut size Nutch içinde/unfetched getirilen tüm URL'ler verecektir kullanabilirsiniz. Csv'ye ekledikten sonra kolayca pdf olarak dışa aktarabilirsiniz. komutu hakkında daha fazla bilgi için
https://wiki.apache.org/nutch/bin/nutch%20readdbAslında benim görevim, nutch tarafından taranacak tüm URL için pdf dosyası oluşturmam gerektiğidir ve ayrıca URL'nin pdf'sini oluştururken, bu PDF yolunu HBASE'ye depolamak ve solr'a endeks olacak. –
- 1. Nutch
- 2. Bir Ruby sınıfını başlatmayı çağırmadan başlatmak mümkün mü?
- 3. ETW'de bir EventSource alt sınıfını oluşturmak mümkün mü?
- 4. mümkün mü?
- 5. mümkün mü?
- 6. mümkün mü?
- 7. ? mümkün mü?
- 8. TabloView.contentOffset'e gözlemci eklemek mümkün mü?
- 9. Bir Bash dosyasının crontab içinde root olarak çalıştırılması mümkün mü?
- 10. Nutch-Cygwin JAVA_HOME
- 11. fopen - bu mümkün mü?
- 12. HHVM'yi geçmek mümkün mü?
- 13. Com nesnesi, mümkün mü?
- 14. skip_while` klonlamak mümkün mü?
- 15. DialogFragment'i canlandırmak mümkün mü?
- 16. PHP dosyası. Mümkün mü?
- 17. getImageResource() Android. Mümkün mü?
- 18. SnackBar. Mümkün mü?
- 19. Android. ActiveJDBC mümkün mü?
- 20. Eta azaltma mümkün mü?
- 21. Özyineli DataTemplates mümkün mü?
- 22. Şişeyle İçermek mümkün mü?
- 23. thinktecture identitymanager, mümkün mü?
- 24. IdentityServer3 tümleştirmesi. Mümkün mü?
- 25. Amaçları programlamak mümkün mü?
- 26. NSArray sınıfına filtre uygulamak mümkün mü?
- 27. C++ 'da stack-only değişkeni mümkün mü?
- 28. Objective C'de CLHeading nesnesi oluşturmak mümkün mü?
- 29. Android'de video çözünürlüğünü almak mümkün mü?
- 30. Çok iş parçacıklı sınıflandırma mümkün mü?
bir göz biraz daha açıklar mısınız var, sen burada ulaşmaya çalıştıkları ne görev anlamak zordur. Şu ana kadar taradığınız tüm URL'lerin bir listesini ister misiniz? –
@SujenShah Nutch tarafından taranacak olan tüm URL'ler için pdf oluşturmak istiyorum. Bu yüzden pdf (pdf oluşturmak için phantomjs kullanıyorum) değiştirecek hangi sınıfta bilmem gerekiyor yani. sadece biliyorum pdf oluşturmak için herhangi bir sınıfta kod koymak gerekir ama şimdiye kadar yapmadım Sınıfı bul. –