Yakınlarda apache nutch'i aramaya başladım. İlgi duyduğumun web sayfalarını nutch ile tarayabilir ve tarayabilirim. Bu verileri nasıl okuyacağımı tam olarak anlamadım. Temel olarak her sayfanın verilerini bazı meta verilerle (şu an için bazı rasgele verilerle) ilişkilendirmek ve daha sonra arama için kullanılacak olan semantik olarak yerel olarak saklamak istiyorum. Aynı şey için solr veya lucene kullanmalı mıyım? Bunların hepsine yeniyim. Bildiğim kadarıyla Nutch web sayfalarını taramak için kullanılıyor. Taranan verilere meta veri eklemek gibi bazı ek özellikler yapabilir mi?Nutch: Veri okuma ve meta veriler ekleme
5
A
cevap
3
Kullanışlı komutlar.
taramasını sürünerek URL
bin/nutch readdb crawl/crawldb -stats
Oku segmentinin
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
alın istatistiklerini başlayın (
bin/nutch readseg -dump crawl/segments/* segmentAllContent
Oku segmenti (tüm web sayfaları veri alır) yalnızca metin alır alan)
bin/nutch readseg -dump crawl/segments/* segmentTextContent -nocontent -nofetch -nogenerate - noparse -noparsedata
Hem URL'nin hem de bağlantının kaynak metni ve bağlantı metni de dahil olmak üzere, her bir URL'ye ilişkin bilinen bağlantılar listesini alın.
bin/nutch readlinkdb crawl/linkdb/ -dump linkContent
Tüm URL'lerin taranmasını sağlayın. Ayrıca getirilen olup olmadığı gibi diğer bilgileri, zorlama zamanı, modifiye zaman vb ikinci bölümü için
bin/nutch readdb crawl/crawldb/ -dump crawlContent
verir. yeni alan eklemek için, index-extra eklentisini kullanmayı veya özel eklenti yazmayı planlıyorum.
bakın:
İlgili konular
- 1. Roslyn Vs'de Meta Veriler Ekleme Microsoft.CodeAnalysis
- 2. Icecast ile Özel Meta Veriler
- 3. Metinle konuşma ve beraberindeki meta veriler
- 4. ASP.NET Dinamik Veriler kısmi meta veriler "buddy" sınıfı görmüyor
- 5. SQLAlchemy'de tam olarak meta veriler nelerdir?
- 6. CocoaAsyncBir soketten veri okuma ve okuma verileri
- 7. Veri dosyasındaki numpy dizisine veri okuma
- 8. Nutch
- 9. Parke dosyaları için meta veriler oluşturma
- 10. Okuma ve Yazma asp.net
- 11. Nutch üzerinde EMR problemi okuma S3'den itibaren
- 12. Mp3'den meta veriler nasıl alınır?
- 13. jpg resminden Java extract exif (meta veriler)
- 14. Apache Nutch ve Solr tümleştirmesi
- 15. Android: Okuma ve yazma .mp4 meta verileri -Tag
- 16. SQL Analysis Services Meta verilerini okuma
- 17. Node.js ile Veri Ekleme
- 18. iCloud ve Temel Veri Hatası (Ubiquity: Temel meta verileri meta veri URL'sinden geri almadı)
- 19. PJAX İsteğine Veri Ekleme
- 20. API'dan veri okuma ve doldurma .csv hatası
- 21. sqlite görünümden veri okuma
- 22. Yammer grubunda özel yönetilen meta veriler nasıl eklenir
- 23. json ayrıştırıcısından veri okuma
- 24. ekleme veri
- 25. Bağlantılı SQL Server veritabanı "tutarsız meta veriler" hatası veriyor
- 26. Görüntülere karmaşık özel meta veriler python ile yazılıyor
- 27. typescript özellikli dekoratörler sınıf için meta veriler ayarlayabilir mi?
- 28. iOS'ta PNG görüntülerine özel meta veriler nasıl yazılır
- 29. Nutch-Cygwin JAVA_HOME
- 30. JQuery'de veriler nasıl güncellenir ve tek kayıt düğmesine veri eklenir?
Merhaba CRS, sen 'semantik-web' Sana (ya Mikro taranmasını istediğiniz sayfalardan bazı yapısal veriyi istediğiniz varsayalım soruyla etiketlenmiş beri, RDFa ve/veya Microdata). Eğer durum buysa, N23 ile bütünleştirilebilecek Any23 (http://incubator.apache.org/any23/) 'a çok zaman kazandıracak ve muhtemelen birileri bunu yapmaya çalışıyor ya da zaten yapıyor.). – castagna
Yanıt için teşekkür ederiz. Any23'e bir göz atacağım. Aslında "normal" web sayfalarını taradım. Herhangi bir meta veri ile ilişkili değildir. Bu web sayfalarındaki metinden meta verileri hesaplayan bazı algoritmalarımız var. Bu meta veriler, web sayfasının yerel kopyasına eklenmelidir. Bu yüzden, web sayfalarını tarar ve içerikleri ayıklar ve daha sonra web sayfalarının yerel kopyasına meta verileri ekleyen bir tarayıcı arıyorum. – CRS