2015-11-03 9 views
6

Ben TestCrawl2 daha önce var ve oluşturulması gerekir etmediğini varsayarak aşağıdaki komutla nutch 1.10 koşmak ...nutch 1.10 giriş yolu/linkdb/akım

sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20 

aldığım bir hata yok Aşağıdakilerin indekslenmesi üzerine:

Linkdb dizini var, ancak 'geçerli' dizini içermiyor. Dizin root'a aittir, bu nedenle izin sorunları olmamalıdır. İşlem bir hatadan çıktığı için linkdb dizini .locked ve .. locked.crc dosyaları içerir. Komutu tekrar çalıştırırsam, bu kilit dosyaları aynı yerde çıkmasına neden olur. TestCrawl2 dizinini silin, durulayın, tekrarlayın.

Nol ve solr yüklemelerinin kendileri daha önce TestCrawl örneğinde sorunsuz olarak çalıştığını unutmayın. Sadece şimdi sorun yaşadığım yenisini deniyorum. Bu sorunu gidermek için herhangi bir öneriniz var mı? Bu sorunun bir sürümüne haline çalıştırmak sanki

cevap

3

Tamam, öyle görünüyor: tarama Senaryo bana nutch-site.xml dosyasını ignore_external_links değişikliklerin farkında değil bir sonucudur

https://issues.apache.org/jira/browse/NUTCH-2041

dosya.

Birkaç siteleri taramak için çalışıyorum ve (. Sadece + kullanarak) dış bağlantıları görmezden ve yalnız regex-urlfilter.txt bırakarak basit hayatımı tutmak umuduyla Ben gerekecek gibi

Şimdi görünüyor edildi

ignore_external_links öğesini false olarak değiştirin ve her URL'm için bir regex filtresi ekleyin. Umarım yakında bir Hollandalı 1.11 sürümü alabilirim. Bu orada sabitlenmiş gibi görünüyor.

İlgili konular