2012-12-24 9 views
6

:7 Ben windows ortamında ama ben hep şu istisna ile sona sitede <a href="http://wiki.apache.org/nutch/NutchTutorial">Nutch Tuorial Apache</a> verilen prosedüre uygun olarak çalıştırmayı deneyin her zaman nutch 1.6 kullanmaya çalışıyorum

Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-ajayn\mapred\staging\ajayn-1231695575\.staging to 0700 

Net üzerinden kapsamlı arama yaptım ama somut bir çözüm yok. Lütfen sistemde yüklü ya da çalışan hiçbir hadoop örneğim olmadığını ve tek amacım web tarama aracı olarak nutch denemeyi unutmayın.

hatta mümkünse bu konuda gidip yukarıdaki istisna önlemek için nasıl olarak evet herhangi işaretçileri pencerelerde nutch 1.6 çalıştırın ve eğer mı.

Not: Eğer yardımı olacaksa,/tmp/klasörü Salt Okunur ona bağlı öznitelik vardır ve bunu yapmaya çalışırsanız bile değişmez. Ayrıca cygwin I dosya izinlerini 777 belirtmeye çalıştığımız, ama her zaman, nutch örneğini çalıştırmayı deneyin yeni bir klasör örn: "ajayn-1231695575" oluşturulur dair yürütme yetkisi yoktur.

Teşekkür

Ajay

cevap

0

Biz vardı windows üzerinde ide ile geliştirmek ve dağıtmak, böylece Nutch 1.3 kadar, biz gelişimi için sanal kutusu ve paylaşılan dizin olan bir ubuntu vm ortamını kullanmanızı tavsiye aynı sorunlar vm’ye ve Linux’ta Nutch’ı çalıştır.

1

Eğer GettingNutchRunningWithWindows from the Nutch Wiki denemek mü? Öğrencilerimden

Bazı çok tecrübe ve burada işlerini sonucudur:

nutch 1.7 ile test edilmiştir - Ayrıca cygwin gerekir http://www.apache.org/dyn/closer.cgi/nutch/1.7/apache-nutch-1.7-bin.zip .

1) boşluksuz yoluna kapta ekstrakte edin. Örneğin,

2) Jdk'ı boşluk olmadan bir yere kopyalayın. Bunun yerine cygwin içinde bir sembolik bağlantı yapmaya çalıştım ama iyi gitmedi. cygwin kurulumda örneğin

xcopy /S "C:\Program Files\Java\jdk1.7.0_21" c:\jdk1.7.0_21 

3) Java

3,1) export JAVA_HOME=/cygdrive/c/jdk1.7.0_21

3,2) için yollar için export PATH=$JAVA_HOME/bin:$PATH

3,3) her biri Java çağırarak doğru olduğundan emin olun. DEFA

/cygdrive/c/jdk1.7.0_21/bin/java dönmelidir - ilk sorun sabit - hatalı Java yolları ile. Şimdi ikinci soruna - hadoop yaması.

4) Yama Hadoop Kısacası

https://issues.apache.org/jira/browse/HADOOP-7682 
https://github.com/congainc/patch-hadoop_7682-1.0.x-win 

: - - d:\dev\ir\nutch-1.7\lib yılında patch-hadoop_7682-1.0.x-win.jar koymak aşağıdaki ekleyerek d:\dev\ir\nutch-1.7\conf\nutch-site.xml düzenleyin:

<property> 
    <name>fs.file.impl</name> 
    <value>com.conga.services.hadoop.patch.HADOOP_7682.WinLocalFileSystem</value> 
    <description>Enables patch for issue HADOOP-7682 on Windows</description> 
</property> 

5) Hadoop ısı Dir - Ben bu gerekli olup olmadığından emin değilim (uygulamayı uygulamadan önce deneyin), çünkü yamayu uygulamadan önce ekledim, ancak benim d:\dev\ir\nutch-1.7\conf\nutch-site.xml Ben

<property> 
    <name>hadoop.tmp.dir</name> 
    <value>C:\tmp\asd</value> 
</property> 

6) Hadoop sürümü -Sanırım yama buldum, ben Hadoop-çekirdek-0.20.205.0.jarbefore için Hadoop döndürüldüğünü bu (uygulamadan önce deneyin) gerekli olup olmadığından emin değilim ve Bu hala benim kurulumumda kalır. Eğer bunun gerekli bulursanız o burada: http://mvnrepository.com/artifact/org.apache.hadoop/hadoop-core/0.20.205.0

6,1) hadoop-core-0.20.205.0.jar)

Bazı tarama optimizasyonları İndir yedekleme

6,2) için bazı konuma d:\dev\ir\nutch-1.7\lib den hadoop-core-1.2.1.jar taşıyın. Çok sayıda siteyi taramanız gerekiyorsa, çok sayıda URL, büyük derinlik ve topN ile gezinmeye başlama. Bunu yaparsanız, nutch getirilerinin aynı site üzerinden bir kerede bir tane bağlandığını göreceksiniz, getiriler arasında 5 saniye beklemek. Bunun nedeni, derinlik 30 ve topN 200'ün muhtemelen ilk getirme sırasını sadece aynı siteden bağlantılar ile doldurabilmesidir. Nutch, bunları bir seferde getirmeyi denemeyecektir, çünkü varsayılan olarak, aynı sitedeki birkaç iş parçacığında getirilmemesi yapılandırılmıştır. Yani beklemek için mahkum oldun. Çok.

7.1) Bunu çözmek için, önce küçük derinliklere ve topN'ye sahip birkaç tarama yapın - örn.

bin/nutch crawl urls -dir crawl -depth 3 -topN 4 

Bu Sonra

bin/nutch crawl urls -dir crawl -depth 20 -topN 150 

7.3'e büyük bir gece tarama deneyebilirsiniz) birden fazla sitede

7.2 den url'lerle oluşturulan getirme sırası dolduracaktır.) Bazıları için izin vermek için çok iş parçacığı, sizinki için nutch-site.xml'a ekleyin. Aynı anda birden fazla iş parçacığının aynı ana bilgisayardan alınmasına izin verir.

NOT! Internet'te mülklerin özelliklerini kullanmadan önce okuyun.

<property> 
    <name>fetcher.threads.fetch</name> 
    <value>16</value> 
</property> 
<property> 
    <name>fetcher.threads.per.queue</name> 
    <value>4</value> 
</property> 
<property> 
<property> 
    <name>fetcher.queue.mode</name> 
    <value>byDomain</value> 
</property> 
<name>fetcher.threads.per.host</name> 
    <value>8</value> 
    <description></description> 
</property> 
<property> 
    <name>fetcher.verbose</name> 
    <value>true</value> 
</property> 
<property> 
    <name>fetcher.server.min.delay</name> 
    <value>5.0</value> 
    <description>applicable ONLY if fetcher.threads.per.host is greater than 1 (i.e. the host blocking is turned off).</description> 
</property> 
</configuration> 

Not: çok sayıda site taradığımızda, senin D:\Dev\id\apache-nutch-1.7\conf\regex-urlfilter.txt ilgilendiğiniz yalnızca siteleri içerdiğinden emin olun. Aksi takdirde diskinizde "İnternet" ile sonuçlanırsınız.

İlgili konular