2013-07-31 12 views
6

Web sitelerini taramak için Nutch kullanıyorum ve Nutch tarafından taranan html sayfalarının belirli bölümlerini ayrıştırmak istiyorum. Örneğin,Nutch eklentisini kullanarak belirli HTML etiketlerinde bulunan içerik nasıl ayrıştırılır?

<h><title> title to search </title></h> 
    <div id="abc"> 
     content to search 
    </div> 
    <div class="efg"> 
     other content to search 
    </div> 

Ben böyle devam id = "abc" ve class = "EFG" ve div öğesi ayrıştırmak istiyorum.

Nutch tarafından sağlanan htmlparser eklentisi olarak tüm html etiketlerini, css ve javascript içeriğini kaldırdığı ve yalnızca metin içeriğini kaldığı için özelleştirilmiş ayrıştırma için bir eklenti oluşturmanız gerektiğini biliyorum. Bu blog http://sujitpal.blogspot.in/2009/07/nutch-custom-plugin-to-parse-and-add.html atıfta bulundu ama ben html etiketi ile ayrıştırma için bulundu, ancak html etiketlerini belirli bir değere sahip öznitelikle ayrıştırmak istediğimi buldum. Jericho'nun belirli html etiketlerini ayrıştırmak için yararlı olduğunu belirttim, ancak Jericho ile ilişkili nutch eklentisi için herhangi bir örnek bulabilirim.

Belirli bir değere sahip özniteliklere sahip etiketler temelinde html sayfalarını ayrıştırma stratejisinin nasıl tasarlanacağı hakkında biraz rehberliğe ihtiyacım var.

Sen css kurallara göre sayfadan veri ayıklamak için bu eklentiyi kullanabilirsiniz

cevap

5

: En örnekte

https://github.com/BayanGroup/nutch-custom-search

, bu şekilde yapılandırabilirsiniz:

<config> 
    <fields> 
     <field name="custom_content" /> 
    </fields> 
    <documents> 
     <document url=".+" engine="css"> 
      <extract-to field="custom_content"> 
       <text> 
        <expr value="#abc" /> 
       </text> 
       <text> 
        <expr value=".efg" /> 
       </text> 
      </extract-to> 
     </document> 
    </documents> 
</config> 
+0

Denedim Yukarıdaki örnekte 'extractors.xml' ve sonra Nutch Solr'a indekslenecektir. HERHANGİ BİR '' öğesini kaldırırsam çalışır. eklenti birden çok "" öğesini kabul etmiyor mu? –

+0

Bu eklenti, Nutch en yeni sürümleri için, yani 2.X sürümlerinde çalışmıyor – horro

İlgili konular