2012-12-15 18 views
10

Makaleleri almak için bir çerçeve arıyorum, sonra Nutch 2.1'i buluyorum. İşte planım ve sorular her açıklanmıştır:Makale taraması için Nutch nasıl genişletilir

url içine makale listesi sayfalarını Add/seed.txt İşte bir problem. Dizine eklenmek istediğim şey makale sayfası değil makale sayfasıdır. Ancak, liste sayfasının dizine eklenmesine izin vermezsem, Nutch hiçbir şey yapmaz çünkü liste sayfası giriştir. Peki, sadece sayfa sayfalarını içermeyen makale sayfasını nasıl dizinleyebilirim?

'yazar', 'tarihi', 'makale gövdesini', 'başlığı' ve html belki diğer bilgileri ayrıştırmak bir eklenti yazın. Nutch 2.1'de 'Ayrıştırıcı' eklentisi arayüzü: Ayrıştırma getParse (Dize url, WebPage sayfası) Ve 'Web sayfası' sınıfı bazı önceden tanımlanmış attributs vardır: makalelerde sonra

public class WebPage extends PersistentBase { 
    // ... 
    private Utf8 baseUrl; 
    // ... 
    private ByteBuffer content; // <== This becomes null in IndexFilter 
    // ... 
    private Utf8 title; 
    private Utf8 text; 
    // ... 
    private Map<Utf8,Utf8> headers; 
    private Map<Utf8,Utf8> outlinks; 
    private Map<Utf8,Utf8> inlinks; 
    private Map<Utf8,Utf8> markers; 
    private Map<Utf8,ByteBuffer> metadata; 
    // ... 
} 

So, as you can see, there are 5 maps I can put my specified attributes in. But, 'headers', 'outlinks', 'inlinks' seem not used for this. Maybe I could put those information into markers or metadata. Are they designed for this purpose? 
BTW, the Parser in trunk looks like: 'public ParseResult getParse(Content content)', and seems more reasonable for me. 

vardır Solr'a endeksli, başka bir uygulama 'tarih' ile sorgulayabilir ve daha sonra makale bilgisini Mysql içine saklayabilir. Benim sorum şu: Makale Mysql içine doğrudan makale saklayabilir miyim? Veya dizin davranışını belirtmek için bir eklenti yazabilir miyim?

Nutch, amacım için iyi bir seçim mi? Yoksa, benim için başka bir kaliteli çerçeve/kütüphane önerir misiniz? Yardımlarınız için teşekkürler. Birkaç sitelerinden makale çıkarma Aradığınız tüm ise

cevap

1

ardından kontrol http://www.crawl-anywhere.com/

Eğer (büyük olan) boilerpipe makale çıkarıcı kullanmak istediğinizi belirtebilirsiniz nerede bir yönetici UI ile birlikte geliyor . Ayrıca, taranmasını istediğiniz sayfaları ve taranmasını istediğiniz VE dizine eklenmek istediğiniz sayfalarla eşleşen URL kalıbı ile de belirtebilirsiniz.

+0

Her Yerde Gezinme Dokümanını yalnızca makale gövdesini (web sayfasının tüm html gövdesinden) ayıklamak için belirleyebileceğim özellik bulamadım. –

İlgili konular