2009-12-14 16 views
7

ben NLTK yükleyicisi ile yüklü bazı külliyatınızı yüklemeye çalışıyorum ama var:NLTK - python'dan hangi kurumların kurulduğunu nasıl öğrenebilirim?

>>> from nltk.corpus import machado 
     Traceback (most recent call last): 
     File "<stdin>", line 1, in <module> 
     ImportError: cannot import name machado 

Fakat yüklü olarak indirme yöneticisi (nltk.download()) paket machado işaretlenir ve bir nltk_data/corpus/machado klasör var.

Python yorumlayıcısının içinden nasıl görülebilir, yüklü şirket nedir?

Ayrıca, bu nasıl yapılır ile çalışmak için hangi paketi yüklemeliyim? http://nltk.googlecode.com/svn/trunk/doc/howto/portuguese_en.html

Nasıl yapılacağını gösteren modülü bulamıyorum nltk.examples.

+0

may/home/myUser/nltk_data idi –

cevap

9

import nltk.corpus 
dir(nltk.corpus) 

bu noktada, muhtemelen yaklaşık __LazyModule__... nedenle yeniden dir(nltk.corpus) yapmak size bir şey söyledi deneyin.

Bu işe yaramazsa, iPython'da sekmeyi tamamlamayı deneyin.

3

NLTK, nltk.corpus numaralı belgeyi içeren ve korpus okuyucularının tanımlarını içeren (PlainTextCorpusReader gibi) bir paket içerir. Bu paket ayrıca, nltk.downloader() ile indirilebilen kurumlar için önceden tanımlanmış erişim noktalarının geniş bir listesini içerir. Bu erişim noktaları (ör. nltk.corpus.brown), karşılık gelen korpusun indirilip yüklenilmediğine karar verilir.

  1. erişim noktaları NLTK içinde tanımlandığı , dir(nltk.corpus) (import nltk sonra) kullanmak için, bkz. Eğer nltk_data alanda var külliyatınızı görmek için

  2. , şunu deneyin:

    import os 
    import nltk 
    print(os.listdir(nltk.data.find("corpora"))) 
    

    Bu sadece klasörün nltk_data/corpora içeriğiyle listesini döker. Onu oradan alabilirsin.

  3. sen nltk_data/corpora alanda kendi corpus yüklemiş ve NLTK bu konuda bilmiyor, uygun okuyucuya kendini tetiklenmesi gerekiyor

    .

    import nltk 
    from nltk.corpus import PlaintextCorpusReader 
    
    mypath = nltk.data.find("corpora/mycorpus") 
    mycorpus = PlaintextCorpusReader(mypath, r".*\.txt$") 
    

    Ama bu durumda doğrudan kendisine kendi yerde külliyatı ve noktayı mypath bırakabilir: o corpora/mycorpus bir düz metin korpus var ve tüm dosyalar .txt sona eğer Örneğin, böyle yapardım NLTK'yı bulmak için sormak yerine.

İlgili konular