2011-02-15 14 views
6

Mysql tablolarında büyük miktarda metin var. NLTK araç setini kullanarak bazı istatistiksel analizleri ve daha sonra bazı NLP'leri metinlerimde yapmak istiyorum. Benim DB tablosundaki (belki gerekirse bir dosyada koyarak) den seferde tüm metin Özü ve NLTK'de kendi corpus oluşturmanın avantajları

  • metni Özü NLTK fonksiyonlarını kullanabilir ve "korpus dönüştürerek

    1. : iki seçeneğim var "NLTK ile kullanılabilir.

    ikincisi oldukça karmaşık görünüyor ve aslında ben sadece bunu buldum nasıl kullanılacağını açıklayan tüm makaleleri bulamadık: veritabanında olarak MongoDB kullanır ve kod oldukça karmaşık ve aynı zamanda MongoDB bilerek gerektirir Creating a MongoDB backed corpus reader. Öte yandan, eski gerçekten basit görünüyor ama DB'den metinleri ayıklamakla sonuçlanıyor.

    Şimdi soru şu ki, NLTK'de corpus'un avantajları nelerdir? Diğer bir deyişle, eğer bu sorunu alıp NTLK yöntemlerinin üzerine yazıp, MySQL veritabanından okuyabiliyorsam, bu zorluğa değecektir? Metnimi bir corpus'a dönüştürdüğümde, normal NLTK işlevleri ile yapamayacağım (ya da bir çok zorluk ile) bana bir şey veriyor mu?

    Ayrıca MySQL'i NLTK'ye bağlamakla ilgili bir şey biliyorsanız lütfen bana bildirin. Teşekkürler

  • cevap

    3

    Pek çok şey okuduktan sonra cevabı buldum. NLTK'de korpus olarak kaydedilen metinlerde kullanılabilecek, benzerleri, arama, common_context, benzerleri gibi pek çok kullanışlı işlev vardır. Onları kendiniz uygulamak oldukça zaman alır. Eğer veritabanından veriyi seçip bir dosyaya koyarsam ve nltk.Text işlevini kullanırsam, daha önce bahsettiğim tüm fonksiyonları, çok fazla kod satırı yazmadan veya hatta üzerine yazmam gerekmeden, MySql'e bağlanabilmem için kullanabilirim. Burada daha fazla bilgi için link: nltk.Text

    +3

    Ben MongoDB makalesi yazarım ama en iyi kararı verdiğinizi düşünüyorum. Metin bir veritabanında olduğunda çok daha zor olan düz metin dosyaları ile yapabileceğiniz çok şey var. Makaleyi mümkün olanın bir örneği olarak yazdım ama bu her zaman iyi bir fikir değil. – Jacob

    +0

    nlkt.Text bağlantınız kesildi. – Private

    +0

    MongoDB'de metin ile nltk kullanmaya bakıyordum ve bir mongoDB destekli corpus'un birincil avantajı, orijinal DB metin verilerinin bir ara depolama adımına (örn. Düz dosyalarda) gerek kalmadan doğrudan nltk manipülasyonu gibi görünüyor. . – chinnychinchin

    İlgili konular