Mysql tablolarında büyük miktarda metin var. NLTK araç setini kullanarak bazı istatistiksel analizleri ve daha sonra bazı NLP'leri metinlerimde yapmak istiyorum. Benim DB tablosundaki (belki gerekirse bir dosyada koyarak) den seferde tüm metin Özü ve NLTK'de kendi corpus oluşturmanın avantajları
- : iki seçeneğim var "NLTK ile kullanılabilir.
ikincisi oldukça karmaşık görünüyor ve aslında ben sadece bunu buldum nasıl kullanılacağını açıklayan tüm makaleleri bulamadık: veritabanında olarak MongoDB kullanır ve kod oldukça karmaşık ve aynı zamanda MongoDB bilerek gerektirir Creating a MongoDB backed corpus reader. Öte yandan, eski gerçekten basit görünüyor ama DB'den metinleri ayıklamakla sonuçlanıyor.
Şimdi soru şu ki, NLTK'de corpus'un avantajları nelerdir? Diğer bir deyişle, eğer bu sorunu alıp NTLK yöntemlerinin üzerine yazıp, MySQL veritabanından okuyabiliyorsam, bu zorluğa değecektir? Metnimi bir corpus'a dönüştürdüğümde, normal NLTK işlevleri ile yapamayacağım (ya da bir çok zorluk ile) bana bir şey veriyor mu?
Ayrıca MySQL'i NLTK'ye bağlamakla ilgili bir şey biliyorsanız lütfen bana bildirin. Teşekkürler
Ben MongoDB makalesi yazarım ama en iyi kararı verdiğinizi düşünüyorum. Metin bir veritabanında olduğunda çok daha zor olan düz metin dosyaları ile yapabileceğiniz çok şey var. Makaleyi mümkün olanın bir örneği olarak yazdım ama bu her zaman iyi bir fikir değil. – Jacob
nlkt.Text bağlantınız kesildi. – Private
MongoDB'de metin ile nltk kullanmaya bakıyordum ve bir mongoDB destekli corpus'un birincil avantajı, orijinal DB metin verilerinin bir ara depolama adımına (örn. Düz dosyalarda) gerek kalmadan doğrudan nltk manipülasyonu gibi görünüyor. . – chinnychinchin