2016-05-12 17 views
7

için önceden eğitilmiş bir sınıflandırıcıya sahip mi? NLTK ve Stanford CoreNLP'yi karşılaştırıyordum ve ikincisinin Sentiment Analysis için sağlanan bir RNTN (Recursive Tensor Neural Network) uygulaması olduğunu öğrendim. Mevcut çevrimiçi örnekler, Penn TreeBankNLTK, Sentiment Analysis

gibi büyük veri setlerini kullanarak eğitildiği için eğitmemize gerek olmadığını göstermektedir. NLTK benzer bir özellik sunuyor mu? Bunun hakkında sormamın nedeni, çevrimiçi olarak NLTK için kullandığım uygulamaların Naive-Bayes veya MaxEnt gibi belirli bir classiferi eğitme içermesidir.

P.S .: Sadece Python'un NLTK'nın daha popüler olduğu kullanımı kolay mıdır? Java'da daha rahattayım, bu yüzden Stanford CoreNLP'yi seçmeli veya NLTK + python'a geçiş yapmalıyım

+1

Bu açıkça önyargılı bir fikirdir, ama eğer Java'da NLP yapmak istiyorsanız, Stanford CoreNLP'yi kullanmanızı tavsiye ederim! Burada harika belgeler var: http://stanfordnlp.github.io/CoreNLP/ – StanfordNLPHelp

+1

Teşekkürler, StanfordNLPHelp :) – Yasen

cevap

7

NLTK'nin zaten önceden işlenmiş birçok özelliğe sahip olduğunu buldum. Örneğin, bu sayfanın http://www.nltk.org/api/nltk.sentiment.html no'lu bölümünde, sosyal medya için önceden hazırlanmış bir duygu analizi bulacaksınız ("VADER" ifadesini arayın). İlgili ise, aşağıdakileri de kontrol edebilirsiniz: http://www.nltk.org/nltk_data/ NLTK'ya dahil edilmiş tüm veri kümelerinin tam listesi, bazıları işlenmiş veriler (ünlü WORDNET gibi her türlü sözcük türü). Stanford'un coreNLP'sinde herhangi bir deneyimim yok, bu yüzden herhangi bir uygun karşılaştırma yapamıyorum. Neyse, bu yardımları umarım :)

+0

Teşekkürler. Sadece VADER yaklaşımıyla ilgili makaleyi okuyun ve Stanford Core NLP'nin Özyinelemeli Ağ Modeli ile elde edilen aynı doğruluk oranını elde etmeyi iddia ediyor, ancak daha az hesaplama gücü ve sadeliği için zamana sahip. Bunu denemek için sabırsızlanıyorum ... Stanford CoreNLP deneyimlerimde tweet duygu analizi için biraz daha zaman harcıyor –