Ben duygu analizi için bir NLP projesine başlıyorum.Örnek veri veya webservice kullanarak cümleler için NLTK python ile duygu analizi?
Python için NLTK'yi başarıyla yükledim (bunun için harika bir yazılım parçası gibi görünüyor). Ancak, görevimi gerçekleştirmek için nasıl kullanılabileceğini anlamakta zorlanıyorum. Ben bu kırmak istiyoruz
- : Burada benim görevdir cümlelere (ya da 100'den fazla bilginin olmadığı) (sanırım bunu python'da yapabilirim sanırım)
- Bu cümlede belirli cümleler için tüm cümleleri aramak için "David Cameron'ın" Sonra
- Her cümlede olumlu/olumsuz duyguları kontrol eder ve buna göre
NB bunları saymak istiyorum: benim veri setleri de büyük ve çünkü ben doğruluğu hakkında çok fazla gerçekten endişeli değilim sarcasm hakkında çok fazla endişelenmiyorum. Ben mesela bulabilirsiniz
tüm veri setleri: Burada
ben yaşıyorum sıkıntılar vardır NLTK ile gelen corpus film inceleme verileri webservice formatındadır. Bu işlem zaten yapılmış bir işlem yapmış gibi görünüyor. Gördüğüm kadarıyla (stanford ile) işlemi WEKA ile yapıldı. NLTK'ın tüm bunları tek başına yapması mümkün değil mi? Burada, tüm veri kümeleri zaten hali hazırda örneğin pozitif/negatif olarak organize edilmiştir. polarite veri kümesi http://www.cs.cornell.edu/People/pabo/movie-review-data/ Bu nasıl yapılır? (Duyguları ile cümleler organize etmek, kesinlikle WEKA? Veya başka bir şey mi?)Ben WEKA ve NLTK birlikte kullanılabilir neden anlıyorum emin değilim. Aynı şeyi yapıyorlar gibi görünüyor. Eğer verileri WEKA ile ilk kez işlediğimde duygu bulmak için neden NLTK'ye ihtiyacım olurdu? Bunun neden gerekli olabileceğini açıklamak mümkün mü?
Ben bu görev yakınında biraz olsun birkaç komut dosyalarını bulduk, ama hepsi aynı önceden işlenmiş verileri kullanıyor. Linkte verilen veri örneklerini kullanmak yerine bu verileri cümlelerde ciddiyetle bulmak için kendim işlemek mümkün müdür?
Herhangi bir yardım çok takdir ve bana çok fazla saç kazandıracak!
Alkış Ke
Evet, bu site üzerinde biraz arama yaptıktan sonra sona erdi, ama sanırım her inceleme için istatistik almak için biraz sıkışmış. Nltk'yi, bir veya 0'ın pos/neg için gözden geçirme kimliğinin bir listesini vermek için nasıl kullanabilirim? cheers ke –
Gelecek okuyucular için muhtemelen yararlı: Film inceleme corpus'un "pos" ve "neg" kategorileri vardır. "Neg" kategorisinde dosya listesinin bir listesini almak için sadece 'movie_reviews.fileids ("neg") 'komutunu kullanın. Ayrıca, negatif kategorisindeki tüm metinleri, örneğin, 'movie_reviews.sents (kategoriler = ["neg"]) 'ifadesini kullanarak da doğrudan elde edebilirsiniz. (Bu yöntemler tüm kategorize edilmiş nltk corpora ile çalışır. Bir korpustaki kategorileri listelemek için, corpus.categories() 'işlevini kullanın.) – alexis