2016-03-28 19 views
1

"Çok", "birkaç", "çok" gibi değiştiricileri sınıflandırabilmesi gereken bir proje üzerinde çalışıyorum "bazı" vb asgari yüzdeleri Örneğin "a lot" için"Çok", "Birkaç", "biraz", "bazı" gibi kelimeleri sınıflandırmanın kolay yolu

içine - Ben sadece bu düzenleyiciler ve sayısal değerler, örneğin ilgilidir büyük sözlüğünü oluşturma düşünüyorum şu anda>80%

a few ->15%

some ->10%

lots ->80%

Ancak bu çok zahmetli ve muhtemelen bütün senaryoları karşılamayacaktır. Bunu yapmak için daha kolay bir yol var mı, yoksa bu amaçla zaten var olan bir NLP aracı var mı - tercihen python'da (ya da zaten var olan bir veritabanında?)

cevap

1

Benzerlik aslında NLP'de zor bir sorundur. Word2Vec'i kullanmanızı ve her sözcüğün kelime sıralamasını oluşturmanızı öneririm. Sonra her kelime çiftinin mesafesini karşılaştırabilir ve yoldan daha iyi bir kelime olup olmadığını görebilirsin. Kelime gömdüğünün etkinliğini geliştirmenin anahtarı, yeterince büyük olan ve probleminize daha yakın olan bölgeyi belirleyen bir corpus seçmektir.

+0

Yani "% 15" ile "% 15" arasındaki bir haritayı kastediyorsunuz ve daha sonra "bir kaç" gibi sözcükleri "Word2Vec" ile "küçük" olarak adlandırıyorsunuz? – abagshaw

+0

Yani "bir kaç", "biraz" kelimesini word2vec ile alabilir ve ti çalışıp çalışmadığını görebilirsiniz. Sadece bir fikir ve deneyebilirsiniz. –

+0

Bu ilginç. Bunu bir atış yapacağım. "Çok", "birkaç" gibi en yaygın 100 kelimeyi, bazı sayısal değerler ile ilişkilendiren en yaygın kelime için bir ceset mi yoksa veri toplama mı olduğunu biliyor musunuz? Bir başlangıç ​​noktası olsaydı, oradan word2vec kullanabilirdim. – abagshaw

İlgili konular