Büyük bir veri kursu projesi üzerinde çalışan bir grubun parçasıyım ve NLP için bir sorun olarak gördüğümüz bir çalışmaya girdik. İlgili bilgi (bir kategoride, popülerlik puanı, ve bir kategori/konu kimliği #) ile ilişkiliDoğal Dil İşleme Konuları
"wine": {
"category": "socializing",
"category_id": 31,
"score": 0.0,
"topic_id": 611
}
"dragons": {
"category": "lifestyle",
"category_id": 17,
"score": 0.279108277990115,
"topic_id": 2137
},
"furry-fandom": {
"category": "lifestyle",
"category_id": 17,
"score": 0.279108277990115,
"topic_id": 48595
},
"legendarycreatures": {
"category": "lifestyle",
"category_id": 17,
"score": 0.279108277990115,
"topic_id": 10523
}
etiketler konuları: Şu anda gibi JSON biçimlendirilmiş veri grupları var. Her bir konu için, ele aldığımız API’den bu yana, zaten bir kategori var. Bizim sorunumuz, kategorilerin çok geniş, sadece 33'le, anlamlı eğilimleri tanımlamak için çok geniş olması ve konuların çok özel w/örtüşmeleri (örneğin ejderhalar/efsaneler) ve yaklaşık 22.000 ile çok fazla olması.
NLP'nin geldiği yer burası; "kategori" kadar geniş olmayan, ancak güncel konular kadar spesifik olmayan bir dizi süper konu oluşturmak istiyoruz. "Ejderhalar" ve "legandarycreatures" ı kullanan bir örnek, "fantezi" nin süper konusu haline gelecek şekilde, diğerleriyle birlikte, her ikisi de olacaktır.
Biraz daha arka plan, veriyi almak/işlemek için Python kullanıyoruz, bunun için kullanmaya devam etmek istiyoruz ve hiçbirimiz NLP ile hiçbir pratik deneyimimiz yok.
Tüm bunlar göz önünde bulundurulduğunda, bu mücadeleyle ilgili bazı önerilerin ve yardımların yapılmasını isteriz. Daha iyi yollar varsa ya da NLP ile mümkün değilse, onlara açığız. Kaçınmaya çalıştığımız şey, kategorileştirmek için bir çeşit tabloyu kodlamaktır.
TL; DR: Mevcut kategorilerden daha kesin olan ancak geçerli kategorilerden daha geniş olan uygun "süper konular" için 22.000 konu kümesini kategorilere ayırmaya çalışıyoruz. Bunu Python'u kullanırken NLP ile yapmaya çalışıyoruz ama bunun nasıl yapılacağını bilmiyoruz ve önerilere de açık.
http://stackoverflow.com/a/22905260/610569 bir göz atın – alvas