madde ve ilgili yorum metinleri de dahil olmak üzere, bu tür bir veri çerçevesi Verilen:Veri çerçevesindeki kelimeyi python-pandas ve gensim ile tamsayı kimliğine nasıl eşlenir?
item_id review_text
B2JLCNJF16 i was attracted to this...
B0009VEM4U great snippers...
ben review_text
üst 5000
en sık kelimeyi eşleştirmek istiyoruz, bu yüzden çıkan veriler çerçevesi olması gerektiği gibi:
item_id review_text
B2JLCNJF16 1 2 3 4 5...
B0009VEM4U 6... #as the word "snippers" is out of the top 5000 most frequent word
Veya, vektör oldukça tercih edilir torba-of-the word a:
item_id review_text
B2JLCNJF16 [1,1,1,1,1....]
B0009VEM4U [0,0,0,0,0,1....]
bunu nasıl yapabilirim? Çok teşekkürler!
EDIT: @ayhan'ın yanıtını denedim. Şimdi başarıyla doc2bow
forma inceleme metnini değişti:
item_id review_text
B2JLCNJF16 [(123,2),(130,3),(159,1)...]
B0009VEM4U [(3,2),(110,2),(121,5)...]
O belgede 2
kez oluştu kimliği 123
sözünü ifade eder. Şimdi bunu bir vektöre aktarmak istiyorum:
[0,0,0,.....,2,0,0,0,....,3,0,0,0,......1...]
#123rd 130th 159th
Bunu nasıl yapıyorsunuz? Şimdiden teşekkür ederim!
teşekkürler! Çözümünüz oldukça güzel! Ama lütfen bana "doc2bow" sonucunu vektöre nasıl transfer edeceğini söyler misin? Teşekkürler! –
Üzgünüm, bu soruyu bir haftalığına bırakıyorum ve şimdi tekrar aldım. Kodunuzu denedim ancak uzunluk hala farklı ve tüm değerler ikili: '0' veya' 1'. Bunun hakkında bir fikrin var mı? –
Cevabınız için teşekkürler! Bu gerçekten harika! Ama df2'nin indeksinin df ile aynı olup olmadığını merak ediyorum. –