Metin sınıflandırması için noktasal olarak karşılıklı bilgileri nasıl hesaplayacağını merak ediyordum. Daha kesin olmak gerekirse, kategorilerde tweetleri sınıflandırmak istiyorum. Bir tweet veri kümem var (açıklamalı) ve bu kategoriye ait sözcük kategorisine göre bir sözlüğe sahibim. Bu bilgiler ışığında, bu kategorilerden birinde bir tweet sınıflandırmak için, her bir tweet için her bir kategori için PMI'yi nasıl hesaplamak mümkündür.Metnede karşılıklı olarak karşılıklı bilgiler
cevap
PMI, bir belge (tweet) ile bir kategori arasında değil, bir özellik (bir sözcükte) ve bir sınıf (kategori) arasındaki ilişkinin ölçüsüdür. Formül Wikipedia geçerli: bu formülde
P(x, y)
pmi(x ,y) = log ------------
P(x)P(y)
, X
modelleyen bir kelime meydana getiren, Y
modelleri bir sınıf oluşumu rastgele değişkendir. Verilen bir kelime için x
ve verilen bir sınıf y
için, bir özelliğin bilgilendirici olup olmadığına karar vermek için PMI'yi kullanabilir ve özellik seçimini bu temelde yapabilirsiniz. Daha az özelliğe sahip olmak, genellikle sınıflandırma algoritmanızın performansını artırır ve önemli ölçüde hızlandırır. Bununla birlikte, sınıflandırma aşaması ayrıdır-PMI sadece öğrenme algoritmanızı beslemek için daha iyi özellikler seçmenize yardımcı olur.
Düzenleme: orijinal sonrası söz etmedi Bir şey PMI kelime frekanslara duyarlı olmasıdır. o kadar pmi(x,y) = 1/P(x)
,
x
ve
y
mükemmel ilişkilidir
P(x, y) P(x|y)
pmi(x ,y) = log ------------ = log ------------
P(x)P(y) P(x)
, P(x|y) = P(y|x) = 1
olarak formülünü yeniden yazılmalı. Daha az sıklıkta x
-es (kelimeler), her ikisi de y
ile mükemmel bir şekilde ilişkilendirilse bile, sık sık x
-es'den daha yüksek bir PMI puanına sahip olacaktır.
- 1. SwiftSuspenders: “karşılıklı olarak enjekte” dersleri?
- 2. Karşılıklı ASCII Dize Dönüştürme
- 3. n işlevlerinin karşılıklı işlenmesi
- 4. F #: Karşılıklı özyinelemeli fonksiyonlar
- 5. Karşılıklı özyineleme türlerini düzenleme
- 6. Karşılıklı arkadaş sql bulma
- 7. Geleneksel Çince Karşılıklı olarak Metin Tanıma
- 8. Tetikleyicilerin karşılıklı olarak yinelemeli yürütmesini önler misiniz?
- 9. Web hizmetleriyle karşılıklı kimlik doğrulaması
- 10. Karşılıklı yinelemeli sözdizimi Bound ile
- 11. Karşılıklı referans kayıtları Delphi (Win32)
- 12. Karşılıklı özel tablo sütunları oluşturma
- 13. Gitignore ve hgignore'un karşılıklı dönüşümü?
- 14. Yalıtılmış karşılıklı indüktif önermeler nasıl tanımlanır?
- 15. Neden salt okunur ve uçucu değiştiriciler karşılıklı olarak münhasırdır?
- 16. SQL-Server: Bir kolej ile karşılıklı olarak birbirini dışlayan
- 17. AngularJS sınıfını karşılıklı özel olarak birden çok düğmeye uygulayın
- 18. C# ile Karşılıklı Kimlik Doğrulama nasıl yapılır?
- 19. Magento: Karşılıklı çoklu kategorilerden ürün koleksiyonu
- 20. testi ile Karşılıklı Dışlama Sınırlı-bekleyen ve
- 21. Karşılıklı çalışmanın karşılığı: openURL: sourceApplication: açıklama:
- 22. C++, karşılıklı ihtiyaçları olan iki sınıf
- 23. Python karşılıklı bağımlı sınıflar (dairesel bağımlılıklar)
- 24. OCaml'deki karşılıklı özyinelemeli modüllerdeki imza gereksinimi neden?
- 25. WCF ve sertifikalarla Korkunç Performans (karşılıklı kimlik doğrulama)
- 26. Facebook'un "Karşılıklı arkadaşlar" özelliğini nasıl kullandığını merak etme
- 27. İki kullanıcının karşılıklı sorgulama olmadan bazı bilgileri paylaşıp paylaşmadığını belirleme
- 28. Karşılıklı Özel Ekip Şehir Oluşturma Her ikisi de Atış Tetikleyiciler
- 29. Karşılıklı tarih aralıkları karşılaştırın ancak bitişik aralıklara izin ver
- 30. Hiyerarşik Veri Modelleri: Kompanzasyon ve Karşılıklı Ayarlar vs
Bir takip soru. "X kelimesinin ortaya çıkmasını sağlayan rasgele değişken" diyorsunuz. Tüm veri kümesinde bu kaç kez kelime oluşur? Örneğin. 250.000 cümle var, x o zaman bütün veri kümesinde ne kadar kelime var? P peki (x, y) bunu nasıl yorumlamalıyım? Bir cümlede x ve y zamanları bir arada mı oluşur? – Ojtwist
'P (x)', kelime içeren belgelerin sayısı ile toplam belge sayısı arasındaki orantı olan 'x' (küçük harf) kelimesinin olasılığıdır. 'P (y)' benzer bir şekilde hesaplanan sınıf (kategori) 'y' olasılığıdır. 'P (x, y)', 'y' etiketinin her ikisi de * olan ve 'x' sözcüğünü ve toplam belge sayısını içeren belge sayısı arasındaki oran. – mbatchkarov
Sayımların sayısına göre bölünerek sayıları normalleştirmeniz gerekiyor mu? Farklı bir pmi() numarası aldığınızı biliyorum, fakat farklı çiftler (X, Y) arasındaki göreceli pmi() aynı kalıyor ve pmi'nin gerçek değeri, herhangi bir şeyin doğru olmadığı anlamına gelmiyor mu? Pmi'leri farklı belge kümeleriyle karşılaştırdığımızda normalleştirmenin sadece yararlı olduğunu görebiliyorum (farklı belge sayıları ile) – kane