2015-02-08 15 views

cevap

7

bu vectorizers için gerekli olan kelime erişimi/parallelize dağıtmak için bir yolu yoktur, çünkü bu doğrudan mümkün değildir.

paralel belge vektörleştirme gerçekleştirmek yerine HashingVectorizer kullanın. Scikit belgeleri, bu sınıflandırıcıyı kullanarak, bir sınıflandırıcıyı gruplar halinde eğitmek (ve değerlendirmek) için an example sağlar. Benzer bir iş akışı aynı zamanda paralelleştirme için de çalışır çünkü girdi terimleri, paralel çalışanlar arasında herhangi bir iletişim olmaksızın aynı vektör indekslerine eşlenir.

Basitçe ayrı kısmi süreli-doc matrisleri hesaplamak ve bir kez tüm işleri yapılır bunları bağlamak. Bu noktada, birleştirilmiş matriste TfidfTransformer'u da çalıştırabilirsiniz. Girdi terimlerinin sözlüğünün saklanmamasının en önemli dezavantajı, hangi terimlerin son matriste hangi sütuna (yani ters dönüşüme) eşlendiğini bulmak zor olmasıdır. Tek etkili haritalama, hangi sütun/dizinin atandığını görmek için bir terimde hashing fonksiyonunu kullanmaktır. Ters bir dönüşüm için, bunu tüm benzersiz terimler (yani kelime bilginiz) için yapmanız gerekir.

+0

Bu konuda yanıt almak ve bunu uygulamak çalışılıyor ama paralelleştirilmiş 'HashingVectorizer' sonuçlarını bitiştirmek hakkında nasıl gidiyor? –

+0

Nvm. Anladım. Ben scipy.sparse.vstack' kullanılır. –

+0

İlgili kelimeleri geri almayı daha fazla açıklayabilir misiniz? –

İlgili konular