Sklearn TFIDF vectorizer gibi paralel işler

sklearn TFIDF vectorizer (ve COUNT vectorizer) olarak paralel işler nasıl çalıştırılır çalıştırmak çalıştırmak için? Diğer sklearn modellerinde n_jobs = -1 parametresine benzer bir şey.Sklearn TFIDF vectorizer gibi paralel işler

kaynak

2015-02-08 sbalajis

bu vectorizers için gerekli olan kelime erişimi/parallelize dağıtmak için bir yolu yoktur, çünkü bu doğrudan mümkün değildir.

paralel belge vektörleştirme gerçekleştirmek yerine HashingVectorizer kullanın. Scikit belgeleri, bu sınıflandırıcıyı kullanarak, bir sınıflandırıcıyı gruplar halinde eğitmek (ve değerlendirmek) için an example sağlar. Benzer bir iş akışı aynı zamanda paralelleştirme için de çalışır çünkü girdi terimleri, paralel çalışanlar arasında herhangi bir iletişim olmaksızın aynı vektör indekslerine eşlenir.

Basitçe ayrı kısmi süreli-doc matrisleri hesaplamak ve bir kez tüm işleri yapılır bunları bağlamak. Bu noktada, birleştirilmiş matriste TfidfTransformer'u da çalıştırabilirsiniz. Girdi terimlerinin sözlüğünün saklanmamasının en önemli dezavantajı, hangi terimlerin son matriste hangi sütuna (yani ters dönüşüme) eşlendiğini bulmak zor olmasıdır. Tek etkili haritalama, hangi sütun/dizinin atandığını görmek için bir terimde hashing fonksiyonunu kullanmaktır. Ters bir dönüşüm için, bunu tüm benzersiz terimler (yani kelime bilginiz) için yapmanız gerekir.

kaynak

2016-03-28 21:20:40 AliOli

Bu konuda yanıt almak ve bunu uygulamak çalışılıyor ama paralelleştirilmiş 'HashingVectorizer' sonuçlarını bitiştirmek hakkında nasıl gidiyor? –

Nvm. Anladım. Ben scipy.sparse.vstack' kullanılır. –

İlgili kelimeleri geri almayı daha fazla açıklayabilir misiniz? –

Sklearn TFIDF vectorizer gibi paralel işler

cevap

İlgili konular