sklearn TFIDF vectorizer (ve COUNT vectorizer) olarak paralel işler nasıl çalıştırılır çalıştırmak çalıştırmak için? Diğer sklearn modellerinde n_jobs = -1 parametresine benzer bir şey.Sklearn TFIDF vectorizer gibi paralel işler
7
A
cevap
7
bu vectorizers için gerekli olan kelime erişimi/parallelize dağıtmak için bir yolu yoktur, çünkü bu doğrudan mümkün değildir.
paralel belge vektörleştirme gerçekleştirmek yerineHashingVectorizer
kullanın. Scikit belgeleri, bu sınıflandırıcıyı kullanarak, bir sınıflandırıcıyı gruplar halinde eğitmek (ve değerlendirmek) için
an example sağlar. Benzer bir iş akışı aynı zamanda paralelleştirme için de çalışır çünkü girdi terimleri, paralel çalışanlar arasında herhangi bir iletişim olmaksızın aynı vektör indekslerine eşlenir.
Basitçe ayrı kısmi süreli-doc matrisleri hesaplamak ve bir kez tüm işleri yapılır bunları bağlamak. Bu noktada, birleştirilmiş matriste TfidfTransformer
'u da çalıştırabilirsiniz. Girdi terimlerinin sözlüğünün saklanmamasının en önemli dezavantajı, hangi terimlerin son matriste hangi sütuna (yani ters dönüşüme) eşlendiğini bulmak zor olmasıdır. Tek etkili haritalama, hangi sütun/dizinin atandığını görmek için bir terimde hashing fonksiyonunu kullanmaktır. Ters bir dönüşüm için, bunu tüm benzersiz terimler (yani kelime bilginiz) için yapmanız gerekir.
İlgili konular
- 1. Kullanım kiosklarını kullanarak TfIdf LDA
- 2. Her kullanıldığında Hashing vectorizer ve Count vectorizer arasındaki fark nedir?
- 3. Farklı girişleri sklearn Pipeline nasıl takılır?
- 4. Sklearn ile paralel olarak birden çok modeli eğitin mi?
- 5. Apache nutch paralel olarak farklı işler nasıl çalıştırılır
- 6. Bir belge çizimi tfidf 2D graph
- 7. CountVectorizer (sklearn) 'ye kaynak desteği ekleyin
- 8. Latent Semantic Analysis'i sklearn ile kullanın
- 9. Sklearn Boru Hattı'nda bireysel adımlar nasıl seçilir?
- 10. Python kullanarak Apache Spark TFIDF
- 11. sklearn: Bir vektörleştirici nasıl hızlandırılır (örn. Tfidfvectorizer)
- 12. Resque işler
- 13. Özel Özellikler ile sklearn Pipeline nasıl kullanılır?
- 14. Paralel
- 15. Paralel
- 16. sklearn matris ayrıştırma örneği
- 17. Sayımlar ve tfidf ile scikit'in özelliklerini kullanma
- 18. sklearn lojistik regresyon
- 19. Sklearn: Pipeline'larda hata ayıklamanın bir yolu var mı?
- 20. Python Sınıflandırıcı Sklearn
- 21. Nasıl ben sklearn dokümanlar sitesinde sonraki örnek bulundu sklearn DictVectorizer
- 22. sklearn - Birden çok puanları
- 23. Nasıl sklearn standardcaler çıktı
- 24. Sklearn - svm ağırlıklı özellikler
- 25. Sklearn StratifiedShuffleSplit pandalarla
- 26. skLearn-panda'larla easy_install kullanımı
- 27. Python + Celery: Chaining işler?
- 28. Jenkins'de işler nasıl gruplanır?
- 29. Delta İndeksleme - İşler
- 30. Jenkins Pipeline Bir kapatma işlemi gerçekleştirin ("paralel" adımda olduğu gibi)
Bu konuda yanıt almak ve bunu uygulamak çalışılıyor ama paralelleştirilmiş 'HashingVectorizer' sonuçlarını bitiştirmek hakkında nasıl gidiyor? –
Nvm. Anladım. Ben scipy.sparse.vstack' kullanılır. –
İlgili kelimeleri geri almayı daha fazla açıklayabilir misiniz? –