Her kullanıldığında Hashing vectorizer ve Count vectorizer arasındaki fark nedir?

CountVectorizer ve HashingVectorizer ile birlikte scikit-learn'deki çeşitli SVM türevleriyle çalışıyorum. Farklı örneklerde fit ya da fit_transform kullanıyorlar, ne zaman kullanılacağı konusunda kafa karıştırıyorlar.Her kullanıldığında Hashing vectorizer ve Count vectorizer arasındaki fark nedir?

Herhangi bir açıklama çok onurlandırılacaktır.

2015-05-04 user123

Benzer bir amaca hizmet ederler.

bellekte bir kelime sözlüğünü depolamak için gerek büyük veri setlerine ölçeklenebilir çok düşük bellek olduğu gibi:

Bu strateji birçok avantajı vardır: documentationHashedVectorizer için bazı yanlısı ve con sağlar yapıcı
uyum sırasında hesaplanan bir durum olduğu için bunun bir akışı (kısmi uyum) veya paralel boru hattı kullanılabilir parametreleri yanında hiçbir devlet tutan
turşu hızlı ve BM-zor bir durum.

(bir bellek kelime ile CountVectorizer kullanarak vs) da eksileri bir çift vardır:

dize özellik adlarına özellik endekslerin dan (dönüşümü tersini hesaplamak için bir yolu yoktur) bir model için en önemli özellik olan içeriden çalışırken sorun olabilir.
çarpışmalar olabilir: farklı belirteçler aynı özellik dizinine eşlenebilir. Bununla birlikte, pratikte bu, n_features yeterince büyükse (nadiren metin sınıflandırma için 2 ** 18) bu nadiren bir sorundur.
Bu şekilde bir IDF ağırlıklandırma, transformatörün durumsal olmasını sağlayacaktır.

2015-05-04 07:56:31 cfh

cevap