Benzer bir amaca hizmet ederler.
- bellekte bir kelime sözlüğünü depolamak için gerek büyük veri setlerine ölçeklenebilir çok düşük bellek olduğu gibi:
Bu strateji birçok avantajı vardır: documentationHashedVectorizer
için bazı yanlısı ve con sağlar yapıcı
- uyum sırasında hesaplanan bir durum olduğu için bunun bir akışı (kısmi uyum) veya paralel boru hattı kullanılabilir parametreleri yanında hiçbir devlet tutan
- turşu hızlı ve BM-zor bir durum.
(bir bellek kelime ile CountVectorizer kullanarak vs) da eksileri bir çift vardır:
- dize özellik adlarına özellik endekslerin dan (dönüşümü tersini hesaplamak için bir yolu yoktur) bir model için en önemli özellik olan içeriden çalışırken sorun olabilir.
- çarpışmalar olabilir: farklı belirteçler aynı özellik dizinine eşlenebilir. Bununla birlikte, pratikte bu, n_features yeterince büyükse (nadiren metin sınıflandırma için 2 ** 18) bu nadiren bir sorundur.
- Bu şekilde bir IDF ağırlıklandırma, transformatörün durumsal olmasını sağlayacaktır.