2015-05-04 21 views

cevap

13

Benzer bir amaca hizmet ederler.

  • bellekte bir kelime sözlüğünü depolamak için gerek büyük veri setlerine ölçeklenebilir çok düşük bellek olduğu gibi:

    Bu strateji birçok avantajı vardır: documentationHashedVectorizer için bazı yanlısı ve con sağlar yapıcı

  • uyum sırasında hesaplanan bir durum olduğu için bunun bir akışı (kısmi uyum) veya paralel boru hattı kullanılabilir parametreleri yanında hiçbir devlet tutan
  • turşu hızlı ve BM-zor bir durum.

(bir bellek kelime ile CountVectorizer kullanarak vs) da eksileri bir çift vardır:

  • dize özellik adlarına özellik endekslerin dan (dönüşümü tersini hesaplamak için bir yolu yoktur) bir model için en önemli özellik olan içeriden çalışırken sorun olabilir.
  • çarpışmalar olabilir: farklı belirteçler aynı özellik dizinine eşlenebilir. Bununla birlikte, pratikte bu, n_features yeterince büyükse (nadiren metin sınıflandırma için 2 ** 18) bu nadiren bir sorundur.
  • Bu şekilde bir IDF ağırlıklandırma, transformatörün durumsal olmasını sağlayacaktır.
İlgili konular