gereklidir (okuyun: büyük ölçüde öğretici yapıştırılan). Bu piton 3.4.2 var:Scikit-bilgi en Boru Hattı: Bir seyrek matris geçirildi, ancak yoğun veri Zor Oluşturduğum bir Boru Hattı düzeltmek için nasıl anlamaya buluyorum
df = pd.DataFrame
df = DataFrame.from_records(train)
test = [blah1, blah2, blah3]
pipeline = Pipeline([('vectorizer', CountVectorizer()), ('classifier', RandomForestClassifier())])
pipeline.fit(numpy.asarray(df[0]), numpy.asarray(df[1]))
predicted = pipeline.predict(test)
bunu çalıştırdığınızda, alıyorum:
TypeError: A sparse matrix was passed, but dense data is required. Use X.toarray() to convert to a dense numpy array.
Bu hat pipeline.fit(numpy.asarray(df[0]), numpy.asarray(df[1]))
içindir.
Ben numpy, SciPy yoluyla çözümler ile çok tecrübe ettik ve benzeri, ama yine de bunu düzeltmek için nasıl bilmiyorum. Ve evet, benzer sorular daha önce ortaya çıktı, ama bir boru hattının içinde değil. toarray
veya todense
'u uygulamak zorunda mıyım?
Çok teşekkürler! Farklı sınıflandırıcılar ile, kısmen öğrenmek ve kısmen en iyi neyin işe yaradığını bulmak için deneylerim. Gerçeği söylemek gerekirse, benim durumum için multinomial NB ile en iyi sonuçları elde ederim. Kodunuzu deneyeceğim, kapsamlı cevap için çok teşekkürler. –
Kulağa eğlenceli geliyor. RandomForest, yoğun sayısal veriler için iyidir. Seyrek metin özellikleri için bu kadar iyi ölçeklemediğini buldum.Metin üzerinde denemek istiyorsanız, önce bir özellik seçimi aşaması eklemeyi deneyebilirsiniz. Bu bazen iyi çalışır. Metinler için favorilerim, LinearSVC ve SGD Sınıflandırıcısı olarak, loss = 'modified_huber' veya loss = 'log' kullanıyordu. –
SGD kullanarak klavuz tabanlı bir POS tagger uygulaması için hangi parametreler kullanılır? – stackit