Python kullanarak Apache Spark TFIDF

Spark belgelerinde HashingTF özelliği belirtiliyor, ancak dönüşüm işlevinin girdi olarak beklediğinden emin değilim. http://spark.apache.org/docs/latest/mllib-feature-extraction.html#tf-idf Python kullanarak Apache Spark TFIDF

Ben öğretici kod çalıştıran çalıştı:

from pyspark import SparkContext 
from pyspark.mllib.feature import HashingTF 

sc = SparkContext() 

# Load documents (one per line). 
documents = sc.textFile("...").map(lambda line: line.split(" ")) 

hashingTF = HashingTF() 
tf = hashingTF.transform(documents)

ama aşağıdaki hatayı alıyorum: gösterdiğin hata dayanarak

Traceback (most recent call last): 
    File "<stdin>", line 1, in <module> 
    File "/Users/salloumm/spark-1.6.0-bin-hadoop2.6/python/pyspark/ml/pipeline.py", line 114, in transform 
    return self._transform(dataset) 
    File "/Users/salloumm/spark-1.6.0-bin-hadoop2.6/python/pyspark/ml/wrapper.py", line 148, in _transform 
    return DataFrame(self._java_obj.transform(dataset._jdf), dataset.sql_ctx) 
AttributeError: 'list' object has no attribute '_jdf'

kaynak

2016-04-02 user2388191

Bize tam olarak denediğiniz kodu gösterebilir misiniz? –

Bu bağlantıda gösterilen ilk örneği denedim (Python'daki örnek) http://spark.apache.org/docs/latest/mllib-feature-extraction.html#tf-idf Giriş olarak basit bir metin dosyası kullandı. – user2388191

açıkça size uymayan öğretici veya soruya dahil kod kullanın.

Bu hata, pyspark.mllib.feature.HashingTF yerine from pyspark.ml.feature.HashingTF kullanımının bir sonucudur. Sadece ortamınızı temizleyin ve doğru ithalatı kullandığınızdan emin olun.

kaynak

2016-04-03 05:45:17 zero323

Python kullanarak Apache Spark TFIDF

cevap

İlgili konular