Pandas DF'i Spark one'a dönüştürmeye çalışıyorum. DF kafa:Pandalar veri çerçevesini Spark veri karesine dönüştürme hatası
10000001,1,0,1,12:35,OK,10002,1,0,9,f,NA,24,24,0,3,9,0,0,1,1,0,0,4,543
10000001,2,0,1,12:36,OK,10002,1,0,9,f,NA,24,24,0,3,9,2,1,1,3,1,3,2,611
10000002,1,0,4,12:19,PA,10003,1,1,7,f,NA,74,74,0,2,15,2,0,2,3,1,2,2,691
Kodu:
dataset = pd.read_csv("data/AS/test_v2.csv")
sc = SparkContext(conf=conf)
sqlCtx = SQLContext(sc)
sdf = sqlCtx.createDataFrame(dataset)
Ve bir hata var: Ben senin verilerle bu denedim ve çalışıyor
TypeError: Can not merge type <class 'pyspark.sql.types.StringType'> and <class 'pyspark.sql.types.DoubleType'>
İlk varsayımım, dosyanın bir sütunda hem sayı hem de dizgi içerdiğini ve Spark'in bununla karıştırıldığını gösteriyor. Ancak, ithal ederken Pandalar tarafından ele alınmalıdır. –
DF'inizde sütun adları var mı? – MaxU
Evet öyle. Onları devre dışı bırakmalı mıyım? –