Bir .csv dosyasını pyspark veri çerçevelerine nasıl alabilirim? Hatta Pandas csv dosyasını okumaya ve daha sonra createDataFrame kullanarak bir kıvılcım dataframe dönüştürmek çalıştı, ama yine de bazı hata gösteriyor. Birisi bana bu konuda rehberlik edebilir mi? Ayrıca, lütfen bana bir xlsx dosyasını nasıl alabilirim? Panda veri çerçeveleri içine csv içeriği almak ve sonra kıvılcım veri çerçeveleri dönüştürmek çalışıyorum, ama hata gösteriyor:
"Py4JJavaError" An error occurred while calling o28.applySchemaToPythonRDD. : java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
Kodum:
from pyspark import SparkContext
from pyspark.sql import SQLContext
import pandas as pd
sqlc=SQLContext(sc)
df=pd.read_csv(r'D:\BestBuy\train.csv')
sdf=sqlc.createDataFrame(df)