CSV dosyasından bazı makine öğrenimi verileri yüklüyorum. İlk 2 sütun gözlemlerdir ve kalan sütunlar özelliklerdir.
Şu anda aşağıdakileri yapıyorum:
data = pandas.read_csv('mydata.csv')
hangi gibi bir şey verir:
data = pandas.DataFrame(np.random.rand(10,5), columns = list('abcde'))
İki dataframes bu dataframe dilim istiyorum: Biri sütunları içeren a
ve b
ve bir sütun içeren c
, d
ve e
.
Gibi bir şey yazmak mümkün değil
observations = data[:'c']
features = data['c':]
En iyi yöntemin ne olduğundan emin değilim. İhtiyacım var pd.Panel
mı?
Bu arada, veri çerçevesi dizinini oldukça tutarsız buluyorum: data['a']
izin verilir, ancak data[0]
değil. Öte yandan, data['a':]
izin verilmez, ancak izin verilir data[0:]
. Bunun pratik bir nedeni var mı? Sütunlar Int tarafından dizine eklenmişse bu gerçekten kafa karıştırıcıdır.data[0] != data[0:1]
df[5:10]
satır seçmek için bazı kolaylıklar eklenmiştir ( pandas.pydata.org/pandas-docs/stable/… )