Programlama dataframe

2

Pandalar MultiIndex DataFrame'deki satırları seçin

İndeksi MultiIndex olan bir veri çerçevesinin satırlarını seçmenin / filtrelemenin en yaygın Pandaların yolları nelerdir ? Tek bir değer / etikete göre dilimleme Bir veya daha fazla düzeydeki birden çok etikete göre dilimleme Boole koşullarını ve ifadelerini filtreleme Hangi durumlarda hangi yöntemler uygulanabilir? Basitlik varsayımları: girdi veri çerçevesi yinelenen dizin …

147 python pandas dataframe slice multi-index

5

Veriler 3 sete nasıl bölünür (tren, doğrulama ve test)?

Bir panda veri çerçevem var ve bunu 3 ayrı sete bölmek istiyorum. Ben kullanarak biliyorum train_test_split gelen sklearn.cross_validationbir iki set (tren ve test) verileri bölebilirsiniz. Ancak, verileri üç sete bölme konusunda herhangi bir çözüm bulamadım. Tercihen, orijinal verilerin endekslerine sahip olmak istiyorum. Bir çözümün train_test_splitiki kez kullanmak ve bir şekilde …

146 pandas numpy dataframe machine-learning scikit-learn

7

Pandalar veri çerçevesi dolgusu () yalnızca bazı sütunlar yerinde

Yalnızca bazı sütun alt kümesi için 0 ile bir Pandas veri çerçevesinde hiçbir değeri doldurmaya çalışıyorum. Ben yaparken: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df Çıktı: a b c 0 1.0 4.0 NaN 1 2.0 5.0 NaN 2 3.0 NaN 7.0 3 NaN 6.0 …

145 python pandas dataframe

8

Her grubun ilk satırı nasıl seçilir?

Aşağıdaki gibi oluşturulan bir DataFrame var: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Sonuçlar şöyle görünür: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| …

144 sql scala apache-spark dataframe apache-spark-sql

7

Pandalar veri çerçevesinde hangi sütunların herhangi bir NaN değeri içerdiğini bulma

Burada dağılmış olası NaN değerlerini içeren bir panda veri çerçevesi göz önüne alındığında: Soru: Hangi sütunların NaN değerleri içerdiğini nasıl belirlerim? Özellikle, NaN içeren sütun adlarının bir listesini alabilir miyim?

144 python pandas dataframe nan

6

Panda DataFrame'in ilk sütununu Seri olarak nasıl alabilirim?

Denedim: x=pandas.DataFrame(...) s = x.take([0], axis=1) Ve sbir Seri değil, bir DataFrame alır.

143 python dataframe pandas series

14

Bir sütundaki NA değerlerinin sayısını belirleme

NABir veri çerçevesi sütunundaki değer sayısını saymak istiyorum . Veri çerçevemin çağrıldığını dfve düşündüğüm sütunun adının olduğunu söyle col. Geldiğim yol şudur: sapply(df$col, function(x) sum(length(which(is.na(x))))) Bunu yapmanın iyi / verimli bir yolu var mı?

143 r dataframe

8

Pandalar DataFrame Dizinini Yeniden Adlandır

DateTime dizini ile, başlıksız bir csv dosyası var. Dizin ve sütun adını yeniden adlandırmak istiyorum, ancak df.rename () ile yalnızca sütun adı yeniden adlandırılır. Hata? 0.12.0 sürümündeyim In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] ) In [3]: df.head() Out[3]: 1 0 2002-06-18 0.112000 2002-06-22 0.190333 2002-06-26 0.134000 2002-06-30 0.093000 …

142 python pandas dataframe

9

NaN'leri pandalar DataFrame'deki önceki değerlerle nasıl değiştirebilirim?

Bazı URL'leri içeren bir DataFrame'im olduğunu varsayalım NaN: >>> import pandas as pd >>> df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]]) >>> df 0 1 2 0 1 2 3 1 4 NaN NaN 2 NaN NaN 9 Yapmam gereken her şeyi, üstündeki aynı sütundaki NaNilk …

142 python python-3.x pandas dataframe nan

7

Adı belirli bir dize içeren sütunu bulun

Sütun adlarına sahip bir veri çerçevem var ve belirli bir dizeyi içeren ancak onunla tam olarak eşleşmeyen birini bulmak istiyorum. Arıyorum 'spike'sütun adları gibi içinde 'spike-2', 'hey spike', 'spiked-in'( 'spike'kısmı her zaman süreklidir). Sütun adının bir dizge veya değişken olarak döndürülmesini istiyorum, bu nedenle sütuna daha sonra df['name']veya df[name]normal olarak …

139 python python-3.x string pandas dataframe

2

Bir Spark DataFrame'e sabit bir sütun nasıl eklenir?

Bir sütun eklemek istiyorum DataFramebazı rasgele değeri olan (her satır için aynıdır). withColumnAşağıdaki gibi kullandığımda bir hata alıyorum : dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 [Row(age=2, …

138 python apache-spark dataframe pyspark apache-spark-sql

6

sklearn ile ölçeklenen pandalar veri çerçevesi sütunları

Karışık tip sütunlara sahip bir panda veri çerçevem var ve sklearn'ın min_max_scaler'ını bazı sütunlara uygulamak istiyorum. İdeal olarak, bu dönüşümleri yerinde yapmak isterdim, ancak bunu yapmanın bir yolunu henüz bulamadım. Çalışan şu kodu yazdım: import pandas as pd import numpy as np from sklearn import preprocessing scaler = preprocessing.MinMaxScaler() dfTest …

138 python pandas scikit-learn dataframe

3

R'de bir data.frame nasıl kaydedilir?

R'de çok büyük olmayan bir data.frame yaptım, ancak oluşturulması biraz zaman alıyor. Bir dosya olarak kaydetmek istiyorum, hangi R daha açabilirsiniz?

137 r dataframe

5

Pandalar veri çerçevesi her grubun ilk satırını alır

Benim DataFramegibi pandalarım var . df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) Bunu ["id", "değer"] ile gruplamak ve her grubun ilk satırını almak istiyorum. id value 0 1 first 1 1 second 2 1 second 3 2 first 4 2 second 5 3 first 6 3 …

137 python pandas dataframe

4

İki Pandalar Veri Çerçevesi sütunundan oluşan bir sözlük oluşturmanın en etkili yolu nedir?

Aşağıdaki Pandalar Veri Çerçevesini düzenlemenin en verimli yolu nedir: data = Position Letter 1 a 2 b 3 c 4 d 5 e gibi bir sözlüğe alphabet[1 : 'a', 2 : 'b', 3 : 'c', 4 : 'd', 5 : 'e']mi?

137 python dictionary pandas dataframe

«dataframe» etiketlenmiş sorular