«dataframe» etiketlenmiş sorular

Veri çerçevesi tablo şeklinde bir veri yapısıdır. Genellikle, satırların gözlem olduğu ve sütunların çeşitli türlerde değişkenler olduğu veriler içerir. "Veri çerçevesi" veya "veri çerçevesi" bu kavram için birçok dilde kullanılan terim olsa da (R, Apache Spark, deedle, Maple, Python'daki panda kütüphanesi ve Julia'daki DataFrames kütüphanesi), "tablo" MATLAB ve SQL.

2
Pandalar MultiIndex DataFrame'deki satırları seçin
İndeksi MultiIndex olan bir veri çerçevesinin satırlarını seçmenin / filtrelemenin en yaygın Pandaların yolları nelerdir ? Tek bir değer / etikete göre dilimleme Bir veya daha fazla düzeydeki birden çok etikete göre dilimleme Boole koşullarını ve ifadelerini filtreleme Hangi durumlarda hangi yöntemler uygulanabilir? Basitlik varsayımları: girdi veri çerçevesi yinelenen dizin …

5
Veriler 3 sete nasıl bölünür (tren, doğrulama ve test)?
Bir panda veri çerçevem ​​var ve bunu 3 ayrı sete bölmek istiyorum. Ben kullanarak biliyorum train_test_split gelen sklearn.cross_validationbir iki set (tren ve test) verileri bölebilirsiniz. Ancak, verileri üç sete bölme konusunda herhangi bir çözüm bulamadım. Tercihen, orijinal verilerin endekslerine sahip olmak istiyorum. Bir çözümün train_test_splitiki kez kullanmak ve bir şekilde …

7
Pandalar veri çerçevesi dolgusu () yalnızca bazı sütunlar yerinde
Yalnızca bazı sütun alt kümesi için 0 ile bir Pandas veri çerçevesinde hiçbir değeri doldurmaya çalışıyorum. Ben yaparken: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df Çıktı: a b c 0 1.0 4.0 NaN 1 2.0 5.0 NaN 2 3.0 NaN 7.0 3 NaN 6.0 …
145 python  pandas  dataframe 

8
Her grubun ilk satırı nasıl seçilir?
Aşağıdaki gibi oluşturulan bir DataFrame var: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Sonuçlar şöyle görünür: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| …



14
Bir sütundaki NA değerlerinin sayısını belirleme
NABir veri çerçevesi sütunundaki değer sayısını saymak istiyorum . Veri çerçevemin çağrıldığını dfve düşündüğüm sütunun adının olduğunu söyle col. Geldiğim yol şudur: sapply(df$col, function(x) sum(length(which(is.na(x))))) Bunu yapmanın iyi / verimli bir yolu var mı?
143 r  dataframe 

8
Pandalar DataFrame Dizinini Yeniden Adlandır
DateTime dizini ile, başlıksız bir csv dosyası var. Dizin ve sütun adını yeniden adlandırmak istiyorum, ancak df.rename () ile yalnızca sütun adı yeniden adlandırılır. Hata? 0.12.0 sürümündeyim In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] ) In [3]: df.head() Out[3]: 1 0 2002-06-18 0.112000 2002-06-22 0.190333 2002-06-26 0.134000 2002-06-30 0.093000 …
142 python  pandas  dataframe 


7
Adı belirli bir dize içeren sütunu bulun
Sütun adlarına sahip bir veri çerçevem ​​var ve belirli bir dizeyi içeren ancak onunla tam olarak eşleşmeyen birini bulmak istiyorum. Arıyorum 'spike'sütun adları gibi içinde 'spike-2', 'hey spike', 'spiked-in'( 'spike'kısmı her zaman süreklidir). Sütun adının bir dizge veya değişken olarak döndürülmesini istiyorum, bu nedenle sütuna daha sonra df['name']veya df[name]normal olarak …

2
Bir Spark DataFrame'e sabit bir sütun nasıl eklenir?
Bir sütun eklemek istiyorum DataFramebazı rasgele değeri olan (her satır için aynıdır). withColumnAşağıdaki gibi kullandığımda bir hata alıyorum : dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 [Row(age=2, …

6
sklearn ile ölçeklenen pandalar veri çerçevesi sütunları
Karışık tip sütunlara sahip bir panda veri çerçevem ​​var ve sklearn'ın min_max_scaler'ını bazı sütunlara uygulamak istiyorum. İdeal olarak, bu dönüşümleri yerinde yapmak isterdim, ancak bunu yapmanın bir yolunu henüz bulamadım. Çalışan şu kodu yazdım: import pandas as pd import numpy as np from sklearn import preprocessing scaler = preprocessing.MinMaxScaler() dfTest …


5
Pandalar veri çerçevesi her grubun ilk satırını alır
Benim DataFramegibi pandalarım var . df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) Bunu ["id", "değer"] ile gruplamak ve her grubun ilk satırını almak istiyorum. id value 0 1 first 1 1 second 2 1 second 3 2 first 4 2 second 5 3 first 6 3 …
137 python  pandas  dataframe 


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.