Sütun değerine göre Pandalar'daki DataFrame satırını silme


510

Aşağıdaki DataFrame var:

             daysago  line_race rating        rw    wrating
 line_date                                                 
 2007-03-31       62         11     56  1.000000  56.000000
 2007-03-10       83         11     67  1.000000  67.000000
 2007-02-10      111          9     66  1.000000  66.000000
 2007-01-13      139         10     83  0.880678  73.096278
 2006-12-23      160         10     88  0.793033  69.786942
 2006-11-09      204          9     52  0.636655  33.106077
 2006-10-22      222          8     66  0.581946  38.408408
 2006-09-29      245          9     70  0.518825  36.317752
 2006-09-16      258         11     68  0.486226  33.063381
 2006-08-30      275          8     72  0.446667  32.160051
 2006-02-11      475          5     65  0.164591  10.698423
 2006-01-13      504          0     70  0.142409   9.968634
 2006-01-02      515          0     64  0.134800   8.627219
 2005-12-06      542          0     70  0.117803   8.246238
 2005-11-29      549          0     70  0.113758   7.963072
 2005-11-22      556          0     -1  0.109852  -0.109852
 2005-11-01      577          0     -1  0.098919  -0.098919
 2005-10-20      589          0     -1  0.093168  -0.093168
 2005-09-27      612          0     -1  0.083063  -0.083063
 2005-09-07      632          0     -1  0.075171  -0.075171
 2005-06-12      719          0     69  0.048690   3.359623
 2005-05-29      733          0     -1  0.045404  -0.045404
 2005-05-02      760          0     -1  0.039679  -0.039679
 2005-04-02      790          0     -1  0.034160  -0.034160
 2005-03-13      810          0     -1  0.030915  -0.030915
 2004-11-09      934          0     -1  0.016647  -0.016647

line_raceEşit olduğu satırları kaldırmam gerekiyor 0. Bunu yapmanın en etkili yolu nedir?


Yanıtlar:


878

Doğru anlıyorsam, bu kadar basit olmalı:

df = df[df.line_race != 0]

16
Büyükse bu daha fazla belleğe mal olur dfmu? Veya bunu yerinde yapabilir miyim?
ziyuang

10
Sadece df2M satırları ile koştu ve oldukça hızlı gitti.
Dror

46
@vfxGer sütunda 'çizgi yarışı' gibi bir boşluk varsa, bunu yapabilirsinizdf = df[df['line race'] != 0]
Paul

3
Söz konusu değer o satırdaki sütunlardan herhangi birinde bulunursa, tüm satırı silmek istersek bu komutu nasıl değiştiririz?
Alex

3
Teşekkürler! Fwiw, benim için bu olmalıydıdf=df[~df['DATE'].isin(['2015-10-30.1', '2015-11-30.1', '2015-12-31.1'])]
citynorman

181

Ancak gelecekteki herhangi bir baypas df = df[df.line_race != 0]için, Nonedeğerleri filtrelemek / eksik değerleri filtrelemeye çalışırken hiçbir şey yapmadığını söyleyebilirsiniz .

Çalışır:

df = df[df.line_race != 0]

Hiçbir şey yapmaz:

df = df[df.line_race != None]

Çalışır:

df = df[df.line_race.notnull()]

4
sütun adını bilmiyorsak nasıl yapılır?
Piyush S. Wanare

Yapabilir df = df[df.columns[2].notnull()], ancak bir şekilde sütunu bir şekilde dizine ekleyebilmeniz gerekir.
erekalper

1
df = df[df.line_race != 0]satırları bırakır ancak dizini sıfırlamaz. Df'ye başka bir satır eklediğinizde, sonunda eklenmeyebilir. Bu işlemden sonra dizini sıfırlamanızı tavsiye ederim ( df = df.reset_index(drop=True))
the_new_james

==Başlamak için asla operatör ile Hiçbiri karşılaştırmamalısınız . stackoverflow.com/questions/3257919/…
Bram Vanroy

40

Bunu yapmanın en iyi yolu boole maskelemektir:

In [56]: df
Out[56]:
     line_date  daysago  line_race  rating    raw  wrating
0   2007-03-31       62         11      56  1.000   56.000
1   2007-03-10       83         11      67  1.000   67.000
2   2007-02-10      111          9      66  1.000   66.000
3   2007-01-13      139         10      83  0.881   73.096
4   2006-12-23      160         10      88  0.793   69.787
5   2006-11-09      204          9      52  0.637   33.106
6   2006-10-22      222          8      66  0.582   38.408
7   2006-09-29      245          9      70  0.519   36.318
8   2006-09-16      258         11      68  0.486   33.063
9   2006-08-30      275          8      72  0.447   32.160
10  2006-02-11      475          5      65  0.165   10.698
11  2006-01-13      504          0      70  0.142    9.969
12  2006-01-02      515          0      64  0.135    8.627
13  2005-12-06      542          0      70  0.118    8.246
14  2005-11-29      549          0      70  0.114    7.963
15  2005-11-22      556          0      -1  0.110   -0.110
16  2005-11-01      577          0      -1  0.099   -0.099
17  2005-10-20      589          0      -1  0.093   -0.093
18  2005-09-27      612          0      -1  0.083   -0.083
19  2005-09-07      632          0      -1  0.075   -0.075
20  2005-06-12      719          0      69  0.049    3.360
21  2005-05-29      733          0      -1  0.045   -0.045
22  2005-05-02      760          0      -1  0.040   -0.040
23  2005-04-02      790          0      -1  0.034   -0.034
24  2005-03-13      810          0      -1  0.031   -0.031
25  2004-11-09      934          0      -1  0.017   -0.017

In [57]: df[df.line_race != 0]
Out[57]:
     line_date  daysago  line_race  rating    raw  wrating
0   2007-03-31       62         11      56  1.000   56.000
1   2007-03-10       83         11      67  1.000   67.000
2   2007-02-10      111          9      66  1.000   66.000
3   2007-01-13      139         10      83  0.881   73.096
4   2006-12-23      160         10      88  0.793   69.787
5   2006-11-09      204          9      52  0.637   33.106
6   2006-10-22      222          8      66  0.582   38.408
7   2006-09-29      245          9      70  0.519   36.318
8   2006-09-16      258         11      68  0.486   33.063
9   2006-08-30      275          8      72  0.447   32.160
10  2006-02-11      475          5      65  0.165   10.698

GÜNCELLEME: Şimdi pandalar 0.13 çıktı, bunu yapmanın başka bir yolu df.query('line_race != 0').


df.query çok kullanışlı görünüyor! Teşekkürler! pandas.pydata.org/pandas-docs/version/0.13.1/generated/…
fantastik

14
İçin iyi güncelleme query. Daha zengin seçim kriterlerine izin verir (örn. df.query('variable in var_list')'Var_list' istenen değerlerin bir listesi gibi set benzeri işlemler )
philE

1
sütun adı adında boşluk varsa bu nasıl elde edilir?
iNoob

2
querysütun adında boşluk varsa çok kullanışlı değildir.
Phillip Cloud

3
Böyle bir şeyle başlıklarda boşluklar kullanmaktan kaçınırımdf = df.rename(columns=lambda x: x.strip().replace(' ','_'))
Scientist1642

39

başka bir çözüm eklemek için, özellikle yeni panda değerlendiricilerini kullanıyorsanız, diğer çözümler orijinal pandaların yerini alacak ve değerlendiricileri kaybedecektir.

df.drop(df.loc[df['line_race']==0].index, inplace=True)

1
dizin ve yerinde yazmanın amacı nedir? Herkes açıklayabilir mi lütfen?
heman123


Sanırım .reset_index()birisi dizin erişimcilerini kullanıyorsa
Ayush

16

Sütunun birden çok değerini temel alan satırları silmek istiyorsanız, şunları kullanabilirsiniz:

df[(df.line_race != 0) & (df.line_race != 10)]

İçin 0 ve 10 değerlerine sahip tüm satırları bırakmak line_race.


Yani düşürmek istediğiniz birden fazla değeriniz varsa bunu yapmanın daha etkili bir yolu var mı, drop = [0, 10]ve sonra gibi bir şeydf[(df.line_race != drop)]
mikey

14

Bununla birlikte, verilen sorunun doğru olduğunu söyleyebiliriz, çünkü yukarıdaki df.query('line_race != 0')sorun sizin probleminize bağlı olarak çok daha hızlıdır. Şiddetle tavsiye ederim.


Özellikle DataFramebenim gibi uzun değişken isimleriniz varsa (ve tahmin etmek için girişimde bulunacağım, herkes için dfkullanılan örneklerle karşılaştırıldığında), çünkü sadece bir kez yazmanız gerekiyor.
ijoseph

9

Previou cevap neredeyse ne yapacağım benzer olsa da, ancak dizin yöntemini kullanarak başka bir dizinleme yöntemi .loc () kullanarak gerektirmez. Benzer ama kesin bir şekilde yapılabilir

df.drop(df.index[df['line_race'] == 0], inplace = True)

1
Büyük veri kümeleri veya kısıtlı bellek için yerinde çözüm daha iyi. +1
davmor

3

Bunu yapmanın başka bir yolu. Kod diğer yanıtlarda belirtilen koddan biraz daha karmaşık göründüğü için en etkili yol olmayabilir, ancak yine de aynı şeyi yapmanın alternatif yolu.

  df = df.drop(df[df['line_race']==0].index)

0

Tüm sütunlara genişletilmiş DataFrame için başka bir yol eklemeniz yeterlidir:

for column in df.columns:
   df = df[df[column]!=0]

Misal:

def z_score(data,count):
   threshold=3
   for column in data.columns:
       mean = np.mean(data[column])
       std = np.std(data[column])
       for i in data[column]:
           zscore = (i-mean)/std
           if(np.abs(zscore)>threshold):
               count=count+1
               data = data[data[column]!=i]
   return data,count
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.