Her değişken için stoktan çıkış ve dönüş değeri sayıları?

19

19717 kişinin programlama dili seçimini çoktan seçmeli sorularla yanıtlayan bir veri çerçevem var. İlk sütun elbette cevap verenin cinsiyeti iken geri kalanı seçtikleri seçimlerdir. Bu nedenle Python'u seçersem, yanıtım bash yerine Python sütununa kaydedilir ve tersi de geçerlidir.

ID     Gender              Python    Bash    R    JavaScript    C++
0      Male                Python    nan     nan  JavaScript    nan
1      Female              nan       nan     R    JavaScript    C++
2      Prefer not to say   Python    Bash    nan  nan           nan
3      Male                nan       nan     nan  nan           nan

Ne istiyorum kategoriler her Genderkayıt altında örnekleri sayısını döndüren bir tablodur . Bu nedenle 5000 erkek Python ve 3000 kadın JS'de kodlanmışsa, bunu almalıyım:

Gender              Python    Bash    R    JavaScript    C++
Male                5000      1000    800  1500          1000
Female              4000      500     1500 3000          800
Prefer Not To Say   2000      ...   ...    ...           860

Bazı seçenekleri denedim:

df.iloc[:, [*range(0, 13)]].stack().value_counts()

Male                       16138
Python                     12841
SQL                         6532
R                           4588
Female                      3212
Java                        2267
C++                         2256
Javascript                  2174
Bash                        2037
C                           1672
MATLAB                      1516
Other                       1148
TypeScript                   389
Prefer not to say            318
None                          83
Prefer to self-describe       49
dtype: int64

Ve yukarıda açıklandığı gibi gerekli değildir. Bu pandalarda yapılabilir mi?

python pandas dataframe

— Shiv_90
kaynak

7

Başka bir fikir, eksen 1'deki değerlere, daha sonra :apply joinget_dummiesgroupby

(df.loc[:, 'Python':]
 .apply(lambda x: '|'.join(x.dropna()), axis=1)
 .str.get_dummies('|')
 .groupby(df['Gender']).sum())

[dışarı]

                   Bash  C++  JavaScript  Python  R
Gender                                             
Female                0    1           1       0  1
Male                  0    0           1       1  0
Prefer not to say     1    0           0       1  0

— Chris A
kaynak

7

GenderDizin ve toplam olarak ayarlayabilirsiniz :

s = df.set_index('Gender').iloc[:, 1:]
s.eq(s.columns).astype(int).sum(level=0)

Çıktı:

                   Python  Bash  R  JavaScript  C++
Gender                                             
Male                    1     0  0           1    0
Female                  0     0  1           1    1
Prefer not to say       1     1  0           0    0

— Quang Hoang
kaynak

Herhangi bir nedenle bu, her Genderdizin için 0'ların tümünü döndürüyor .

— Shiv_90

4

Senin varsayın nanIS NaN(yani o dize değil), biz yararlanabilir countyok sayacağını, çünkü NaNçıkış istenen almak

df_out = df.iloc[:,2:].groupby(df.Gender, sort=False).count()

Out[175]:
                   Python  Bash  R  JavaScript  C++
Gender
Male                    1     0  0           1    0
Female                  0     0  1           1    1
Prefer not to say       1     1  0           0    0

— Andy L.
kaynak

3

Kullanabilir meltve kullanabilirsinizcrosstab

df1 = pd.melt(df,id_vars=['ID','Gender'],var_name='Language',value_name='Choice')
df1['Choice'] = np.where(df1['Choice'] == df1['Language'],1,0)
final= pd.crosstab(df1['Gender'],df1['Language'],values=df1['Choice'],aggfunc='sum')

print(final)
Language              Bash  C++  JavaScript  Python  R
Gender                                              
Female                  0    1           1       0  1
Male                    0    0           1       1  0
Prefer not to say       1    0           0       1  0

— Datanovice
kaynak

2

Bir satıra geçelim

df.drop('ID',1).melt('Gender').\
    query('variable==value').\
      groupby(['Gender','variable']).size().unstack(fill_value=0)
Out[120]: 
variable        Bash  C++  JavaScript  Python  R
Gender                                          
Female             0    1           1       0  1
Male               0    0           1       1  0
Prefernottosay     1    0           0       1  0

— YOBEN_S
kaynak