Aşağıdaki pandalar veri çerçevesine sahibim Top15
:
Kişi başına alıntı yapılabilir belge sayısını tahmin eden bir sütun oluşturuyorum:
Top15['PopEst'] = Top15['Energy Supply'] / Top15['Energy Supply per Capita']
Top15['Citable docs per Capita'] = Top15['Citable documents'] / Top15['PopEst']
Kişi başına atıfta bulunulabilir belge sayısı ile kişi başına enerji arzı arasındaki ilişkiyi bilmek istiyorum. Bu yüzden .corr()
yöntemi kullanıyorum (Pearson korelasyonu):
data = Top15[['Citable docs per Capita','Energy Supply per Capita']]
correlation = data.corr(method='pearson')
Tek bir sayı döndürmek istiyorum, ancak sonuç:
.corr
sizin dataframe doğrudan, bu tüm ikili korelasyon döndürür; bu yüzden matrisinizin köşegeninde 1'ler gözlemlersiniz (her sütun kendisiyle mükemmel bir şekilde ilişkilidir). Aşağıdaki düzenlememe bakın.