Bu tür soruların gereksinimleri beni biraz tuhaf hissettiriyor. İşte matematiksel bir kavram / formül, ancak bunun hakkında tamamen matematiksel sembollerden yoksun bir bağlamda konuşmak istiyorum. Ayrıca, formülleri anlamak için gerekli olan asıl cebirin, yüksek öğrenimden önce çoğu kişiye öğretilmesi gerektiğini (matris cebirinin anlaşılması gerekmediği, sadece basit cebirin yeterli olacağı) belirtilmesi gerektiğini düşünüyorum.
Dolayısıyla, ilk başta formülü tamamen görmezden gelmek ve bazı sihirli ve sezgisel analojilerde konuşmak yerine, formüle bakıp, bileşenleri tek tek küçük adımlarla açıklamaya çalışalım. Formüllere bakarken kovaryans ve korelasyon arasındaki fark netleşmelidir. Analojiler ve sezgisel özellikler açısından konuşurken, iki basit göreceli kavramı ve bunların birçok durumda farklılıklarını engelleyeceğinden şüpheliyim.
Öyleyse, örnek kovaryansı için bir formülle başlayalım (bunlar wikipedia'dan yeni aldım ve benimsedim);
1n−1∑ni=1(xi−x¯)(yi−y¯)
Herkesi hızlandırmak için, formüldeki tüm öğeleri ve işlemleri açıkça tanımlayalım.
- xi ve , aynı gözlemin iki ayrı niteliğinin ölçümleridir.yi
- x¯ ve , her bir özelliğin aracıdır (veya ortalamasıdır).y¯
- İçin , sadece bu biz tarafından nihai sonucu bölmek demektir Diyelim .1n−1n−1
- ∑ni=1 bazıları için yabancı bir sembol olabilir, bu yüzden bu işlemi açıklamakta fayda var. Bu sadece tüm toplamıdır gözlemler ayırmak, ve gözlem toplam sayısını temsil eder.in
Bu noktada, konuya değinmek için elementlere ve operasyonlara bir yüz vermek için basit bir örnek verebilirim. Örneğin, her bir sıranın bir gözleme karşılık geldiği bir tablo hazırlayalım (ve ve uygun şekilde etiketlendi). Biri bu örnekleri daha belirgin hale getirebilir (örneğin, yaşı ve ağırlığı temsil ettiği söylenebilir), ancak buradaki tartışmamız için önemli olmamalıdır.xyxy
x y
---
2 5
4 8
9 3
5 6
0 8
Bu noktada, formüldeki toplam işlemin tam olarak anlaşılmadığını düşünüyorsanız, daha basit bir bağlamda tekrar tanıtabilirsiniz. Sadece şunu bu örnekteki ifadeyle aynıdır;∑ni=1(xi)
x
--
2
4
9
5
+ 0
--
20
Şimdi bu karışıklık giderilmeli ve formülün ikinci kısmına , . Şimdi, insanların zaten ne anlama geldiğini bildiğini varsayarak, ve nin ne anlama geldiğini ve postta daha önce kendi yorumlarımın ikiyüzlü olduğunu söyleyeyim; basit sezgisel tarama (ör: dağılımın ortası). Kişi daha sonra bu işlemi bir seferde bir işlem yapabilir. Bildirimi(xi−x¯)(yi−y¯)x¯y¯(xi−x¯)sadece her bir gözlem arasındaki sapma / mesafeyi ve bu özelliğe ilişkin tüm gözlemlerin ortalamasını incelemektir. Dolayısıyla bir gözlem ortalamadan daha uzak olduğunda, bu işleme daha yüksek bir değer verilecektir. Daha sonra verilen örnek tabloya geri dönebilir ve sadece gözlemlerin vektöründeki işlemi gösterebilir .x
x x_bar (x - x_bar)
2 4 -2
4 4 0
9 4 5
5 4 1
0 4 -4
İşlem, vektörü için aynıdır , ancak sadece takviye için bu işlemi de sunabilirsiniz.y
y y_bar (y - y_bar)
5 6 -1
8 6 2
3 6 -3
6 6 0
8 6 2
Şimdi, ve belirsiz olmamalıdır ve bir sonraki işleme geçebiliriz, bu sonuçları bir araya , . Gung yorumlarda da belirtildiği gibi, bu genellikle çapraz ürün olarak adlandırılır (eğer biri istatistik için temel matris cebiri ekliyorsa geri getirmenin faydalı bir örneğidir).(xi−x¯)(yi−y¯)(xi−x¯)⋅(yi−y¯)
Çarpma sırasında ne olacağına dikkat edin, eğer iki gözlem ortalamanın üzerinde bir mesafe ise, ortaya çıkan gözlem daha büyük bir pozitif değere sahip olacaktır (her iki gözlem de ortalamanın altında büyük bir mesafe ise, aynıdır, iki negatifle pozitif eşittir). Ayrıca, bir gözlem ortalamanın üstünde ve diğeri ortalamanın oldukça altındaysa, sonuç değerinin büyük (mutlak terimlerle) ve negatif (pozitif bir negatif zaman negatif bir sayıya eşit olacaktır) olacağını unutmayın. Son olarak, bir değer her iki gözlem için ortalamanın çok yakınında olduğunda, iki değeri çarpmanın küçük bir sayıya neden olacağını unutmayın. Yine bu işlemi bir tabloda sunabiliriz.
(x - x_bar) (y - y_bar) (x - x_bar)*(y - y_bar)
-2 -1 2
0 2 0
5 -3 -15
1 0 0
-4 2 -8
Şimdi, eğer odada herhangi bir istatistikçi varsa, bu noktada beklentisiyle kaynatılmalıdır. Bir kovaryansın ne olduğuna ve nasıl hesaplandığına dair bütün ayrı unsurları görebiliriz. Şimdi tek yapmamız gereken, önceki tablodaki nihai sonucu toplamak, ve işte bölmek , kovaryans artık mistik olmamalı (hepsi sadece bir Yunan sembolünü tanımlayarak).n−1
(x - x_bar)*(y - y_bar)
-----------------------
2
0
-15
0
+ -8
-----
-21
-21/(5-1) = -5.25
Bu noktada 5'in nereden geldiğini pekiştirmek isteyebilirsiniz, ancak bu tabloya tekrar bakmak ve gözlem sayısını saymak kadar basit olmalıdır (örnek ile popülasyon arasındaki farkı başka bir zamana bırakalım).
Şimdi, kendi içinde kovaryans bize fazla bir şey anlatmıyor (olabilir, ancak bu noktada izleyicilere sihirli, tanımsız referanslara başvurmadan ilginç örneklere girmeye gerek yok). İyi bir senaryoda, kovaryansın ne olduğunu niçin umursayacağımızı gerçekten satmanız gerekmeyecek, diğer durumlarda, izleyicinizin esir olduğunu ve sözünüzü alacağını ummanız gerekebilir. Ancak, kovaryansın ne olduğu ve korelasyonun ne olduğu arasındaki farkı geliştirmeye devam edersek, sadece korelasyon formülüne başvurabiliriz. Yunan sembol fobi önlemek için belki sadece söylemek korelasyon temsil etmek için kullanılan yaygın bir semboldür.ρ
ρ=Cov(x,y)Var(x)Var(y)√
Yine, tekrarlamak için, önceki formüldeki pay basitçe tanımladığımız kovaryanstır ve payda, her bir bireysel serinin varyansının ürününün kareköküdür . Eğer varyansın kendisini tanımlamanız gerekirse, sadece varyansın bir serinin kendisiyle kovaryansı ile aynı şey olduğunu söyleyebilirsiniz (örn. ). Ve kovaryansla birlikte ortaya koyduğunuz tüm aynı kavramlar geçerlidir (yani bir seri, ortalamadan çok farklı yollara sahipse, yüksek bir varyansa sahip olacaktır). Belki de burada bir dizinin de olumsuz bir farkı olamayacağına dikkat edin (bu daha önce sunulan matematikten mantıksal olarak uymalıdır).Cov(x,x)=Var(x)
Bu yüzden tanıttığımız tek yeni bileşen paydasındadır . Bu yüzden, her bir dizinin varyanslarının çarpımından hesapladığımız kovaryansı bölüştürüyoruz. Neden bölünmenin daima -1 ile 1 arasında bir değere neden olacağı üzerine bir tedaviye girebilir , ancak Cauchy-Schwarz eşitsizliğinin gündemden çıkarılması gerektiğinden şüpheleniyorum. bu tartışma. Bu yüzden yine, ben ikiyüzlü ve bazılarına başvuruyorum, bunun için söz veriyorum , ancak bu noktada korelasyon katsayısını kullanmamızın nedenlerini ortaya koyabiliriz. Daha sonra bu matematik derslerini Peter Flom'un yanıtı gibi diğer ifadelerde verilen buluşsal bulgular ile ilişkilendirebilir.Var(x)Var(y)Var(x)Var(y)−−−−−−−−−−−√diğer sorulardan birine. Bu, kavramı nedensel ifadeler açısından tanıtmakla eleştirilirken, bu dersin bir noktada gündemde olması gerekir.
Bazı durumlarda bu tedavi düzeyinin uygun olmadığını anlıyorum. Senato yürütme özeti ister . Bu durumda, insanların diğer örneklerde kullandıkları basit sezgisel bulguları geri döndürebilirsiniz, ancak Roma bir günde inşa edilmedi. Ve yönetici özeti isteyen senatoya, eğer çok az zamanınız varsa, belki de benim için söz vermelisiniz ve analojilerin ve madde işaretlerinin formalitelerine uymalısınız.