Kovaryansın tanımı üzerine sezgi


11

İki rastgele değişkenin Kovaryansını daha iyi anlamaya ve onu düşünen ilk kişinin istatistiklerde rutin olarak kullanılan tanıma nasıl geldiğini anlamaya çalışıyordum. Daha iyi anlamak için wikipedia'ya gittim . Makaleden, için iyi aday ölçüsü veya miktarının aşağıdaki özelliklere sahip olması gerektiği görülmektedir:CÖv(X,Y)

  1. İki rastgele değişken benzer olduğunda (yani biri diğerini arttırdığında ve diğeri de azaldığında) pozitif bir işaret göstermelidir.
  2. Ayrıca, iki rasgele değişken zıt olarak benzer olduğunda negatif bir işarete sahip olmasını istiyoruz (yani biri arttığında diğer rasgele değişken azalmaya eğilimlidir)
  3. Son olarak, iki değişken birbirinden bağımsız olduğunda (yani birbirlerine göre değişmediklerinde) bu kovaryans miktarının sıfır (veya muhtemelen çok küçük mü?) Olmasını istiyoruz.

Yukarıdaki özelliklerden tanımlamak istiyoruz . İlk sorum, bu özellikleri neden karşıladığı tam olarak açık değil . Sahip olduğumuz özelliklerden, daha çok "türev" benzeri bir denklemin ideal aday olmasını beklerdim. Örneğin, "X'deki değişim pozitifse, Y'deki değişim de pozitif olmalıdır" gibi bir şey. Ayrıca, neden ortalamadan "doğru" şeyden farkı almak?C o v ( X , Y ) = E [ ( X - E [ X ] ) ( Y - E [ Y ] ) ]CÖv(X,Y)CÖv(X,Y)=E[(X-E[X])(Y-E[Y])]

Daha teğet ama yine de ilginç bir soru, bu özellikleri tatmin edebilecek ve yine de anlamlı ve yararlı olabilecek farklı bir tanım var mı? Bunu soruyorum çünkü hiç kimse neden bu tanımı ilk etapta kullandığımızı sorgulamıyor gibi görünüyor (bence korkunç bir sebep olan "her zaman bu şekilde oldu" ve bilimsel ve matematiksel merak ve düşünme). Kabul edilen tanım, sahip olabileceğimiz "en iyi" tanım mı?


Bunlar, kabul edilen tanımın neden mantıklı olduğuna dair düşüncelerim (sadece sezgisel bir argüman olacak):

değişkeni X için bir fark olsun (yani bir zamandan bir değerden başka bir değere değişmiştir). Benzer şekilde tanımlayın .Δ YΔXΔY

Zaman içinde bir örnek için, ilgili olup olmadıklarını şu şekilde hesaplayabiliriz:

sign(ΔXΔY)

Bu biraz hoş! Zaman içinde bir örnek için istediğimiz özellikleri karşılar. İkisi birlikte artarsa, çoğu zaman, yukarıdaki miktar pozitif olmalıdır (ve benzer şekilde benzer olduklarında, negatif olacaktır, çünkü zıt işaretleri olacaktır).Delta

Ancak bu bize sadece bir örnek için istediğimiz miktarı verir ve rv olduklarından, iki değişkenin ilişkisini sadece 1 gözlem temelinde temel almaya karar verirsek, fazla geçebiliriz. O zaman neden farklılıkların "ortalama" ürününü görmek için bunun beklentisini almıyorsunuz?

sign(E[ΔXΔY])

Yukarıda tanımlanan ortalama ilişkinin ne olduğunu ortalama olarak yakalamalıdır! Fakat bu açıklamanın tek sorunu, bu farkı neyle ölçüyoruz? Bu, ortalamadan bu farkı ölçerek ele alınmaktadır (bir nedenden dolayı yapılacak doğru şeydir).

Sanırım tanımı ile ilgili asıl mesele ortalamadan farkı almaktır . Bunu henüz kendime haklı gösteremiyorum.


İşaretin yorumu, daha karmaşık bir konu gibi göründüğü için farklı bir soruya bırakılabilir.


2
En başlangıç ​​noktası, çapraz ürün kavramı veya sezgisi olabilir (kovaryans sadece bunun bir uzantısıdır). Aynı uzunlukta iki X ve Y sayı serimiz varsa ve toplanan çapraz ürünü Sum (Xi * Yi) olarak tanımlarsak, her iki seri de aynı sırada sıralanırsa en üst düzeye çıkarılır ve seriler artan şekilde, diğeri azalan şekilde sıralandı.
ttnphns

Ortalamadan farkı temel mesele değildir. Önemli olan sadece büyüklüktür, orijinden farkı; bazı nedenlerden dolayı, kökenini ortalamanın içine koymak doğal ve uygundur.
ttnphns

@ttnphns, eğer birlikte kovarlarsa kovaryansın "en üst düzeye çıkarılması" gerektiğini ve karşıt kovaryansların olabildiğince negatif olması gerektiğini mi söylüyorsunuz? (yani minimize edilmiş) O zaman neden çapraz ürün beklentisi olarak tanımlanmıyor?
Charlie Parker

Kovaryans, doğal kaynağı olmayan değişkenler için doğaldır. Daha sonra ortalamayı başlangıç ​​noktası olarak hesaplıyoruz (ortalama, ilişkilendirme temasıyla ilgili olmayan güzel özelliklere sahiptir, bu yüzden genellikle seçilir). Kökeni doğasında ve anlamlıysa, ona bağlı kalmak mantıklıdır, o zaman "kovaryans" (ko-patlaması) simetrik olmaz, ama kimin umurunda?
ttnphns

1
Bu cevap , kovaryans ile ilgili çok güzel bir sezgi sağlar.
Glen_b -18

Yanıtlar:


10

Boş bir sayı yığını ile başladığımızı düşünün. Sonra ortak dağıtımlarından çiftleri çizmeye başlarız . Dört şeyden biri olabilir:(X,Y)

  1. Hem X hem de Y daha büyükse, ortalamaları çiftin benzer olduğunu söyleriz ve bu nedenle yığına pozitif bir sayı koyarız.
  2. Hem X hem de Y daha küçükse, ortalamaları çiftin benzer olduğunu ve yığına pozitif bir sayı koyduğumuzu söyleriz .
  3. X, ortalamasından daha büyük ve Y ortalamasından daha küçükse, çiftin farklı olduğunu ve yığının üzerine negatif bir sayı koyduğunu söylüyoruz .
  4. X, ortalamasından daha küçük ve Y ortalamasından daha büyükse, çiftin farklı olduğunu ve yığına negatif bir sayı koyduğunu söylüyoruz .

Daha sonra, X ve Y'nin (dis-) benzerliğinin genel bir ölçüsünü elde etmek için, yığındaki sayıların tüm değerlerini toplarız. Pozitif bir toplam, değişkenlerin aynı anda aynı yönde hareket ettiğini gösterir. Negatif bir toplam, değişkenlerin zıt yönlerde daha sık hareket etmediğini gösterir. Sıfır toplamı, bir değişkenin yönünü bilmenin diğerinin yönü hakkında fazla bir şey söylemediğini gösterir.

Sadece 'büyük' ​​(veya 'pozitif') yerine 'ortalamadan daha büyük' ​​düşünmek önemlidir, çünkü negatif olmayan iki değişkenin benzer olduğuna karar verilir (örneğin M42'deki bir sonraki araba kazasının büyüklüğü ve yarın Paddington tren istasyonundan satın alınan bilet sayısı).

Kovaryans formülü, bu sürecin resmileştirilmesidir:

Cov(X,Y)=E[(X-E[X])(Y-E[Y])]

Monte carlo simülasyonundan ziyade olasılık dağılımını kullanmak ve yığına koyduğumuz sayının boyutunu belirtmek.


Vay canına, bu çok iyi bir cevap. Sadece son bir şey, bunu neden gerekçe ilgili daha fazla ayrıntıya ekleyerek sakıncası yapmak vardır fark oluşturacak olması demek ? Neden başka bir değer olmasın? Neden mantıklı geliyor? Bu tanımın tamamen içselleştirilmesinde beni sıkıştıran ana şey bence. Teşekkürler btw!
Charlie Parker

Teşekkürler. İki farklı ülkede iki büyük kamyon olduğunu varsayalım. Artık büyük kamyonlar büyük yükler taşıyor. Her bir kamyonun her büyük yük taşıdığı zaman istife pozitif bir sayı eklersek, iki kamyonun davranışının çok benzer olduğunu söylemek zorunda kalırız. Ancak aslında bir kamyon tarafından taşınan yükün boyutu, belirli bir zamanda diğerinin taşıdığı yükün büyüklüğü ile ilgili değildir. Her ikisi de büyük kamyonlar. Bu yüzden benzerlik ölçümüz yararlı olmaz. Bu yüzden 'ortalamanın üstünde' düşünmek zorundayız.
varsayımlar

Üzgünüm bu biraz geç, ama bu konuyu gözden geçirmeye karar verdim ve hala neden ortalamadan farkı hakkında bir sorum var. Her rastgele değişken X ve Y farklı ölçeklerden gelebileceğinden, ilgili araçlarından fark önemli mi? yani "büyük" ne olduğuna dair bir fikre sahip olmak, hangi taban ölçeğine bağlı olarak farklılık gösterir. Peki, bu ölçek sorununu aşmak için, ilgili araçlarla karşılaştırıyoruz?
Charlie Parker

1

İşte herhangi bir denklem olmadan bakmanın sezgisel yolu.

  1. Bu, daha yüksek boyutlara olan varyansın genelleştirilmesidir. Motivasyon muhtemelen verinin nasıl davrandığını anlatmaya çalışmaktan geldi. İlk sıraya göre, konumu var - ortalama. İkinci düzene göre, saçılımımız var - kovaryans.

    Sanırım tanımı ile ilgili asıl mesele ortalamadan farkı almaktır. Bunu henüz kendime haklı gösteremiyorum.

    dağılım dağılım merkezine göre değerlendirilir. Varyansın en temel tanımı 'ortalamadan ortalama sapmadır'. dolayısıyla, Kovaryans durumunda da ortalamanın altını çizmelisiniz.

  2. Akla gelen bir diğer önemli motivasyon, rastgele değişkenler arasındaki mesafeyi ölçmenin bir yolunu tanımlamaktır. Mahalanobis mesafesi ve Kovaryans el ele gelir: Bir Gauss dağılımı ve dağılım ortalamasına eşit Öklid mesafesine sahip iki örnek verildi. Hangi örneklerden hangisinin gauss dağılımından alınmamış bir aykırı olma olasılığı daha yüksek olursa, Öklid mesafesi yapmaz. Mahalanobis mesafesinin Öklid mesafesinden tek bir dikkate değer farkı vardır: dağılımın dağılımını (Covariance) dikkate alır. Bu, rastgele değişkenlere olan mesafeyi genellemenizi sağlar.


1
  1. Son olarak, iki değişken birbirinden bağımsız olduğunda (yani birbirlerine göre değişmediklerinde) bu kovaryans miktarının sıfır (veya muhtemelen çok küçük mü?) Olmasını istiyoruz.

(12)XYE[XY]E[XY]=14X^=1000XY^=1000YE[X^Y^]=250,000(X,Y)=E[(X-E[X])(Y-E[Y])]

  1. Ayrıca, iki rasgele değişken zıt olarak benzer olduğunda negatif bir işarete sahip olmasını istiyoruz (yani biri arttığında diğer rasgele değişken azalmaya eğilimlidir)

XY=1-XE[XY]=0(X,Y)=E[(X-E[X])(Y-E[Y])]

  1. İki rasgele değişken benzer olduğunda (sic) pozitif bir işaret olmalıdır ( yani biri diğerini arttırdığında ve diğeri de azaldığında).

XY=X-1E[XY](X,Y)=E[(X-E[X])(Y-E[Y])] istediğiniz gibi pozitif bir değer verir.

X=Y


1

Aynı soruyu merak ediyordum ve varsayımların verdiği sezgi bana yardımcı oldu. Sezgiyi görselleştirmek için iki rastgele normal vektör aldım, x ve y, dağılım grafiğini çizdim ve her noktayı kendi araçlarından sapmalarının (pozitif değerler için mavi, negatif için kırmızı) çarparak renklendirdim.

Arsadan da anlaşılacağı gibi, ürün sağ üst ve sol alt çeyreklerde en pozitif, sağ alt ve sol üst çeyreklerde en negatiftir. Ürünlerin toplanmasının etkisi, mavi noktalar kırmızı olanları iptal ettiği için 0 ile sonuçlanır.

Ancak, kırmızı noktaları kaldırırsak, kalan verilerin birbirleriyle pozitif bir ilişki sergilediğini görebilirsiniz; bu, ürünlerin pozitif toplamı (yani mavi noktaların toplamı) ile doğrulanır.

resim açıklamasını buraya girin


0

rastgele değişkenlerin vektör uzayında iki rastgele değişken x ve y arasındaki mesafe karesini E {(xy) ^ 2} ile tanımlamak mantıklıdır. {xy}, normalleştirme amaçlı olan -E {x} ve -E {y} terimleri dışında kovaryans tanımına çok benzer.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.