Veri kümelerinin muhtemelen sıfır standart sapma ile Pearson korelasyonu?


12

Muhtemelen sıfır standart sapma ile veri kümelerinin pearson korelasyon katsayısını hesaplamakta bir sorun yaşıyorum (yani tüm veriler aynı değere sahiptir).

Aşağıdaki iki veri kümesine sahip olduğumu varsayalım:

float x[] = {2, 2, 2, 3, 2};
float y[] = {2, 2, 2, 2, 2};

Korelasyon katsayısı "r", aşağıdaki denklem kullanılarak hesaplanır:

float r = covariance(x, y) / (std_dev(x) * std_dev(y));

Ancak, "y" veri kümesindeki tüm veriler aynı değere sahip olduğundan, standart sapma std_dev (y) sıfır olur ve "r" tanımsız olur.

Bu sorunun çözümü var mı? Yoksa bu durumda veri ilişkisini ölçmek için başka yöntemler kullanmalı mıyım?


Bu örnekte, y değişmediği için "veri ilişkisi" yoktur. Atama bir sayısal değer r bir hata olacaktır.
whuber

1
@whuber - doğrudur şart olmamakla birlikte "gerçek" bilinmeyen korelasyon olduğu, tanımlanmamış tahmin edilemez. Tahmin etmek için farklı bir şey kullanmanız yeterlidir. ρrρ
olasılık

@probability Bunun yalnızca bir karakterizasyon sorunu değil, bir tahmin sorunu olduğunu varsayıyorsunuz. Ancak bunu kabul ederek, örnekte hangi tahminciyi önerirsiniz? Hiçbir cevap evrensel olarak doğru olamaz çünkü tahmin edicinin nasıl kullanılacağına bağlıdır (aslında bir kayıp fonksiyonu). Böyle PCA gibi birçok uygulama, kullanarak olası görünüyor herhangi prosedürü itici gücü için bir değer olduğunu tanıyan diğer prosedürler daha kötü olabilir tespit edilemez. ρρρ
whuber

1
@whuber - tahminin benim için kelimelerin kötü bir seçim (seni en iyi wordsmith değilim fark etmiş olabilir), ne demek rağmen olmasıydı benzersiz tespit edilemez, bu veriler yararsız olduklarını anlamına gelmez bize . Cevabım bunun cebirsel bir bakış açısıyla (çirkin) bir açıklamasını veriyor. ρρρ
olasılık

@ Olasılık Analizinizin çelişkili olduğu görülmektedir: eğer gerçekten y normal bir dağılımla modellenmişse, beş 2'lik bir örnek bu modelin uygun olmadığını gösterir. Sonuçta, hiçbir şey için bir şey elde edemezsiniz: sonuçlarınız, öncelikler hakkında yapılan varsayımlara güçlü bir şekilde bağlıdır. tanımlanmasındaki asıl sorunlar hala oradadır, ancak tüm bu ek varsayımlar tarafından gizlenmiştir. Bu, IMHO'yu meseleleri açıklığa kavuşturmak yerine gizlemek gibi görünüyor. ρ
whuber

Yanıtlar:


9

"Örnekleme teorisi" insanlar size böyle bir tahminin olmadığını söyleyecektir. Ama bir tane alabilirsiniz, sadece önceki bilgileriniz hakkında makul olmanız ve çok daha zor bir matematik çalışması yapmanız gerekir.

Bir Bayes tahmin yöntemi belirttiyseniz ve posterior öncekiyle aynı ise, verilerin parametre hakkında hiçbir şey söylemediğini söyleyebilirsiniz. İşler bize "tekil" gelebileceğinden, sonsuz parametre boşluklarını kullanamayız. Pearson korelasyonunu kullandığınız için, iki değişkenli bir normal olasılığınız olduğunu varsayıyorum:

Qi=(xi-μx)2

p(D|μx,μy,σx,σy,ρ)=(σxσy2π(1ρ2))Nexp(iQi2(1ρ2))
burada
Qi=(xiμx)2σx2+(yiμy)2σy22ρ(xiμx)(yiμy)σxσy

Şimdi bir veri kümesinin aynı değerde olabileceğini belirtmek için ve sonra şunu elde ederiz:yi=y

iQi=N[(yμy)2σy2+sx2+(x¯μx)2σx22ρ(x¯μx)(yμy)σxσy]
burada
sx2=1Ni(xix¯)2

Ve olabilirlik dört rakamdan bağlıdır böylece . Bu yüzden bir tahmini istiyorsunuz , bu yüzden ve sıkıntı parametrelerini . Şimdi entegrasyona hazırlanmak için "kareyi tamamlıyoruz" sx2,y,x¯,Nρμx,μy,σx,σy

iQi1ρ2=N[(μy[y(x¯μx)ρσyσx])2σy2(1ρ2)+sx2σx2(1ρ2)+(x¯μx)2σx2]

Şimdi dikkatli olmalıyız ve uygun şekilde normalleştirilmiş bir olasılık sağlamalıyız. Bu şekilde başımız belaya giremez. Böyle bir seçenek, zayıf bir şekilde bilgilendirici olan önceden kullanmaktır; Dolayısıyla önceden düz olan araçlar için ve standart sapmalar için . önce. Bu sınırlar, problem hakkında biraz "sağduyu" düşüncesiyle kolayca belirlenir. Ben için önceden belirtilmemiş alacak , ve böylece olsun (üniforma tamam çalışmalıdır, eğer tekilliği kesmeyin ): L σ < σ x , σ y < U σ ρLμ<μx,μy<UμLσ<σx,σy<Uσρ±1

p(ρ,μx,μy,σx,σy)=p(ρ)Aσxσy

Burada . Bu bir posterior verir:A=2(UμLμ)2[log(Uσ)log(Lσ)]2

p(ρ|D)=p(ρ,μx,μy,σx,σy)p(D|μx,μy,σx,σy,ρ)dμydμxdσxdσy

=p(ρ)A[2π(1ρ2)]N2LσUσLσUσ(σxσy)N1exp(Nsx22σx2(1ρ2))×
LμUμexp(N(x¯μx)22σx2)LμUμexp(N(μy[y(x¯μx)ρσyσx])22σy2(1ρ2))dμydμxdσxdσy

Artık üzerinden ilk entegrasyon, değişkenlerinde değişiklik yapılarak yapılabilir ve üzerindeki ilk integral olur:μyμyz=Nμy[y(x¯μx)ρσyσx]σy1ρ2dz=Nσy1ρ2dμyμy

σy2π(1ρ2)N[Φ(Uμ[y(x¯μx)ρσyσx]σyN1ρ2)Φ(Lμ[y(x¯μx)ρσyσx]σyN1ρ2)]

Ve buradan görebilirsiniz, hiçbir analitik çözüm mümkün değildir. Bununla birlikte, değerinin denklemlerden düşmediğini de belirtmek gerekir. Bu, verilerin ve önceki bilgilerin hala gerçek korelasyon hakkında söyleyecekleri bir şey olduğu anlamına gelir. Veriler korelasyon hakkında hiçbir şey söylemediyse , bu denklemlerde tek fonksiyonu olarak sadece ile bırakılırdık .ρp(ρ)ρ

Ayrıca, için sonsuz sınırlar sınırına , karmaşık görünümlü normal CDF fonksiyonunda hakkındaki bazı bilgileri " " da gösterir . Şimdi çok fazla veriniz varsa, o zaman sınıra geçmek iyidir, çok fazla kaybetmezsiniz, ancak durumunuzda olduğu gibi çok az bilginiz varsa - sahip olduğunuz her notu saklamanız önemlidir. Bu çirkin matematik demektir, ancak bu örneğin sayısal olarak yapılması çok zor değildir. Biz entegre olasılığını değerlendirebilir Yani söz hakkından değerlerinde oldukça kolay. İntegralleri yeterince küçük aralıklarla özetlerle değiştirin - böylece üçlü bir toplamınız olurμyρΦ(.)ρ0.99,0.98,,0.98,0.99


@ olasılık: Vay canına. Sadece vay canına. Bazı cevaplarınızı gördükten sonra gerçekten merak ediyorum: benim gibi bir doofus böyle esnek bir bayesci zihin durumuna ulaşmak için ne yapmalı?
steffen

1
@steffen - lol. O kadar zor değil, sadece pratik yapman gerekiyor. Ve her zaman daima ürün ve toplam olasılık kurallarının ihtiyacınız olan tek kural olduğunu unutmayın . İster görsün, görsün, orada her türlü bilgiyi çıkarırlar. Yani ürün ve toplam kurallarını uyguluyorsunuz, sonra sadece matematik yapınız. Burada yaptığım tek şey bu.
olasılık

@steffen - ve diğer kural - istatistiklerden daha matematiksel bir kural - hesaplamalarınızda çok erken bir limite geçmeyin, sonuçlarınız keyfi olabilir veya küçük ayrıntılar ortaya çıkabilir. Ölçüm hatası modelleri bunun mükemmel bir örneğidir (bu soru gibi).
olasılık

@probabilityislogic: Teşekkür ederim, bunu aklımda tutacağım ... "Bayes Analizi" kopyam ile çalışmayı bitirir bitirmez).
steffen

@probabilityislogic: Matematiksel olmayan bir istatistikçiyi / araştırmacıyı mizah edebilseydiniz ... Cevabınızı özetlemek veya bir grup dişhekimi, lise müdürü veya giriş istatistik öğrencisine çevirmek mümkün mü?
rolando2

6

Sesqu ile bu durumda korelasyonun tanımsız olduğuna katılıyorum. Uygulama türünüze bağlı olarak, örneğin her iki vektör arasındaki Gower Benzerliğini hesaplayabilirsiniz: burada v2'de işlev olarak uygulanan kronecker- temsil eder . δv1,v2gower(v1,v2)=i=1nδ(v1i,v2i)nδv1,v2

Örneğin tüm değerler eşitse gower (.,.) = 1. Öte yandan sadece bir boyutta farklılık gösterirlerse, gower (.,.) = 0.9. Her boyutta farklılık gösterirlerse, gower (.,.) = 0 vb.

Tabii ki bu korelasyon için bir ölçü değildir, ancak s> 0 olan vektörün s = 0 olana ne kadar yakın olduğunu hesaplamanızı sağlar. Tabii ki amacınıza daha iyi hizmet ediyorlarsa diğer metrikleri de uygulayabilirsiniz.


+1 Bu yaratıcı bir fikir. Kulağa "Gower Benzerliği" ölçeklenmiş bir Hamming mesafesi gibi geliyor .
whuber

@whuber: Gerçekten de öyle!
steffen

0

Bu durumda korelasyon tanımsızdır. Eğer tanımlamanız gerekiyorsa, onu 0 olarak tanımlarım, ama bunun yerine basit bir ortalama mutlak fark düşünün.


0

Bu soru programcılardan geliyor, bu yüzden sıfıra takmayı öneririm. Bir korelasyon kanıtı yoktur ve sıfır hipotezi sıfır olur (korelasyon yok). Bir bağlamda "tipik" bir korelasyon sağlayacak başka bağlam bilgisi olabilir, ancak kod başka bir bağlamda yeniden kullanılabilir.


2
Korelasyon eksikliği olduğuna dair hiçbir kanıt yok , neden 1'i takmıyorsunuz? Veya -1? Yoksa arada bir şey var mı? Hepsi yeniden kullanılabilir kod!
whuber

@whuber - veriler bağımsız olduğunda "daha az kısıtlanmış" olduğu için sıfıra bağlarsınız - bu nedenle kısıtlamalarda açıkça korelasyonlar belirtmediğiniz sürece maksimum dağılımlar bağımsızdır. Bu tür korelasyonları bilmediğinizde bağımsızlık muhafazakâr bir varsayım olarak görülebilir - etkili bir şekilde tüm olası korelasyonları ortalamanız gerekir .
probabilityislogic

1
@Prob Tüm korelasyonlar üzerinde ortalamalamanın neden genel bir prosedür olarak mantıklı olduğunu soruyorum . Aslında bu prosedür, kesin ve muhtemelen oldukça yanlış cevabın yerine "sıfır!" doğru cevap için "veriler bize söylemiyor." Bu fark karar vermede önemli olabilir.
whuber

Sorunun bir programcıdan gelmesi, tanımlanmamış bir değeri sıfıra dönüştürmeniz gerektiği anlamına gelmez. Sıfır, korelasyon hesaplamasında spesifik bir şey anlamına gelir. Bir istisna atın. Arayanın ne olması gerektiğine karar vermesine izin verin. Fonksiyonunuz bir korelasyon hesaplamalı, eğer hesaplanamazsa ne yapacağınıza karar vermemelidir.
Jared Becksfort
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.