Doğrusal olmayan bağımlılığın ölçülmesi


11

İki rastgele değişken arasındaki kovaryans, birbirleriyle doğrusal olarak ne kadar yakından ilişkili olduklarının bir ölçüsünü tanımlar. Peki ya eklem dağılımı daireselse? Tabii ki dağıtımda bir yapı var. Bu yapı nasıl çıkarılır?

Yanıtlar:


8

"Dairesel" ile, dağılımın bir pdf'nin bu kontur çiziminde olduğu gibi dairesel bir bölgede yoğunlaştığını anlıyorum.

Dairesel dağılımın kontur çizimi

Böyle bir yapı, kısmen bile olsa, bunu tanımlamanın ve ölçmenin doğal bir yolu , merkezi etrafındaki dağılımı dairesel olarak hesaplamaktır . (Sezgisel olarak, bu, her olası yarıçap için, mesafesinden olma olasılığını merkezden tüm yönlere eşit olarak yaymamız gerektiği anlamına gelir .) Değişkenleri olarak belirterek , merkez, ilk anlar . Ortalamayı yapmak için radyal dağılım fonksiyonunu tanımlamak uygundurrr(X,Y)(μX,μY)

F(ρ)=Pr[(XμX)2+(YμY)2ρ2],ρ0;
F(ρ)=0,ρ<0.

Bu , merkezin ve mesafeleri arasındaki toplam uzanma olasılığını yakalar . Her yöne yaymak için, cdf ile rastgele bir değişken olmasına ve bağımsız üzerinde tekdüze rastgele bir değişken olmasına izin verin . Değişkenli rastgele değişken olan dairesel bir ortalama ve . (Bu, sezgi taleplerimizi "dairesel ortalama" için yapar, çünkü (a) doğru radyal dağılıma, yani , yapıya göre ve (b) merkezden tüm yönlere (0ρRFΘ[0,2π]R(Ξ,H)=(Rcos(Θ)+μX,Rsin(Θ)+μY)(X,Y)FΘ) eşit derecede olasıdır.)

Bu noktada birçok seçeneğiniz var: geriye kalan tek şey nin nin dağılımını karşılaştırmaktır . Olasılıklar arasında bir mesafesi ve Kullback-Leibler sapması (sayısız ilgili mesafe ölçüsü ile birlikte: simetrik diverjans, Hellinger mesafesi, karşılıklı bilgi vb. ) Bulunmaktadır . Karşılaştırma, 'nin ' ye "yakın" olduğunda dairesel bir yapıya sahip olabileceğini göstermektedir . Bu durumda yapı, özelliklerinden "ekstre edilebilir" . Örneğin, ortalama konumu veya medyanı gibi merkezi konumunun bir ölçüsü , dağılımın "yarıçapını"(X,Y)(Ξ,H)Lp(X,Y)(Ξ,H)FF(X,Y) ve standart sapması (veya başka bir ölçek ölçüsü), "yayılma" nın merkezi konumları hakkında radyal yönlerde nasıl olduğunu ifade eder .F(X,Y)(μX,μY)

Bir dağılımdan örnekleme yaparken , verilerle , makul bir dairesellik testi, merkezi konumu her zamanki gibi (araçlarla veya medyanlarla) tahmin etmek ve böylece her değeri ) dönüştürmektir. tahmini merkeze göre kutupsal koordinatlara . Yarıçapların standart sapmasını (veya IQR) ortalamalarıyla (veya medyanıyla) karşılaştırın. Dairesel olmayan dağılımlar için oran büyük olacaktır; dairesel dağılımlar için nispeten küçük olmalıdır. (Temel dağılım için belirli bir modeliniz varsa, radyal istatistiğin örnekleme dağılımını çalıştırabilir ve onunla bir önem testi oluşturabilirsiniz.) Ayrı olarak, aralıktaki tekdüzelik için açısal koordinatı test edin(xi,yi),1in(xi,yi)(ri,θi)[0,2π) . Dairesel dağılımlar (ve diğer bazı dağıtımlar için de) yaklaşık olarak aynı olacaktır; homojen olmama, dairesellikten ayrılmayı gösterir.


1
Teşekkür ederim! Tamamen açık olmasa da, bu bana biraz fikir veriyor. Lütfen bu tür dağıtımların ele alındığı yerleri okumayı tavsiye eder misiniz? Sadece Gausslulara ve diğer standart dağıtımlara maruz kaldım. Başka bir soru, bunun atomların radyal dağılım fonksiyonları vb. İle bir ilgisi var mı?
Infinity

1
@Infinity Düzeltmek için hangi kısmın net olmadığını bana bildirin. Bu tür dağılımların nerede tartışıldığını bilmiyorum, ancak ilgili analizler "dairesel dağılımlar" üzerine literatürde bulunabilir. Temeldeki matematiksel fikirler gerçekten de atomik yörünge teorisi ile bir dereceye kadar ilişkilidir. İlgili kavramlar, Schrodinger Denkleminin küresel koordinatlarda ayrılabilirliğini, kompakt bir Lie grubunun Haar ölçümünün ortalamasını alarak oluşturmasını ve orbitalleri örtüşme integralleri ile karşılaştırmayı içerir.
whuber

Teşekkürler. Olasılık ve istatistik konusunda çok yeniyim, bu yüzden muhtemelen bundan dolayıydı. "Merkezinin etrafında dairesel olarak ortalama dağılımı" ile ne demek istediğini gerçekten anlamıyorum, bence tüm çevreleri ortalamak demek, böylece merkezde ve yarıçapta sadece bir daire bir doğrusal regresyon doğrusu uyum gibi tür. Bu doğru mu? (μX,μY)ρ
Infinity

Sahip olduğum diğer şüphe dağıtım fonksiyonu bir disk tarif gibi görünüyor ama şekil (ve aklımda ne vardı) bir halka. Rastgele değişken polar olarak ortalama daireyi tanımlar. Üzgünüm, bundan sonra ne olacağını net bir şekilde anlayamadım. İki dağılımı bir miktar metrik kullanarak karşılaştırdığımızı anlıyorum, ancak özel ve neden mantık edemediğime nasıl yardımcı oluyor. Sorular çok aptalca görünüyorsa özür dilerim. F(ρ)(Ξ,H)(Ξ,H)
Infinity

1
@Infinity Açıklayıcı açıklamalar ekledim. Çevrelerin ortalamasını almazsınız; bunun yerine, her bir daire boyunca tüm olasılığı ortalama (veya "smear") olarak gösterirsiniz, böylece ne ile başlarsanız başlasın, resmim gibi görünür (dairesel konturlarla). Orijinal dağıtım gerçekten dairesel olsaydı, bu ortalama alma bunu değiştirmez. Böylece, dağılımın ortalama sürümüyle karşılaştırılması, ilk etapta dairesel olmanın ne kadar uzak olduğunu size söyler.
whuber

5

Karşılıklı bilgi , bir şekilde kovaryansa benzer özelliklere sahiptir. Kovaryans, bağımsız değişkenler için 0 ve doğrusal olarak bağımlı değişkenler için sıfır olmayan bir sayıdır. Özellikle, iki değişken aynı ise, kovaryans varyansa eşittir (genellikle pozitif bir sayıdır). Kovaryans ile ilgili bir sorun, bağımlılığın doğrusal olmaması koşuluyla, iki değişken bağımsız olmasa bile sıfır olabilmesidir.

Karşılıklı bilgi (MI) negatif olmayan bir sayıdır. Sadece ve iki değişken istatistiksel olarak bağımsız ise sıfırdır. Bu özellik kovaryanstan daha geneldir ve doğrusal olmayanlar da dahil olmak üzere herhangi bir bağımlılığı kapsar.

İki değişken aynı ise, MI değişkenin entropisine eşittir (yine genellikle pozitif bir sayıdır). Değişkenler farklıysa ve deterministik olarak ilişkili değilse, MI entropiden daha küçüktür. Bu bağlamda, iki değişkenin MI değeri 0 ile H (entropi) arasında, sadece bağımsız ise 0 ve H yalnızca deterministik olarak bağımlıysa H olur.

Kovaryanstan bir fark, bağımlılığın "işareti" nin göz ardı edilmesidir. Örneğin , ancak .Cov(X,X)=Cov(X,X)=Var(X)MI(X,X)=MI(X,X)=H(X)


4
Bu kavramın soruya nasıl cevap verdiğini genişletebilir misiniz?
onestop

3

Lütfen bilimden aşağıdaki makaleye bir göz atın - tam olarak amacınıza hitap eder:

Büyük Veri Kümelerinde Yeni Derneklerin Tespiti David N. Reshef ve ark.

Özetden:

Büyük veri kümelerinde değişken çiftleri arasındaki ilginç ilişkilerin belirlenmesi giderek daha önemlidir. Burada, iki değişkenli ilişkiler için bir bağımlılık ölçütü sunuyoruz: maksimum bilgi katsayısı (MIC). MIC, hem işlevsel olan hem de olmayan çok çeşitli ilişkilendirmeleri yakalar ve fonksiyonel ilişkiler için, regresyon fonksiyonuna göre verilerin kabaca belirleme katsayısına (R ^ 2) eşit olan bir puan sağlar. MIC, ilişkileri tanımlamak ve sınıflandırmak için daha büyük bir bilgi tabanlı parametrik olmayan keşif (MINE) istatistik sınıfına aittir. MIC ve MINE'ı küresel sağlık, gen ifadesi, majör lig beyzbol ve insan bağırsak mikrobiyotasındaki veri setlerine uyguluyoruz ve bilinen ve yeni ilişkileri tespit ediyoruz.

Yardımcı materyalleri burada bulabilirsiniz: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1

Yazarlar, R ve Python ile kullanılabilecek yeni yöntemi içeren ücretsiz bir araç bile sunmaktadır: http://www.exploredata.net/

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.