Yanıtlar:
"Dairesel" ile, dağılımın bir pdf'nin bu kontur çiziminde olduğu gibi dairesel bir bölgede yoğunlaştığını anlıyorum.
Böyle bir yapı, kısmen bile olsa, bunu tanımlamanın ve ölçmenin doğal bir yolu , merkezi etrafındaki dağılımı dairesel olarak hesaplamaktır . (Sezgisel olarak, bu, her olası yarıçap için, mesafesinden olma olasılığını merkezden tüm yönlere eşit olarak yaymamız gerektiği anlamına gelir .) Değişkenleri olarak belirterek , merkez, ilk anlar . Ortalamayı yapmak için radyal dağılım fonksiyonunu tanımlamak uygundur
Bu , merkezin ve mesafeleri arasındaki toplam uzanma olasılığını yakalar . Her yöne yaymak için, cdf ile rastgele bir değişken olmasına ve bağımsız üzerinde tekdüze rastgele bir değişken olmasına izin verin . Değişkenli rastgele değişken olan dairesel bir ortalama ve . (Bu, sezgi taleplerimizi "dairesel ortalama" için yapar, çünkü (a) doğru radyal dağılıma, yani , yapıya göre ve (b) merkezden tüm yönlere () eşit derecede olasıdır.)
Bu noktada birçok seçeneğiniz var: geriye kalan tek şey nin nin dağılımını karşılaştırmaktır . Olasılıklar arasında bir mesafesi ve Kullback-Leibler sapması (sayısız ilgili mesafe ölçüsü ile birlikte: simetrik diverjans, Hellinger mesafesi, karşılıklı bilgi vb. ) Bulunmaktadır . Karşılaştırma, 'nin ' ye "yakın" olduğunda dairesel bir yapıya sahip olabileceğini göstermektedir . Bu durumda yapı, özelliklerinden "ekstre edilebilir" . Örneğin, ortalama konumu veya medyanı gibi merkezi konumunun bir ölçüsü , dağılımın "yarıçapını" ve standart sapması (veya başka bir ölçek ölçüsü), "yayılma" nın merkezi konumları hakkında radyal yönlerde nasıl olduğunu ifade eder .
Bir dağılımdan örnekleme yaparken , verilerle , makul bir dairesellik testi, merkezi konumu her zamanki gibi (araçlarla veya medyanlarla) tahmin etmek ve böylece her değeri ) dönüştürmektir. tahmini merkeze göre kutupsal koordinatlara . Yarıçapların standart sapmasını (veya IQR) ortalamalarıyla (veya medyanıyla) karşılaştırın. Dairesel olmayan dağılımlar için oran büyük olacaktır; dairesel dağılımlar için nispeten küçük olmalıdır. (Temel dağılım için belirli bir modeliniz varsa, radyal istatistiğin örnekleme dağılımını çalıştırabilir ve onunla bir önem testi oluşturabilirsiniz.) Ayrı olarak, aralıktaki tekdüzelik için açısal koordinatı test edin . Dairesel dağılımlar (ve diğer bazı dağıtımlar için de) yaklaşık olarak aynı olacaktır; homojen olmama, dairesellikten ayrılmayı gösterir.
Karşılıklı bilgi , bir şekilde kovaryansa benzer özelliklere sahiptir. Kovaryans, bağımsız değişkenler için 0 ve doğrusal olarak bağımlı değişkenler için sıfır olmayan bir sayıdır. Özellikle, iki değişken aynı ise, kovaryans varyansa eşittir (genellikle pozitif bir sayıdır). Kovaryans ile ilgili bir sorun, bağımlılığın doğrusal olmaması koşuluyla, iki değişken bağımsız olmasa bile sıfır olabilmesidir.
Karşılıklı bilgi (MI) negatif olmayan bir sayıdır. Sadece ve iki değişken istatistiksel olarak bağımsız ise sıfırdır. Bu özellik kovaryanstan daha geneldir ve doğrusal olmayanlar da dahil olmak üzere herhangi bir bağımlılığı kapsar.
İki değişken aynı ise, MI değişkenin entropisine eşittir (yine genellikle pozitif bir sayıdır). Değişkenler farklıysa ve deterministik olarak ilişkili değilse, MI entropiden daha küçüktür. Bu bağlamda, iki değişkenin MI değeri 0 ile H (entropi) arasında, sadece bağımsız ise 0 ve H yalnızca deterministik olarak bağımlıysa H olur.
Kovaryanstan bir fark, bağımlılığın "işareti" nin göz ardı edilmesidir. Örneğin , ancak .
Lütfen bilimden aşağıdaki makaleye bir göz atın - tam olarak amacınıza hitap eder:
Büyük Veri Kümelerinde Yeni Derneklerin Tespiti David N. Reshef ve ark.
Özetden:
Büyük veri kümelerinde değişken çiftleri arasındaki ilginç ilişkilerin belirlenmesi giderek daha önemlidir. Burada, iki değişkenli ilişkiler için bir bağımlılık ölçütü sunuyoruz: maksimum bilgi katsayısı (MIC). MIC, hem işlevsel olan hem de olmayan çok çeşitli ilişkilendirmeleri yakalar ve fonksiyonel ilişkiler için, regresyon fonksiyonuna göre verilerin kabaca belirleme katsayısına (R ^ 2) eşit olan bir puan sağlar. MIC, ilişkileri tanımlamak ve sınıflandırmak için daha büyük bir bilgi tabanlı parametrik olmayan keşif (MINE) istatistik sınıfına aittir. MIC ve MINE'ı küresel sağlık, gen ifadesi, majör lig beyzbol ve insan bağırsak mikrobiyotasındaki veri setlerine uyguluyoruz ve bilinen ve yeni ilişkileri tespit ediyoruz.
Yardımcı materyalleri burada bulabilirsiniz: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1
Yazarlar, R ve Python ile kullanılabilecek yeni yöntemi içeren ücretsiz bir araç bile sunmaktadır: http://www.exploredata.net/