Doğrusal olmayan korelasyonları saptamak için MIC algoritması sezgisel olarak açıklanabilir mi?


20

Daha yakın zamanlarda iki makale okudum. Birincisi korelasyonun tarihiyle, ikincisi ise Maksimal Bilgi Katsayısı (MIC) adı verilen yeni yöntemle ilgilidir. Değişkenler arasındaki doğrusal olmayan korelasyonları tahmin etmek için MIC yöntemini anlama konusunda yardımınıza ihtiyacım var.

Dahası, R'de kullanımıyla ilgili talimatlar yazarın web sitesinde ( İndirmeler altında ) bulunabilir:

Umarım bu yöntemi tartışmak ve anlamak için iyi bir platform olacaktır. Bu yöntemin arkasındaki bir sezgiyi ve yazarın dediği gibi nasıl genişletilebileceğini tartışmaya ilgim.

... MIC (X, Y) 'nin MIC (X, Y | Z)' ye genişletilmesi gerekiyor. MIC'in istikrarlı tahminlerini almak için ne kadar veriye ihtiyaç duyulduğunu, aykırı değerlere ne kadar duyarlı olduğunu bilmek istiyoruz. - ya da daha yüksek boyutlu ilişkileri o özleyeceğim ve daha MIC büyük bir adım olduğunu, ancak almak daha birçok adım vardır.. "


Soru ilginç, ama bence cevapsız değil. Lütfen daha spesifik yapabilir misiniz?
mpiktas

3
Bilimdeki makalenin açık erişim olmaması gerçeğiyle tartışmayı engelleyecektir.
Itamar

7
İşte yazarlardan biri tarafından kurtarılan makalenin bir kopyası.

10
Kısacası, MIC esas yanlış pozitif üretir, böylece bir gerçekdışı karmaşıklığını var "arsa-all-scatterplots-ve-zirve-o-ile-en-beyaz-alanın" eski fikrinin bir kazı olduğunu (yazarlar sadece-rastgele-seçilen-bazı-çift-sezgisel sezgisel arkasına gizler) ve yan tasarım üç ve daha değişken etkileşimlerin tümünü kaçırır. O(M2)

4
MIC ile ilgili teknik ayrıntılar için Çevrimiçi Destekleyici Materyal makalenin kendisinden daha bilgilendiricidir.
res

Yanıtlar:


22

Bunun istatistiksel akran değerlendirmesinden emin olmadığımız istatistiki olmayan bir dergide yayınlandığını söylemiyor mu? Bu problem, binleştirme veya çoklu adım gerektirmeyen basit bir algoritma geliştiren 1948'de Hoeffding (Annals of Mathematical Statistics 19: 546) tarafından çözüldü. Hoeffding'in çalışmasına Bilim makalesinde bile atıfta bulunulmadı. Bu uzun yıllardır paketin R hoeffdfonksiyonunda Hmisc. İşte bir örnek ( example(hoeffd)R yazın):

# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y)  # an X
hoeffd(x,y)  # also accepts a numeric matrix

D
     x    y
x 1.00 0.06
y 0.06 1.00

n= 200 

P
  x  y 
x     0   # P-value is very small
y  0   

hoeffdHoeffding'in yönteminin oldukça etkili bir Fortran uygulamasını kullanır. Testinin temel fikri, X ve Y eklem dereceleri ile X'in marjinal rütbesi ve Y'nin marjinal rütbesi arasındaki farkı uygun şekilde ölçeklendirmektir.

Güncelleme

D

HmiscD|F(x,y)G(x)H(y)|D


6
(+1) Hoeffding'in makalesi çevrimiçi olarak edinilebilir.
res

1
Güzel bulmak. Hoeffding'in performansını kendi performanslarıyla karşılaştırarak Bilim için kısa bir not olabilir. 50'li yıllarda yapılan birçok iyi çalışmanın (birçok alanda) yıllar boyunca unutulması üzücü.
Itamar

6

MI=H(X)+H(Y)H(X,Y)
H(X)=ip(zi)logp(zi)
H(X,Y)=i,jp(xi,yj)logp(xi,yj)

Yazarların ana fikri , verileri birçok farklı iki boyutlu ızgaraya ayırmak ve her bir ızgaradaki iki değişkenin karşılıklı bilgilerini temsil eden normalleştirilmiş puanları hesaplamaktır. Farklı ızgaralar arasında adil bir karşılaştırma sağlamak için puanlar normalleştirilir ve 0 (ilişkisiz) ile 1 (yüksek korelasyonlar) arasında değişir.

R2


3

Ben daha net özellikle MIC fikrini açıklayan iki iyi makaleler buldum bu bir; işte ikincisi .

Bu okumalardan da anlaşılacağı gibi, farklı ızgara kombinasyonlarını araştırarak iki değişken arasındaki farklı karmaşıklıklara ve ilişkilerin ölçeklerine yakınlaşabilirsiniz; bu ızgaralar 2 boyutlu boşluğu hücrelere bölmek için kullanılır. Hücrelerin alanı nasıl bölüştüğüne dair en fazla bilgiyi içeren ızgarayı seçerek MIC'i seçin.

@Mbq'ye "tüm-dağılım-grafikleri-ve-zirve-bu-en büyük-beyaz alanı olanları" ve O'nun (M2) gerçek dışı karmaşıklığı olarak adlandırdığı şeyi genişletip genişletemeyeceğini sormak istiyorum.


4
Binning kullanan herhangi bir istatistiksel yöntem için endişeleniyorum.
Frank Harrell

@FrankHarrell Binning'in neden kötü olduğunu gösteren referanslar veya sezgi sağlayabilir misiniz? Sezgisel olarak, binning nedeniyle esasen bilgi attığınızı görebiliyorum, ancak bunun için daha fazla neden olmalı?
Kiran K.

Nereden başlayacağınızı bilmek için çok fazla referans var. Sonuçta binning'e dayanan hiçbir istatistiksel yöntem hayatta kalmaz. Keyfilik birçok problemden biridir.
Frank Harrell

@FrankHarrell Yorumu takdir edin. Referans istediğim neden bir doktora öğrencisiyim ve şu anda bağımlılık ve çok değişkenli bağımlılık kavramlarını inceliyorum ve bu makaleleri okumak ve gelecekte kendi çalışmalarımda alıntı yapmak isterim. Bir ya da iki önemli kişiden bahsedebilirseniz, bahsettiğiniz kalanları bulabileceğime eminim. Ayrıca iyi bulursam burada bazı kazma ve referanslar yapacağım.
Kiran K.

Citeulike.org/user/harrelfe/article/13265458 ile başlayın, sonra biostat.mc.vanderbilt.edu/CatContinuous adresinde ikotomizasyon hakkında diğer bilgilere bakın . Herhangi bir binning gerektirmeyen genel bir bağımlılık ölçüsü için citeulike.org/user/harrelfe/article/13264312
Frank Harrell
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.