İstatistikçiler neden karşılıklı bilgiyi bir birliktelik ölçüsü olarak kullanmıyor?


10

İstatistikçi olmayanlar tarafından, regresyon (veya eşdeğer / yakından ilişkili istatistiksel testler) yerine karşılıklı bilgi kullanarak korelasyon önlemlerini yeniden icat ettikleri birkaç konuşma gördüm.

İstatistikçilerin bu yaklaşımı benimsemelerinin iyi bir nedeni olduğunu düşünüyorum. Layman'ın anlayışı entropi / karşılıklı bilgi tahmin edicilerinin problemli ve kararsız olma eğiliminde olduğudur. Sonuç olarak gücün de sorunlu olduğunu varsayıyorum: parametrik test çerçevesi kullanmadığını iddia ederek bunun üstesinden gelmeye çalışıyorlar. Genellikle bu tür işler güç hesaplarıyla, hatta güven / güvenilir aralıklarla uğraşmaz.

Ama bir şeytanın avukatlık pozisyonunu almak, veri kümeleri son derece büyük olduğunda yavaş bir yakınlaşmadır. Ayrıca, bazen bu yöntemler, derneklerin takip çalışmaları ile valide edildiği anlamında "işe yarar" gibi görünmektedir. Karşılıklı bilgilerin bir birliktelik ölçüsü olarak kullanılmasına karşı en iyi eleştiri nedir ve neden istatistiksel uygulamada yaygın olarak kullanılmamaktadır?

edit: Ayrıca, bu sorunları kapsayan iyi makaleler var mı?


3
MI, iki ayrık değişken arasındaki ilişkinin bir ölçüsüdür. Genel istatistiklerde bu kadar yaygın bir ayar değildir (bazı özel alt alanlarda olabilir). Ancak bu ortamda, yeterince sık kullanıldığını görüyorum. Kesinlikle, iki değişkenli ayrık veri kümelerinde Pearson korelasyonunu kullanan uygulamalı insanlarla karşılaştığımda, onlara MI işaret ediyorum.
user603

1
Ayrıca bkz. Stats.stackexchange.com/questions/1052/… Ancak, buradaki tartışma zaten benim görüşüme göre, iyi ya da daha iyi, bu yüzden kopyalarla ilgili olağan soru tartışmalı.
Nick Cox

Ayrıca referanslar için bkz. Stats.stackexchange.com/q/20011/1036
Andy W

2
Diğer bir genel referans Matthew Reimherr ve Dan L. Nicolae'dir. 2013. Bağımlılığın Nicelleştirilmesi: Yorumlanabilir Önlemlerin Geliştirilmesi için Bir Çerçeve. İstatistiksel Bilim 28: 116-130.
Nick Cox

Yanıtlar:


4

Kategorik (ayrık) veriler ile sürekli veriler arasında ayrım yapmanız gerektiğini düşünüyorum.

Sürekli veriler için Pearson korelasyonu doğrusal (monotonik) bir ilişkiyi, sıra korelasyonunu monotonik bir ilişkiyi ölçer.

MI ise herhangi bir ilişkiyi "algılar". Bu normalde ilgilendiğiniz bir şey değildir ve / veya gürültü olması muhtemeldir. Özellikle, dağılımın yoğunluğunu tahmin etmeniz gerekir. Ancak sürekli olduğu için, önce bir histogram [ayrı bölmeler] oluşturur ve ardından MI değerini hesaplarsınız. Ancak MI herhangi bir ilişkiye izin verdiğinden, daha küçük kutular kullandıkça MI değişecektir (yani daha fazla kıpırdatmaya izin verirsiniz). Yani MI tahmininin çok kararsız olacağını görebilirsiniz, tahmin vb. Herhangi bir güven aralığı koymanıza izin vermez. [Sürekli yoğunluk tahmini yaparsanız da aynı şey geçerlidir.] MI.

Kategorik veriler ise MI çerçevesine oldukça iyi uyuyor (G-testine bakınız) ve G-testi ile ki-kare arasında seçim yapmak için çok fazla şey yoktur.


Çoğunlukla ayrık ilişki vakalarına atıfta bulunuyorum (regresyon yoluyla, sadece OLS değil, GLM'ler aklımdaydı). Aslında, karmaşık fenomenleri (örneğin genetik) inceleyen birçok bilim adamı, sadece tanımladığınız şeyle daha fazla ilgilendiklerini söyleyebilir ( herhangi bir ilişkiyi tespit eder ). "Ya korelasyonun fonksiyonel formu yanlışsa? Tabii ki herhangi bir ilişki tespit etmek istiyorum !" Gibi bariz ortak eleştiriden kaçmanın cazibesi. güçlü. Ancak, burada oyunda öğle yemeği olmayan bir yanlışlık olduğunu düşünüyorum, ancak daha iyi ifade etmeye / anlamaya çalıştığım göz ardı edilir.
user4733

1
... LR testleri ve MI arasındaki ilişkinin farkında değildim, bu çok ilginç!
user4733
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.