“Ücretsiz Öğle Yemeği Yok Teoremi” genel istatistiksel testler için geçerli mi?


12

Çalıştığım bir kadın, bazı veriler üzerinde tek yönlü bir ANOVA yapmamı istedi. Verilerin tekrarlanan ölçümler (zaman serileri) verileri olduğunu ve bağımsızlık varsayımının ihlal edildiğini düşündüm. Varsayımlar hakkında endişelenmemem gerektiğini söyledi, sadece testi yapın ve varsayımların karşılanamayacağını dikkate alacaktı.

Bu bana doğru gelmedi. Biraz araştırma yaptım ve David Robinson'ın bu harika blog gönderisini buldum, K-kümelenmesi beni Ücretsiz Öğle Yemeği Yok Teoremine maruz bırakan ücretsiz bir öğle yemeği değil demektir . Orijinal makaleye baktım ve bazı şeyleri takip ettim ve açıkçası matematik biraz kafamın üstünde.

David Robinson'a göre bunun özü, istatistiksel bir testin gücünün varsayımlarından kaynaklandığı anlaşılıyor. Ve iki harika örnek veriyor. Bu konuyla ilgili diğer makaleleri ve blog yayınlarını inceledikçe, her zaman denetimli öğrenme veya arama açısından referans gösteriliyor gibi görünüyor.

Benim sorum şu, bu teorem genel olarak istatistiksel testler için geçerli mi? Başka bir deyişle, bir t-testinin veya ANOVA'nın gücünün varsayımlara bağlılığından kaynaklandığı ve Ücretsiz Öğle Yemeği Yok Teoreminden bahsedildiği söylenebilir mi?

Eski patronuma yaptığım işle ilgili son bir belgeyi borçluyum ve ücretsiz bir öğle yemeği yok teoremine sadece istatistiksel bir testin varsayımlarını göz ardı edemeyeceğinizi ve bunu alacağınızı söyleyebileceğimi bilmek istiyorum. sonuçları değerlendirirken.


4
Neden tekrarlanan ölçümleri ANOVA'ya "gizlice" yapmıyorsunuz?
Horst Grünbusch

1
@ HorstGrünbusch Aslında, veri ve test daha önce forumda, tekrarlanan ölçümler ANOVA hakkında özel sorularla tartışıldı ve doğrusal bir karma efekt modelinin muhtemelen en iyi seçim olduğu ortaya çıktı.
rwjones

2
Bu zaten iyi yanıtlanmıştır, bu nedenle daha saygısız bir yanıt eklenebilir. Patronunuza, varsayımları ihlal etmenin sonuçlarını nasıl dikkate alacağını sorabilirsiniz ("temkinli olmak" hiç olmamasından daha iyi olurdu!). Kısacası, varsayımlar hakkında ne zaman dikkatsiz olabileceğinizi bilmek için yeterli anlayış ve deneyim elde etmek uzun ve zor bir yoldur. Rupert G. Miller'ın ANOVA'nın Ötesinde (New York: Wiley, 1986 ve daha sonraki baskılar) sonuçları için iyi bir kaynaktır ve bunun ana teması bağımsızlık varsayımlarını görmezden gelmenin yapabileceğiniz en tehlikeli şeylerden biridir.
Nick Cox

1
@NickCox Eh, o artık benim patronum değil ve bu özel durum bunun ana sebebidir. Temelde, aksi takdirde iyi bir araştırma ortamında kendi başına bir sürü özensiz düşünme ve özensiz proje yönetiminin doruk noktasıydı. Bu bir yana, kitap önerisi için teşekkürler. Sesinden, son raporumda alıntı yapmak istediğim şeylerden biri.
rwjones

Yanıtlar:


11

Bir kanıt bilmiyorum ama bahse girerim bu oldukça genel olarak geçerlidir. Bir örnek, 2 tedavi grubunun her birinde 2 denek ile yapılan bir deneydir. Wilcoxon testi 0.05 düzeyinde anlamlı olmayabilir, ancak t testi yapılabilir. Gücünün sadece verilerden değil, varsayımlarından yarıdan fazla geldiğini söyleyebilirsiniz. Orijinal probleminize göre, konu başına gözlemler bağımsızmış gibi ilerlemeniz uygun değildir. Gerçeklerden sonra bir şeyleri hesaba katmak, çok özel durumlar dışında (örn. Küme sandviç tahmin edicileri) kesinlikle iyi bir istatistiksel uygulama değildir.


2

Sen alıntı yapabilirsiniz Yok Free Lunch Teoremi isterseniz, ama aynı zamanda sadece bahsedebilirdim Modus Ponens (olarak da bilinen Dekolmanının Kanunun köküdür, tümdengelim temeli) Hayır Ücretsiz Öğle Teoremi .

Yok Free Lunch Teoremi tüm amaçları sığabilecek algoritması falan olduğu gerçeğini: Daha spesifik bir fikir kapsamaktadır. Başka bir deyişle, Ücretsiz Öğle Yemeği Yok Teoremi temel olarak algoritmik sihirli mermi olmadığını söylüyor . Bu, Modus Ponens'e dayanır, çünkü bir algoritmanın veya istatistiksel testin doğru sonucu vermesi için öncülleri tatmin etmeniz gerekir.

Tıpkı tüm matematiksel teoremlerde olduğu gibi, premesleri ihlal ederseniz, istatistiksel test sadece boştur ve ondan herhangi bir gerçeği türetemezsiniz. Dolayısıyla, verilerinizi testinizi kullanarak açıklamak istiyorsanız, gerekli öncüllerin karşılandığını varsaymalısınız, eğer değilse (ve bunu biliyorsanız), o zaman testiniz yanlıştır.

Yani en yüzünden bilimsel akıl yürütme kesinti dayalı geçerli: temelde, test / hukuk / teorem bir olduğunu ima kuralı Eğer premisse varsa söyler, Ao zaman sonucuna varabiliriz B: A=>Bama yoksa A, o zaman ya sahip olabilir Bya da değil Bve her iki durum da doğrudur , bu mantıksal çıkarım / çıkarımın temel ilkelerinden biridir (Modus Ponens kuralı). Başka bir deyişle, premesleri ihlal ederseniz, sonuç önemli değildir ve hiçbir şey çıkaramazsınız .

İkili ima tablosunu hatırlayın:

A   B   A=>B
F   F    T
F   T    T
T   F    F
T   T    T

Yani sizin durumunuzda, basitleştirmek için var Dependent_Variables => ANOVA_correct. Eğer bağımsız değişkenleri kullanın Şimdi, eğer, bu nedenle Dependent_Variablesedilir False, çünkü o zaman içerim, gerçek olacak Dependent_Variablesvarsayımı ihlal edilmektedir.

Tabii ki bu basit ve pratikte ANOVA testiniz yine de yararlı sonuçlar döndürebilir, çünkü bağımlı değişkenler arasında neredeyse her zaman bir dereceye kadar bağımsızlık vardır, ancak bu size varsayımları yerine getirmeden teste neden güvenemeyeceğinizi gösterir. .

Bununla birlikte, sorununuzu azaltarak öncüllerin orijinalinden memnun olmadığı testleri de kullanabilirsiniz : bağımsızlık kısıtlamasını açıkça gevşeterek, sonucunuz hala anlamlı olabilir, ancak garanti edilmez (çünkü sonuçlarınız azaltılmış sorun için geçerlidir, tam sorun, bu nedenle, yeni sorunun ek kısıtlamalarının testinizi ve dolayısıyla sonuçlarınızı etkilemediğini kanıtlayabilmeniz dışında her sonucu çeviremezsiniz).

Pratikte, bu, genellikle Naive Bayes kullanarak, bağımsız değişkenleri kabul eden bir model kullanarak bağımlı (bağımsız yerine) değişkenleri modelleyerek pratik verileri modellemek için kullanılır ve şaşırtıcı bir şekilde çok iyi çalışır ve bazen model muhasebesinden daha iyidir bağımlılıklar için . Veriler tüm beklentileri tam olarak karşılamadığında ANOVA'nın nasıl kullanılacağı ile ilgili bu soru da ilginizi çekebilir .

Özetlemek gerekirse: Eğer pratik veriler üzerinde çalışmak istiyorsanız ve amacınız herhangi bir bilimsel sonucu kanıtlamak değil , sadece çalışan bir sistem (yani bir web hizmeti ya da herhangi bir pratik uygulama) yapmak, bağımsızlık varsayımını (ve belki de diğer varsayımları) rahatlayabilir, ancak genel bir gerçeği ortaya çıkarmaya / kanıtlamaya çalışıyorsanız , her zaman tüm öncülleri tatmin ettiğinizi matematiksel olarak garanti edebileceğiniz (veya en azından güvenli ve makul bir şekilde varsayabileceğiniz) testleri kullanmalısınız .


2
Argümanınızı doğru anlarsam, varsayımların tam olarak karşılanmadığı istatistik uygulamalarının hiçbirinin geçerli olmadığını söyleyerek başlarsınız. Eğer doğruysa, bu gerçekten çok kötü bir haber. Ekonometri kitaplarının çoğu (sadece bir örnek vermek için) zamanlarını bunun yanlış olduğunu (tek kelimelik özet) ve tam olarak nedenini açıklayarak geçirir. Ancak, ortada yapışkanlığınızı değiştiriyorsunuz ve bunun yerine savunduğunuz şey bulanık. Bir şekilde veriler üzerinde çalışmak mantıksal olarak geçersiz olsa bile ses çıkarabilir. Bu nedenle burada net bir tavsiye çizgisi göremiyorum.
Nick Cox

Mesele şudur: Eğer premesler ihlal edilirse, çıkarım önyargılı olduğu için test sonuçlarını yüz değerinde alamazsınız. Bununla birlikte, yine de deneyebilirsiniz ve yeterince emin ve deneyimli iseniz, yine de bir şey elde edebilirsiniz, ancak çoğunlukla bilimsel akıl yürütmeyi umursamadığınız pratik uygulamalarda (sadece modellemeye çalışıyorsunuz) bazı pratik amaçlara yönelik veriler, dünya hakkında bazı temellere dayanan genel gerçekleri çıkarmaya çalışmaz). Bu yüzden cevabım "tek kelimelik bir özet" değil, sadece genel durum (yanlış) ve özel durum (tamam olabilir).
gaborous

Not: İfadem sadece istatistik uygulamaları ile ilgili değil, herhangi bir mantıksal veya matematiksel teorem / kural / testin herhangi bir uygulaması ile ilgilidir, bu çıkarım ve tümevarım kullanarak herhangi bir akıl yürütme için geçerlidir. Ama ekonometri kitaplarınızın referanslarıyla ilgileniyorum, OP'nin sorusunun bir yorumunda verdiğiniz diğer referans çok ilgiliydi.
gaborous

Yorum eklediğiniz için teşekkür ederiz, ancak ifadenizi özellikle açık veya sağlam bulamadığımı söylemeliyim. Çalışan bilim insanlarının (ben birim) bilimsel akıl yürütme ve pratik hedefler için veri analizi arasındaki farkınızı kavrayacağını göremiyorum. Jeff Wooldridge'inki gibi ders kitaplarını, aslında varsayımların çok önemli olduğu genişletilmiş denemeler ve aralarındaki geniş gri alan gibi övmek dışında bırakacağım. amazon.com/Jeffrey-M.-Wooldridge/e/B001IGLWNY
Nick Cox

Referans için teşekkürler. Naif bağımsızlık varsayımlarının neden bağımlı değişkenlere sahip veriler üzerinde hala çalışabileceğini açıklayan bir makaleden bahsettikleri başka bir soru buldum: "Kağıt, (naif) bayes'in sadece özellikler bağımsız olduğunda değil, aynı zamanda bağımlılıklar olduğunda da iyi olduğunu kanıtlıyor gibi görünüyor. birbirinden özelliklerinin özellikleri arasında benzer / zıtlık vardır " stats.stackexchange.com/a/23491/25538
gaborous
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.