Model yanlış tanımlaması altında istatistiksel çıkarsama


9

Genel bir metodolojik sorum var. Daha önce cevaplanmış olabilir, ancak ilgili iş parçacığını bulamıyorum. Olası kopyalara işaret edecekleri takdir edeceğim.

( Burada . Ama hiçbir cevap, mükemmel bir tanesidir Bu bile bir cevap ile de ruhu içinde benzer, ancak ikincisi benim açımdan çok özeldir. Bu soruyu yazdıktan sonra keşfedilen yakın zamanda budur.)


Tema, verileri görmeden önce formüle edilen model veri oluşturma sürecini yeterince tanımlayamadığında geçerli istatistiksel çıkarımın nasıl yapılacağıdır . Soru çok genel, ama konuyu açıklamak için özel bir örnek sunacağım. Bununla birlikte, cevapların belirli örneğin ayrıntılarını nitelendirmekten ziyade genel metodolojik soruya odaklanmasını bekliyorum.


Somut bir örnek düşünün: bir zaman serisi ayarında, veri oluşturma sürecinin ile olduğunu . olan konu hipotezini test etmeyi amaçlıyorum . Konu konusundaki hipotezimin uygulanabilir bir istatistiksel karşılığı elde etmek için bunu model açısından kullandım ve bu Çok uzak çok iyi. Ancak verileri gözlemlediğimde, modelin verileri yeterince tanımlamadığını keşfediyorum. Diyelim ki doğrusal bir eğilim var, böylece gerçek veri oluşturma süreci ile

(1)yt=β0+β1xt+ut
uti.i.N(0,σu2)dydx=1(1)
H0: β1=1.
(2)yt=γ0+γ1xt+γ2t+vt
vti.i.N(0,σv2).

Konu hipotezim üzerinde nasıl geçerli istatistiksel çıkarım yapabilirim ?dydx=1

  • Orijinal modeli kullanırsam, varsayımları ihlal edilir ve tahmincisi, aksi takdirde hoş bir dağılım göstermez. Bu nedenle, hipotezi testi ile test edemiyorum .β1t

  • Verileri gördükten sonra, model den ' ye istatistiksel hipotezimi yerine , model varsayımları tatmin olur ve ben için iyi tahminci ve testini kullanarak zorluk test edebilirsiniz. Ancak, den(1)(2)H0: β1=1H0: γ1=1γ1H0t
    (1)(2)hipotezi test etmek istediğim veri seti tarafından bilgilendirilir. Bu, tahminci dağılımını (ve dolayısıyla çıkarımını), gözlemlenen verilerden kaynaklanan temel modeldeki değişime koşullu hale getirir. Açıkçası, bu şartlanmanın getirilmesi tatmin edici değildir.

İyi bir çıkış yolu var mı? (Sık sık değilse, belki Bayesian alternatifi?)


3
Rahatsızlığınız doktoraların verilmesine yönelik klasik yaklaşımlara endemiktir: dikkatli hipotez spesifikasyonu, ardından ampirik bir test ve tanımlayıcı nedensel çıkarım ile biter. Bu dünyada kısa cevap “hayır” dı, çıkış yolu yok. Ancak dünya bu katı paradigmadan uzaklaşıyor. Örneğin, bir kağıt AER geçen yıl başlıklı Prediction Politikası Sorunları Kleinberg, vd, onlar "nedensel çıkarsama merkezi değil, hatta örneklerini gerekçe ekonomik politika yapımında gerekli araçlar olarak veri madenciliği ve tahmin için dava yapmak gerekli." Bir göz atmaya değer.
Mike Hunter

2
Benim görüşüme göre, doğrudan yanıtın bir çıkış yolu olmaması gerekirdi. Aksi takdirde, en kötü veri madenciliğinden - verilere uyacak hipotezleri yeniden biçimlendirmek - katı ve paradigmatik bir dünyada sermaye suçundan suçlu olacaksınız.
Mike Hunter

3
Doğru anlıyorsam, veri topluyorsunuz, sonra bir model seçiyorsunuz ve sonra hipotezleri test ediyorsunuz. Yanılıyor olabilirim ama bana göre Taylor ve Tibshirani (diğerlerinin yanı sıra) tarafından araştırılan seçici çıkarım paradigması probleminizle ilgili olabilir. Aksi takdirde, bu soruya verilen yorumlar, cevaplar ve bağlantılı cevaplar ilgi çekici olabilir.
DeltaIV

3
@DeltaIV, yani, çıkarsama yaparken, P-tutarlılığı altında olduğu gibi en az yanlış parametrelerle ilgilenmiyorum, daha doğrusu gerçek olanlarla ( wrt gerçek kısmi türevi) ilgileniyorum . yx
Richard Hardy

3
@RichardHardy, elbette, istatistik mezunu olmasına rağmen artık çıkarımda gerçekten inanmıyorum. O kadar kırılgan bir kart evi ki, çok katı ve kontrollü koşullar dışında hiç anlamlı olup olmadığı belirsiz. Komik olan herkesin bunu bilmesidir, ama hiç kimse umursamaz.
hejseb

Yanıtlar:


3

Çıkış yolu tam anlamıyla örnek testinin dışında, gerçek bir test. Örneği eğitime böldüğünüz ve çapraz değerlemede olduğu gibi tuttuğunuz kişi değil, gerçek tahmin. Bu doğa bilimlerinde çok işe yarar. Aslında çalışmanın tek yolu budur. Bazı veriler üzerinde bir teori oluşturuyorsunuz, o zaman henüz gözlemlenmeyen bir şeyin tahminini bulmanız bekleniyor. Açıkçası bu, ekonomi gibi çoğu sosyal (sözde) bilimde işe yaramıyor.

Endüstride bu bilimlerde olduğu gibi çalışır. Örneğin, ticaret algoritması işe yaramazsa, sonunda para kaybedersiniz ve sonra onu terk edersiniz. Çapraz doğrulama ve eğitim veri setleri, geliştirme ve algoritmayı dağıtmaya karar vermede yaygın olarak kullanılmaktadır, ancak üretimden sonra tamamen para kazanmak veya kaybetmekle ilgilidir. Çok basit örnek testi.


Bu tahminine yardımcı oluyor mu ? yx
Richard Hardy

@RichardHardy, evet, aynı hipotezi yeni veriler üzerinde test ediyorsunuz. Eğer tutarsa ​​o zaman iyisin. Modeliniz yanlış yazılmışsa, sonuçta başarısız olmalıdır, diğer teşhisleri de kastediyorum. Modelin yeni verilerle çalışmadığını görmelisiniz.
Aksakal

Tamam, daha sonra, örneği model oluşturma için bir alt örneğe ve hipotez testi için bir alt örneğe bölmenin eski eski reçetesi gibi geliyor. Bu düşünceyi zaten OP'ye dahil etmeliydim. Her durumda, bu sağlam bir strateji gibi görünüyor. Örneğin, makroekonomi ile ilgili sorun, aynı modelin neredeyse hiç görülmeyen verilere hiç uymamasıdır (veri oluşturma süreci zaman içinde değiştiği için), bu yüzden başladığımız problemin aynısı devam edecektir. Ancak bu, temelde herhangi bir yöntemin başarısız olduğu bir örnektir, bu yüzden adil bir eleştiri değildir.
Richard Hardy

Bu arada, kesitsel veri ayarında mikroekonomide işe yarayabilir. Şimdilik +1. Öte yandan, bir model mevcut tüm verilere uyduğunda, bu çözüm çalışmaz. Sanırım soruyu yazdığımda böyle düşünüyordum ve başlık sorusunu ele alan cevaplar arıyorum: yanlış tanımlanmış modelden çıkarım.
Richard Hardy

2
Ben senin görüşüne sempati duyuyorum. Ancak örnek "eski" ve "yeni" olarak ayrılır yeni veri toplamaya eşdeğer olduğundan, ikisi arasında büyük bir fark gördüğünüzü anlamıyorum.
Richard Hardy

1

Bir "birleşik prosedür" tanımlayabilir ve özelliklerini araştırabilirsiniz. Basit bir modelden başladığınızı ve basit modelin uymaması durumunda bir, iki veya üç daha karmaşık (veya parametrik olmayan) modelin takılmasına izin verdiğinizi varsayalım. Basit modele uymamaya karar verdiğiniz, ancak diğerlerinden birini (ve hangisini) belirlediğiniz resmi bir kural belirtmeniz gerekir. İlgili tüm hipotezlerin ilgili tüm modellere (parametrik veya parametrik olmayan) uygulanabilmesi için testlere de ihtiyacınız vardır.

Böyle bir kurulumla, karakteristikleri simüle edebilirsiniz, yani, geçersiz hipotezinizin doğru olması durumunda ve birkaç sapma durumunda nihayet reddedildiği. Ayrıca, dahil olan tüm modellerden simüle edebilir ve X, Y veya Z modelinden gelen veriler veya X, Y veya Z modelinin seçildiği model göz önüne alındığında koşullu seviye ve koşullu güç gibi şeylere bakabilirsiniz.

Model seçiminin, elde edilen seviyenin hala peşinde olduğunuz seviyeye çok yakın olması açısından çok fazla zarar vermediğini ve mükemmel değilse gücün iyi olduğunu görebilirsiniz. Veya veriye bağlı model seçiminin gerçekten işleri bozduğunu görebilirsiniz; ayrıntılara bağlı olacaktır (model seçim prosedürünüz çok güvenilirse, şanslar düzgündür ve güç çok güçlü bir şekilde etkilenmeyecektir).

Şimdi bu bir model belirlemek ve sonra verilere bakmak ve "oh, bir başkasına ihtiyacım var" diye karar vermekle aynı şey değil, ama muhtemelen böyle bir yaklaşımın özelliklerinin ne olacağını araştırabileceğiniz kadar yakın. Bu önemsiz değil, çünkü bunu yapmak için bir dizi seçim yapmanız gerekiyor.

Genel açıklama: Uygulanan istatistiksel metodolojiyi ikili olarak "geçerli" ve "geçersiz" olarak sınıflandırmanın yanıltıcı olduğunu düşünüyorum. Hiçbir şey% 100 geçerli değildir çünkü model varsayımları pratikte hiçbir zaman tam olarak geçerli değildir. Öte yandan, "geçersiz" olarak adlandırmak için geçerli (!) Nedenler bulsanız da, biri sözde geçersiz yaklaşımın derinlemesine özelliklerini araştırırsa, bunun hala oldukça iyi çalıştığını öğrenebilir.


Bunun en basit sorunların yanı sıra pratikte gerçekçi olup olmadığını merak ediyorum. Simülasyonların hesaplama maliyeti çoğu durumda yeteneklerimizi hızla aşacaktır, öyle değil mi? Geçerlilik hakkındaki yorumunuz elbette mantıklı. Bununla birlikte, bu basit ama yararlı (muhakememize yardımcı olarak) kavramı olmasaydı, ondan daha fazla kaybolurduk - bu benim bakış açım.
Richard Hardy

Pratikte böyle bir durumun her karşılanmasında bunun yapılması gerektiğini söylemiyorum. Bu daha çok bir araştırma projesi; ancak bir take away mesajı, bence, verilen nedenlerden dolayı, veriye bağlı model seçiminin, aksi takdirde geçerli olabilecek çıkarımları tam olarak geçersiz kılmamasıdır. Bu tür birleşik prosedürler, şu anda düzgün bir şekilde araştırılmamasına rağmen, birçok durumda oldukça iyi çalışabilir.
Lewian

Sanırım bu mümkün olsaydı, zaten kullanımda olurdu. Asıl sorun, verilere bağlı olan çok sayıda modelleme seçeneği nedeniyle fizibilite olmayabilir (ilk yorumuma geri dön). Yoksa orada bir sorun görmüyor musunuz?
Richard Hardy

Literatürde önce yanlış yazım testi / model seçimini ve daha sonra sonucuna bağlı olarak parametrik çıkarımı araştıran garip simülasyon vardır. Sonuçlar bildiğim kadarıyla karışık. "Klasik" bir örnek burada: tandfonline.com/doi/abs/10.1080/…
Lewian

Ama sen haklısın; sürecin her türlü olası modelleme seçeneği ile modellenmesi birçok seçenek gerektirir. Her ne kadar modeller takıldıkları aynı verilerden seçildiğinde talep edebilecek bir şey olmasa da, yine de değerli bir proje olacağını düşünüyorum. Bu arada Aris Spanos, yanlış ifade testinin veya veriler üzerinde model kontrolünün çıkarımın geçersiz kıldığı fikrine karşı çıkıyor. onlinelibrary.wiley.com/doi/abs/10.1111/joes.12200
Lewian
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.