Yanlış Tanımlama Altında İstatistiksel Çıkarım


14

İstatistiksel çıkarımın klasik muamelesi, doğru bir şekilde belirlenmiş bir istatistikselin kullanıldığı varsayımına dayanır. Yani, gözlenen verileri oluşturan , : nin bir parçasıdır. Ancak, çoğu durumda bunun gerçekten doğru olduğunu kabul edemeyiz. Doğru belirlenmiş varsayımı bıraktığımızda istatistiksel çıkarım prosedürlerinde ne olacağını merak ediyorum.y M P (Y) M ={ P θ (Y):θΘ}P(Y)yM

P(Y)M={Pθ(Y):θΘ}

White 1982 tarafından , yanlış tahmin kapsamındaki ML tahminleri üzerine bazı çalışmalar buldum. Burada, maksimum olasılık tahmin edicisinin ile istatistiksel model içindeki tüm dağılımlardan KL sapmasını en aza indiren \ mathbb {P} ^ * . P

Pθ1=argminPθMKL(P,Pθ)
P

Güven belirleyici tahmincilere ne olur? Güven seti tahmincilerini tekrar özetleyelim. Let δ:ΩY2Θ olduğu bir dizi tahmin edicisi, ΩY örnek alan ve bir 2Θ parametre alanı üzerinden güç grubu Θ . Bilmek istediğimiz, \ delta tarafından üretilen setlerin δgerçek dağıtımı P , yani

P(P{Pθ:θδ(Y)}):=A.

Ancak, elbette gerçek dağıtımı bilmiyoruz P . Doğru belirtilen varsayım bize \ mathcal {M} içinde \ mathbb {P} ^ * \ olduğunu belirtir PM. Bununla birlikte, modelin hangi dağılımı olduğunu hala bilmiyoruz. Ancak,

infθΘPθ(θδ(Y)):=B
, A olasılığı için bir alt sınırdır A. Denklem B , bir güven seti tahmincisi için güven seviyesinin klasik tanımlamasıdır.

Doğru olarak belirtilen varsayımı düşürürsek, aslında ilgilendiğimiz terim için daha düşük bir sınır değildir . Gerçekten de, modelin yanlış tanımlandığını varsayarsak, bu en gerçekçi durumlar için tartışmalı bir durumdur, 0'dır, çünkü gerçek dağılım , istatistiksel modelinde bulunmaz .A ABAAMPM

Diğer bir bakış açısına düşün olabilir modeli misspecified zaman ile ilgilidir. Bu daha spesifik bir soru. Mu modeli misspecified eğer hala bir anlama sahiptir. Değilse, neden parametrik istatistiklerle uğraşıyoruz?BBB

Sanırım White 1982 bu konularda bazı sonuçlar içeriyor. Ne yazık ki, matematiksel arka plan eksikliğim, orada yazılanları anlamamı engelliyor.


2
Bu soruyu + yanıt istatistikleri buldum . Stackexchange.com/questions/149773/… . Çok benzer. Bu kitapları okumak muhtemelen bu sorunun cevabına yol açacaktır. Bununla birlikte, bunu zaten yapmış olan birisinin özetinin çok yararlı olacağını düşünüyorum.
Julian Karls

2
Bu sorunun daha fazla ilgi göstermediği utanç verici - Julian'ın bağlantısının bazı güzel materyalleri var, ancak konuyla ilgili daha fazla düşünce duymak isterim.
Florian Hartig

1
Genellikle yapılan, test istatistiğinin dağılımının, istatistiksel modelin doğru olduğu varsayılarak sıfır hipotezi altında hesaplanmasıdır. P - değeri yeterince düşükse, bunun şans eseri veya null değerinin yanlış olduğu sonucuna varılır. Ancak model yanlış belirtilmişse, bu da mantıksal olarak çizilebilecek bir sonuçtur. Aynısı diğer tüm çıkarımlar için de geçerlidir: modelin yanlış belirtilmiş olması alternatif bir sonuç verir. Ben bunu Spanos'un çalışmasını okumaya dayalı olarak düşünüyorum.
Toby

Esasen, tüm modeller yanlış. Yanlış ifadenin nicel olarak geliştirilmesine yardımcı olur. Bir görüntü için yanlış tanımlama yanlış kayıttır. Örneğin, yeterli sayıda sayım için sayım hatası (örneğin, radyoaktif bozunmadan) için, hata Poisson dağıtılır. Bu durumda, bir zaman serisinin yanlış kaydı görüntünün kare kökünün y ekseni hatasıdır ve gürültü aynı birimlerde olur. Burada örnek .
Carl

Yanıtlar:


2

Let Rasgele değişkenlerin bir dizinin bir gerçekleşme olduğu varsayılmaktadır gözlemlenmiş olması ortak olasılık yoğunluk fonksiyonu ile sigma-sonlu ölçü ile ilgili olarak tarif . yoğunluğuna Veri Üretme Süreci (DGP) yoğunluğu denir.y1,,ynY1,,Ynpeνpe

Araştırmacının olasılık modelinde bir parametre vektörü tarafından endekslenen olasılık yoğunluk fonksiyonlarının bir koleksiyonudur . içindeki her yoğunluğun ortak bir sigma-sonlu ölçüye göre tanımlanmış olduğunu varsayalım (örneğin, her yoğunluk aynı örnek uzay ile bir olasılık kütle fonksiyonu olabilir ).M{p(y;θ):θΘ}θMνS

Verileri gerçekten oluşturan yoğunluğunu kavramsal olarak verilerin olasılık modelinden farklı tutmak önemlidir . Klasik istatistiksel tedavilerde bu kavramların dikkatlice ayrılması ya ihmal edilir, yapılmaz ya da en başından itibaren olasılık modelinin doğru bir şekilde belirtildiği varsayılır.pe

ile ilgili olarak doğru bir şekilde tanımlanmış modeli -neredeyse her yerde nin olduğu bir model olarak tanımlanır . Tüm göre misspecified olduğu olasılık modeli doğru belirtilmezse durumda, bu karşılık gelir.MpepeM νMpe

Olasılık modeli doğru belirtilirse, o zaman var olan bir parametre alanı şekilde -neredeyse her. Böyle bir parametre vektörüne "gerçek parametre vektörü" denir. Olasılık modeli yanlış tanımlanmışsa, gerçek parametre vektörü mevcut değildir.θΘpe(y)=p(y;θ) ν

White'ın model yanlış tanımlama çerçevesi içinde amaç, değerini en aza indiren parametresini bulmaktır. miktar kompakt parametre alanı üzerinden . Benzersiz bir sıkı küresel minimizer, varsayılmaktadır , beklenen değerin üzerinde iç kısmında yer almaktadır . Olasılık modelinin doğru bir şekilde belirtildiği şanslı durumda, "gerçek parametre değeri" olarak yorumlanabilir.θ^n^n(θ)(1/n)i=1nlogp(yi;θ)Θθ^n nΘΘθ

Olasılık modelinin doğru bir şekilde belirtildiği özel durumda, tanıdık maksimum olabilirlik tahminidir. Olasılık modelinin doğru bir şekilde belirtildiğine dair mutlak bir bilgimiz yoksa, yarı maksimum olasılık tahmini denir ve hedef değerini tahmin etmektir . Şanslı olursak ve olasılık modeli doğru bir şekilde belirtilirse, yarı maksimum olabilirlik tahmini, bilinen maksimum olabilirlik tahminine özel bir durum olarak azalır ve gerçek parametre değeri olur.θ^n θ nθ^nθθ

Beyaz'ın (1982) çerçevesi içindeki tutarlılık , nın mutlaka gerçek parametre vektörü olmasını gerektirmeden ye yakınsamaya karşılık gelir . White çerçevesinde, by tarafından üretilen setlerin TRUE dağılımını P * içerme olasılığını asla tahmin edemeyiz. Bunun yerine, by tarafından üretilen setlerin yoğunluğu tarafından belirtilen dağılımı içermesi olasılığının olasılığı olan P ** olasılık dağılımını her zaman tahmin ederiz .θθp(y;θ)

Son olarak, model yanlış tanımlaması hakkında birkaç yorum. Yanlış tanımlanmış bir modelin son derece yararlı ve çok öngörücü olduğu örnekler bulmak kolaydır. Örneğin, varyansı son derece küçük olmakla birlikte ortamdaki gerçek artık hata Gauss olmayan bir Gauss rezidüel hata terimi olan doğrusal olmayan (hatta lineer) bir regresyon modelini düşünün.

Doğru şekilde belirlenmiş bir modelin yararlı olmadığı ve öngörücü olmadığı örnekler bulmak da kolaydır. Örneğin, yarın kapanış fiyatının bugünkü kapanış fiyatının ve son derece büyük bir varyansa sahip bazı Gauss gürültüsünün ağırlıklı bir toplamı olduğunu tahmin eden hisse senedi fiyatlarını tahmin etmek için rastgele bir yürüyüş modeli düşünün.

Model yanlış tanımlama çerçevesinin amacı model geçerliliğini sağlamak değil, güvenilirliği sağlamaktır. Yani, parametre tahminlerinizle, güven aralıklarınızla, hipotez testlerinizle ve benzerlerinizle ilişkili örnekleme hatasının, küçük veya büyük miktarda model yanlış tanımlamasına rağmen doğru şekilde tahmin edildiğinden emin olun. Yarı-maksimum olabilirlik tahmin merkezli asimptotik normal bir kovaryans matrisi tahmin negatif log olasılık fonksiyonunun birinci ve ikinci türevleri hem bağlıdır ki. Şanslı olduğunuz ve modelin doğru olduğu özel durumda, tüm formüller, amacın "gerçek" parametre değerlerini tahmin etmek olduğu bilinen klasik istatistiksel çerçeveye indirgenir.θ


3

İlk olarak, bunun gerçekten büyüleyici bir soru olduğunu söyleyeyim; onu göndermek için Julian'a kudos. Gördüğüm kadarıyla, sen bu tür bir analiz karşılaştıkları temel sorun herhangi bir alt dizisini herhangi çıkarım olmasıdır modelinde olasılık önlemlerinin kısıtlı sınıfının üzerinde bir çıkarım olduğunu Sorduğunuz başlamak nedenle zaman modelin altında gerçek modeli çıkarma olasılıkları, bu, başlangıçta yanlış belirtinin olup olmadığı konusunda önemsiz bir soruya dönüşür. Beyaz, uygun bir mesafe metriği kullanarak modelin gerçek olasılık ölçüsüne ne kadar yaklaştığını inceleyerek bunun üstesinden gelir. Bu onu için en yakın proxy olan olasılık ölçüsüne götürürΘMPθ1Piçinde . bakma yöntemi , güven kümeleriyle ilgili sorunuzla ilgili ilginç miktarlar vermek üzere genişletilebilir.MPθ1

Buna gelmeden önce, ve değerlerinin analizinizde matematiksel olarak iyi tanımlandığını (yani, var olduklarını) ve yine de bir anlamı olduğunu belirtmek gerekir; sadece çok faydalı bir anlam olmak zorunda değildir. Analizinizdeki değeri iyi tanımlanmıştır; çıkarılan olasılık kümesi kümesinin gerçek olasılık ölçüsünü içermesi gerçek olasılıktır. Doğru olduğu ima , bu miktar mlama durumunda önemsiz olduğu anlamına gelir. Beyaz'ın liderliğini takiben, miktara bakmak belki de daha ilginçtir:ABAPMA=0

AA(Y)P(Pθ1{Pθ|θδ(Y)}).

Burada iç oluşumunu modelindeki en yakın proxy'si ile değiştirdik , böylece . Şimdi, gerçek olasılık ölçüsünün, çıkarılan olasılık kümesi kümesinin, modeldeki gerçek olasılık ölçüsü için en yakın vekili içerdiğini soruyoruz. Modelin yanlış tanımlanması artık bu miktarı önemsiz hale getirmiyor, çünkü yapım aşamasında .M P M P θ 1 MPMPMPθ1M

White, MLE'nin tutarlı bir tahmincisi olduğunu göstererek yanlış ifadeyi analiz eder . Bu değerlidir çünkü yanlış bir tanımlama olsa bile, hala modeldeki gerçek olasılık ölçüsüne en yakın proxy'yi doğru bir şekilde tahmin ettiğinizi söyler. Güven kümeleriyle ilgili doğal bir takip sorusu, belirli bir çıkarım yönteminin delta'nın miktarına herhangi bir alt sınır veya olarak sınırla sonuçlanan herhangi bir yakınsama δ A nPθ1δAn. (Pozitif) bir alt sınır veya (pozitif) yakınsama sonucu oluşturabilirseniz, bu, yanlış tanımlama olsa bile, en yakın proxy'yi bazı olasılık düzeyleriyle doğru bir şekilde tahmin ettiğinizi garanti etmede size bir değer verir. White tarafından yapılan analiz türünü izleyerek bu sorunları araştırmanızı tavsiye ederim.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.