Teori, uyum veya başka bir şeye göre dağılımları seçmek daha mı iyi?


12

Bu felsefi bir soruyla sınırlıdır, ancak daha fazla deneyime sahip olanların dağıtım seçimi hakkında nasıl düşündükleri ile ilgileniyorum. Bazı durumlarda, teorinin en iyi şekilde çalışabileceği açıktır (farelerin kuyruk uzunlukları muhtemelen normal olarak dağılmıştır). Birçok durumda, muhtemelen bir veri kümesini tanımlamak için hiçbir teori yoktur, bu yüzden başlangıçta açıklamak için geliştirilen şey ne olursa olsun, oldukça iyi olan şeylere uyan bir şey mi kullanıyorsunuz? Bunlardan biri ya da diğeri ile gitmenin bazı tuzaklarını hayal edebiliyorum ve sonra elbette, eğer gerçekten bir fikriniz yoksa, sadece ampirik bir dağıtım kullanmanız gereken bir sorun var gibi görünüyor.

Yani gerçekten ne istediğimi tahmin ediyorum: Birisinin bu soruna yaklaşmak / düşünmek için tutarlı bir yolu var mı? Ve bunun iyi bir şekilde tedavi edilmesini önerebileceğiniz kaynaklar var mı?


4
Temel olarak bir kişinin neden bir dağılıma uyduğuna veya üstleneceğine ve neyi temsil etmesi gerektiğine bağlıdır. Bu sitede, gerçekte egzersiz gerçekten istatistiksel problemleri çözdüğü kadar anlamsız (veya daha kötü, aldatıcı) olduğunda verilere veya türetilmiş miktarlara (regresyon kalıntıları gibi) bir dağılıma uymaları gerektiğini düşündükleri birçok soru soruyoruz. endişe var. Aklınızdaki vakaları belki açıklığa kavuşturabilir misiniz?
whuber

1
Merhaba Whuber, yorum için teşekkürler. Olasılıksal risk değerlendirmesi üzerinde biraz çalışmaya başladığımdan, tüm verilerimi dağıtımlara uydurmam gerekiyor ve dağıtım seçiminin nasıl yapıldığına dair daha tutarlı bir görüşe sahip olmamı merak ediyordu. Bu yüzden açıklığa kavuşturmak için, sadece bir dağıtım kullanmanız gereken zamanlarla ve bunun doğru bir şekilde nasıl yapılacağıyla gerçekten ilgileniyorum . Dediğim gibi, bazı vakalar teoriden kolaydı, bazen de en iyi göründüğü için ampirik bir dağılım kullanıyorum , ama karar vermem istediğimden daha gelişigüzel.
HFBrowning

1
Bu ilginç bir solucan tenekesi, çünkü gerçekte yaptığınız şey (bir şekilde soyut olarak) örnekleme belirsizliğini bir hesaplama yoluyla yaymaya çalışıyor. Prosedüre bu yüksek seviyeden bakmanın nedeni, sık sık yapılan temel bir hatayı ortaya çıkarmasıdır: verileri dağıtımlarla değiştirerek, tahmin edilen dağılım parametrelerine belirsizliği dahil edemez. Bunun muhasebesine bazı uygulayıcılar tarafından "ikinci derece" PRA denir. Genel olarak dağıtım uyumu sormak yerine sorunuzu bu konulara odaklanmak için daraltmanızı öneririm.
whuber

1
PRA için kullandığım paket 2. dereceden monte bir carlo ( R'de mc2d paketi), bu yüzden dağıtımlarımı "belirsizlik", "değişkenlik" veya her ikisi olarak ataıyorum . Umarım bu sorunu olabildiğince açıklıyorum. Bununla birlikte, bu soru için asıl amacım daha yüksek bir görüş elde etmekti ve neden ilgilendiğime bağlam vermek için risk değerlendirmesini gündeme getirdim. Ve belki de "bazen bunu yaparsın, bazen de böyle yaparsın" dan daha iyi bir yol yoktur ama birisinin önerileri olmasını umuyordum :) Özellikle ne zaman daha iyi olabileceğini kolayca belirleyemediğim için -
HFBrowning

3
Bu kesinlikle gönderiniz için doğru yer. Düzenlemeleri yaparken sorun yaşadığınızı mı söylüyorsunuz? Bu arada, prosedürlerinizin ampirik dağılımı kullanmadaki belirsizliği nasıl ölçtüğünü merak ediyorum. Ayrıca, herhangi bir parametreyi açıkça tahmin etmemiş olsanız bile, örnekleme değişkenliği ile birlikte gelir (bu, kuyruklarda derin olabilir, çoğu zaman risk değerlendirmelerinde en önemli olanıdır).
whuber

Yanıtlar:


6

Kesinlikle, söz konusu verilerin ne olduğuna ve bunlar hakkında ne kadar bilgi sahibi olduğunu veya ne almak istediğine bağlıdır. @Whuber'ın son zamanlarda sohbette dediği gibi , "Fiziksel yasalar söz konusu olduğunda, neredeyse her zaman verileri modellemek için uygun bir yol hakkında makul tahminler yapabilirsiniz." (Bunun onun benden daha doğru olduğundan şüpheliyim! Ayrıca, umarım bu, orijinal bağlamından yanlış uygulanamaz ...) Sosyal bilimlerde gizli yapı modellemesi gibi durumlarda, genellikle odaklanmak yararlı olur daha az bilinen fenomenlerin nüanslarını anlamanın bir yolu olarak ampirik dağılımlar. Normal bir dağılımı varsaymak ve uyumsuzluğu genel olarak ihmal edilebilir olarak reddetmek biraz daha kolaydır ve aykırı değerlerin yanlış olduklarından daha fazla gerekçe göstermeden reddetmek oldukça ''

Tabii ki, bu davranışın çoğu, kişinin uygulamak istediği analizlerin varsayımları tarafından motive edilir. Çoğu zaman en ilginç sorular, değişkenlerin dağılımlarının tanımlanması veya sınıflandırılmasının çok ötesine geçer. Bu aynı zamanda belirli bir senaryo için doğru cevabı da etkiler; ve başka şekilde yöntemler de mükemmel olmadığından , özellikle iyi uymadığında (veya çok kötü uyum sağlamadığında) normal bir dağılım varsaymanın nedenleri (örneğin, ihtiyaçları) olabilir . Bununla birlikte, bunu alışkanlık olarak yapma riski, tek bir değişkenin dağılımı hakkında sorabileceği ilginç soruları sormayı unutmaktır.

Örneğin, servet ve mutluluk arasındaki ilişkiyi düşünün: insanların genellikle sormak istediği popüler bir soru. Servetin bir gama (Salem & Mount, 1974) veya genelleştirilmiş beta (Parker, 1999) dağılımını izlediğini varsaymak güvenli olabilir , ancak mutluluğun normal olarak dağıtıldığını varsaymak gerçekten güvenli midir? Gerçekten, sadece orijinal soruyu cevaplamak için bunu varsaymak gerekli olmamalı, ancak insanlar bazen cevap yanlılığı ve kültürel farklılıklar gibi potansiyel olarak önemli sorunları görmezden geliyor. Örneğin, bazı kültürler daha fazla veya daha az aşırı tepki verme eğilimindedir (@ chl'nin Likert maddelerinden oluşan anketlerin Faktör analizi hakkındaki cevabı ) ve normlar olumlu ve olumsuz duyguların açık ifadesine göre değişir (Tucker, Ozer, Lyubomirsky ve Boehm, 2006 ) . Bu, çarpıklık ve basıklık gibi ampirik dağılım özelliklerindeki farklılıkların önemini artırabilir. Zenginlik ilişkisini Rusya, Çin ve ABD'deki öznel mutluluk derecelendirmeleriyle karşılaştırsaydım, muhtemelen mutluluk derecelendirmelerinin merkezi eğilimlerindeki farklılıkları değerlendirmek isterdim. Bunu yaparken, tek yönlü bir ANOVA uğruna her biri arasında normal dağılımlar yapmaktan çekinmeyin ( ihlallere karşı oldukça sağlam olsa bile)) Çin'de "şişman kuyruklu" bir dağılım, Rusya'da olumlu eğimli bir dağılım ve çeşitli kültüre bağlı normlar ve yanıt yanlılıkları nedeniyle ABD'de olumsuz eğimli bir dağılım beklemeniz için bir neden olduğunda. Bir anlamlılık testi uğruna (muhtemelen sadece etki büyüklüklerini dürüstçe rapor etmeyi tercih etsem bile), parametrik olmayan bir yöntem kullanmayı tercih ederim ve her popülasyondaki öznel mutluluğu bireysel olarak anlamak için, dağıtımı ampirik olarak tanımlamak yerine, onu basit bir teorik dağılım olarak kategorize etmeye çalışmak ve herhangi bir uyumsuzluğu görmezden gelmek ya da parlatmak. Bu bir bilgi kaybı IMO'su.

Kaynaklar
- Parker, SC (1999). Kazançların dağıtımı için bir model olarak genelleştirilmiş beta. Ekonomi Mektupları, 62 (2), 197-200.
- Salem, ABZ ve Mount, TD (1974). Uygun bir tanımlayıcı gelir dağılımı modeli: Gama yoğunluğu. Econometrica, 42 (6), 1115-1127.
- Tucker, KL, Özer, DJ, Lyubomirsky, S. ve Boehm, JK (2006). Ölçüm ölçeğinin yaşam ölçeğinden memnuniyeti için test edilmesi: Ruslar ve Kuzey Amerikalıların karşılaştırılması. Sosyal Göstergeler Araştırması, 78 (2), 341-360. Http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf adresinden erişildi .


Cevabınız için teşekkürler, Nick. Örneği özellikle yararlı buldum.
HFBrowning

3

fare kuyruğu uzunlukları muhtemelen normal olarak dağıtılır

Bundan şüphe duyarım. Normal dağılımlar birçok bağımsız katkı etkisinden kaynaklanır. Biyolojik sistemler birbiriyle etkileşen birçok geri besleme döngüsünden oluşur (birbirine bağlı çarpma etkileri). Ayrıca genellikle diğerlerinden daha kararlı olan bazı durumlar vardır (yani çekiciler). Bu yüzden bir tür uzun kuyruklu veya multimodal dağılım muhtemelen kuyruk uzunluklarını tarif edecektir. Aslında, normal dağılım biyolojik her şeyi tanımlamak için muhtemelen çok zayıf bir varsayılan seçimdir ve yanlış kullanımı o literatürde bildirilen birçok "aykırı değerden" sorumludur. Doğada bu dağılımın yaygınlığı bir efsanedir ve sadece "mükemmel daireler gerçekten var değildir" anlamında değildir. Ancak ortalama ve SD'nin özet istatistikler olarak işe yaramadığı izlenimi yoktur.

Özellikle, "verilere güvenmenin" ne zaman daha iyi olabileceğini kolayca belirleyemediğim için (sahip olduğum bu bir korkak sağ çarpık veri kümesi gibi, ancak verileri veren n = 160 yeterli görünmüyor) ve ampirikle devam et veya bir meslektaşım ısrar ediyor gibi bir Beta dağıtımına sığdırmak. Bunu sadece [0,1] ile sınırlı olduğu için seçtiğinden şüphelendim. Her şey gerçekten ad hoc görünüyor. Umarım bu niyetimi netleştirir!

Ampirik dağılımların yerleştirilmesi, temel süreçte teorik dağılımların geliştirilmesini kolaylaştıran ipuçları sağlar. Daha sonra teorik dağılım, teoriye yönelik kanıtları test etmek için ampirik dağılımlarla karşılaştırılır.

Amacınız mevcut sonuçlara dayanarak belirli sonuçların olasılığını değerlendiriyorsa ve bu belirli dağılımı seçmek için bir nedeniniz yoksa, sanırım ek varsayımların nasıl yararlı olabileceğini görmüyorum. Bunun yerine konuları karıştırıyor gibi görünüyor.

Ancak, verileri tanımlamaya veya özetlemeye çalışıyorsanız, o zaman dağılıma uymak mantıklı olabilir.


1
Sadece bir cevabı kabul edebilsem de, normal dağılımların gerçekte nasıl ortaya çıktığını gösterdiğiniz için teşekkür etmek istedim. Beni bir şeyin teoriye dayanmasının ne anlama geldiğini daha dikkatli düşünmeye zorladı.
HFBrowning

3

Bazı durumlarda, teorinin en iyi şekilde çalışabileceği açıktır (farelerin kuyruk uzunlukları muhtemelen normal olarak dağılmıştır).

Kuyruk uzunlukları normalde dağılmaz.

Normal dağılımların sıfır değerlerin negatif değer alma olasılığı vardır; kuyruk uzunlukları yoktur.

George Box'ın ünlü çizgisi , " tüm modeller yanlış, ancak bazıları yararlı " noktasını oldukça iyi hale getiriyor. Makul bir şekilde normallik (sadece yaklaşık normallikten ziyade) iddia edebileceğimiz vakalar gerçekten çok nadirdir, neredeyse efsane yaratıklar, seraplar zaman zaman neredeyse gözün köşesinden dışarı fırlar.

Birçok durumda, muhtemelen bir veri kümesini tanımlamak için hiçbir teori yoktur, bu yüzden başlangıçta açıklamak için geliştirilen şey ne olursa olsun, oldukça iyi olan şeylere uyan bir şey mi kullanıyorsunuz?

İlgilendiğiniz miktarların seçime özellikle duyarlı olmadığı durumlarda (dağıtımın geniş özellikleri bilinenlerle tutarlı olduğu sürece), evet, sadece oldukça iyi uyan bir şey kullanabilirsiniz.

Daha fazla hassasiyetin olduğu durumlarda, 'sadece uygun olanı kullanmak' tek başına yeterli değildir. Belirli varsayımlar yapmayan bazı yaklaşımları kullanabiliriz (belki de permütasyon, önyükleme veya diğer yeniden örnekleme yaklaşımları veya sağlam prosedürler gibi dağıtımsız prosedürler). Alternatif olarak, simülasyon yoluyla dağıtım varsayımına olan duyarlılığı ölçebiliriz (aslında bunun genellikle iyi bir fikir olduğunu düşünüyorum).

Eğer gerçekten bir fikriniz yoksa, belki de sadece ampirik bir dağılım kullanmalısınız.

Soruna dayalı bir çıkarım olarak, ampirik dağılımlara dayalı bir çıkarım olarak kesinlikle birçok soruna uygun bir yasal yaklaşım (permütasyon / randomizasyon ve önyükleme iki örnektir) tarif etmem.

birisinin bu soruna yaklaşmak / düşünmek için tutarlı bir yolu var mı?

genel olarak, birçok durumda, aşağıdaki gibi soruları dikkate almaya eğilimliyim:

1) Bu formdaki veriler için araçların (veya diğer yer türü miktarlarının) nasıl davrandığı hakkında ne anlıyorum *?

* (ister teoriden, ister bu veri türünün deneyiminden veya uzman tavsiyesinden veya gerekirse verilerin kendisinden, ister ilgilenmesi gereken sorunları taşır))

2) Yayılma hakkında (varyans, IQR, vb.) - nasıl davranır?

3) Diğer dağıtım özellikleri (sınırlar, çarpıklık, ayrıklık vb.)

4) Peki ya bağımlılık, nüfusların heterojenliği, bazen çok tutarsız değerlere eğilim, vb.

Bu tür bir değerlendirme, normal bir model, bir GLM, başka bir model veya bazı sağlam veya dağıtımsız bir yaklaşım (sıra tabanlı prosedürler dahil olmak üzere önyükleme veya permütasyon / rasgele yaklaşımlar) arasında bir seçim yönlendirebilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.