Layman'ın ifadesi ile model ile dağılım arasındaki fark nedir?


28

Vikipedi'de tanımlanan cevaplar (tanımlar), yüksek matematik / istatistik bilgisine sahip olmayanlar için tartışmalı bir parça.

Matematiksel olarak, istatistiksel bir model genellikle bir çift ( ) olarak düşünülür , burada olası gözlemler kümesidir, yani örnek alanı ve bir olasılık dağılımları kümesidir. üzerinde . S P SS,PSPS

Olasılık ve istatistikte, bir olasılık dağılımı, rastgele bir deney, anket veya istatistiksel çıkarım prosedürünün olası sonuçlarının her bir ölçülebilir alt kümesine olasılık verir. Örnekleme alanı sayısal olmayan, dağılımın kategorik bir dağıtım olduğu örnekler bulunur.

Ben bir hobi olarak bu alanda çok ilgilenen bir lise öğrencisiyim ve şu anda a statistical modelve a arasındaki farklarla mücadele ediyorum.probability distribution

Şimdiki ve çok ilkel anlayışım şudur:

  • istatistiksel modeller ölçülen dağılımları yaklaşık olarak hesaplamak için kullanılan matematiksel girişimlerdir.

  • olasılık dağılımları, rastgele bir olayın olası her sonucuna olasılıklar atayan deneylerden yapılan açıklamalarla ölçülür.

konfüzyon, literatürde birbirlerinin yerine - veya en azından çok benzer durumlarda kullanılan "dağılım" ve "model" kelimelerini görme eğilimi ile daha da artmaktadır (örneğin, binom modeli vs binom modeli)

Birisi tanımlarımı doğrulayabilir / düzeltebilir ve belki de bu kavramlara daha resmi bir yaklaşım (hala basit ingilizce anlamında) yaklaşımı önerebilir mi?


1
Alt satır: İstatistiksel bir model ile olasılık dağılımı arasında kesinlikle bir fark yoktur. Her istatistiksel model bir olasılık dağılımını tanımlar ve bunun tersi de geçerlidir. Seni uzun metinlerle karıştırmalarına izin verme.
Cagdas Ozgenc

3
@Cagdas Soruda belirtilen tanıma göre , bir fark var: İstatistiksel bir model olasılık dağılımlarının belirli organize bir koleksiyonudur. Sadece bir olasılık dağılımı kanıt olduğunda, o zaman artık istatistik yapmıyoruz, çünkü istatistiksel analizin amacı başarıldı: dağılımı biliyoruz!
whuber

2
@cagdas Wikipedia, şirketini en iyi metinlerle tutar. Buna tamamen katılıyorum.
whuber

4
@CagdasOzgenc, neden kesin ve kesin iddialarınızı kanıtlamanız için bazı kanıtlar sunmuyor? Otorite tarafından kanıtlama nadiren kabul edilir (eğer varsa). E-posta olmadan, verimli bir tartışma yapmak zordur (mümkün değilse); asılsız iddialar nadiren gürültüden çok daha fazladır.
Richard Hardy,

2
@RichardHardy Soru "meslekten olmayan terimler" diye sordu ve aldığı cevaplara bakın. Afedersiniz, ancak birileri göstermeye karar verdiğinden dolayı, öğrencilerin acı çektiğini görmekten nefret ederim. Cevap 2 + 2 = 4 kadar basit ve 20 sayfalık yetkili bir referans gerektirdiğini sanmıyorum.
Cagdas Ozgenc

Yanıtlar:


25

Olasılık dağılımı , rastgele bir değişkeni tanımlayan matematiksel bir işlevdir. Biraz daha kesin olarak, olasılıkları sayılara tahsis eden bir fonksiyondur ve çıktısı olasılık aksiyomlarına uymak zorundadır .

İstatistiksel model, olasılık olaylarını kullanarak bazı fenomenlerin matematiksel terimlerle ilgili soyut, idealleştirilmiş bir açıklamasıdır. Wasserman'dan alıntı (2013):

Bir istatistiksel model bir dağılım kümesidir (veya yoğunlukları veya regresyon fonksiyonları). Bir parametrik model bir dizi parametre sonlu sayıda parametreli edilebilir. [...] fFF

Genelde parametrik bir model şeklini alır.

F={f(x;θ):θΘ}

burada , uzaydaki parametre parametresinde değer alabilen bilinmeyen bir parametredir (veya parametre vektörüdür) . Eğer bir vektör ama biz sadece bir bileşeni ilgilenen edilir , biz kalan parametreleri diyoruz sıkıntı parametreleri . Bir parametrik olmayan bir model , bir dizi parametre sonlu sayıda parametreli edilemez.Θ θ θ Fθ ΘθθF

Çoğu durumda dağılımları model olarak kullanırız ( bu örneği kontrol edebilirsiniz ). Binom dağılımını , madeni para atma serilerindeki kafa sayısı modeli olarak kullanabilirsiniz . Bu durumda, bu dağılımın basitleştirilmiş bir şekilde fiili sonuçları tanımladığını varsayıyoruz. Bu, bunun böyle bir olguyu nasıl tarif edebileceğinizin tek yolu olduğu anlamına gelmez, ne binom dağılımının sadece bu amaç için kullanılabilecek bir şey olduğu anlamına gelmez. Model bir veya daha fazla dağılım kullanabilirken, Bayesyen modeller de önceki dağılımları belirtir.

Daha resmi olarak bu McCullaugh (2002) tarafından tartışılmaktadır:

Halen kabul edilmiş teorilere göre [Cox ve Hinkley (1974), Bölüm 1; Lehmann (1983), Bölüm 1; Barndorff-Nielsen ve Cox (1994), Bölüm 1.1; Bernardo ve Smith (1994), Bölüm 4] istatistiksel bir model, numune alanı üzerindeki olasılık dağılımları kümesidir . Bir istatistiksel model bir parametredir parametreli bir işlev ile birlikte ayarlanmış , her bir parametre noktasına olan atar bir olasılık dağılımı üzerinde . Burada , ait tüm olasılık dağılımlarının kümesidir : Θ P : Θ P ( S ) θ Θ P θ S P ( S ) S P : Θ P ( S ) S Θ P ( S )SΘP:ΘP(S)θΘPθSP(S)S . Aşağıdakilerin çoğunda, modelin işlevini ve ilgili dağıtım olarak ayırt etmek önemlidir. .P:ΘP(S)PΘP(S)

Bu yüzden istatistiksel modeller verileri kendi terimleriyle tanımlamak için olasılık dağılımlarını kullanır. Parametrik modeller ayrıca sonlu parametre seti açısından da açıklanmaktadır.

Bu, bütün istatistiksel yöntemlerin olasılık dağılımına ihtiyaç duyduğu anlamına gelmez. Örneğin, doğrusal regresyon genellikle normallik varsayımı olarak tanımlanır , ancak aslında normallikten ayrılmak oldukça zordur ve güven aralıkları ve hipotez testleri için hataların normallikliği varsayımına ihtiyacımız vardır. Dolayısıyla, regresyonun çalışması için böyle bir varsayıma ihtiyacımız yok, ancak tam olarak istatistiksel modeli tanımlamak için onu rastgele değişkenler olarak tanımlamamız gerekiyor.bu yüzden olasılık dağılımına ihtiyacımız var. Bunu yazıyorum çünkü insanların sık sık verilerini almak için regresyon modelini kullandıklarını söyleyerek duyabilirsiniz - çoğu durumda, şartlı ısrar etmekten ziyade, bazı parametreleri kullanarak hedef değerler ve öngörücüler arasındaki doğrusal ilişki açısından verileri tanımladıkları anlamına gelir. normallik.


McCullagh, P. (2002). İstatistiksel model nedir? İstatistiklerin yıllıkları, 1225-1267.

Wasserman, L. (2013). Tüm istatistikler: İstatistiksel çıkarımda kısa bir kurs. Springer.


4
@ JCLeitão bu yüzden bildirimi ekledim;) Klasik OLS sadece çizgiyi yerleştirmekle ilgilidir. Normallik varsayımları sadece gürültü ile ilgilidir, temel fikir E (y) yi X'in lineer bir fonksiyonu olarak modelliyoruz. Normallik, güven aralıkları ve test için gereklidir, ancak regresyon çizgiye uymakla ilgilidir ve hatalar daha az önemlidir. (Gevşek konuşma).
Tim

Cevabınız için teşekkür ederim. Özetlemek için 2 özlü tanım verebilir misiniz? (ayrıca son satırı anlamıyorum In much of the following, it is important to distinguish between the model as a function and the associated set of distributions) Sadece aynı terimi paylaşan iki anlam arasındaki doğal belirsizlik hakkında bir yorum mu yapıyorsun modelyoksa bir şeyleri özlüyor muyum?
AlanSTACK

@Alan iki özlü tanım ilk iki paragrafta verilmiştir, ancak teklif ve referanslarda daha katı olanı - belirsiz olanı açıklığa kavuşturabilir misiniz? Son alıntı satırında olduğu gibi: temel olarak modelin olasılık dağılımları ve parametreleri açısından tanımlandığını ve bu iki yönü olduğunu hatırlamakta fayda var, bazen onları ayırt etmek iyidir. Alıntı yapılan makalenin titizlikle tartışılması için tavsiye ederim (link altında serbestçe bulunur).
Tim

8

bir bilet seti olarak düşünün . Bir bilete bir şeyler yazabilirsin. Genellikle bir bilet gerçek dünyadaki bazı kişilerin adı veya “temsil ettiği” veya “modelleri” olan bir nesne ile başlar. Her bir bilette başka şeyler yazmak için çok fazla boş alan var.S

Her bir biletin istediğiniz kadar kopyasını alabilirsiniz. Bu gerçek dünya popülasyonu veya süreci için bir olasılık modeli her biletin bir veya daha fazla kopyasını almak, bunları karıştırmak ve bir kutuya koymaktan ibarettir. Siz - analist - bu kutudan rastgele bir bilet çekme sürecinin okuduğunuz şeyin tüm önemli davranışlarını taklit ettiğini belirleyebilirseniz, o zaman bu kutuyu düşünerek dünya hakkında çok şey öğrenebilirsiniz. Bazı biletler kutuda diğerlerinden daha fazla sayıda olabileceğinden, çekilme şansları farklı olabilir. Olasılık teorisi bu fırsatları araştırıyor.P

Ne zaman sayılar bilet yazılır (tutarlı bir şekilde), onlar (olasılık) dağılımları yol açar. Bir olasılık dağılımı sadece numaralar herhangi bir aralıkta olması bir kutu içinde bilet oranını tarif eder.

Genelde dünyanın nasıl davrandığını tam olarak bilmediğimiz için, biletlerin göreceli farklı frekanslarda göründüğü farklı kutuları düşünmemiz gerekir. Bu kutuların kümesi: . Dünyayı kutulardan birinin davranışıyla yeterince tanımlanmış olarak . Çıkardığınız biletlerde gördüklerinize dayanarak, hangi kutuya ait olduğuna dair makul tahminlerde bulunmak sizin hedefinizdir.PPP


Örnek olarak (pratik ve gerçekçi olan, bir ders kitabı oyuncağı değil), bir kimyasal reaksiyonun oranını sıcaklığa bağlı olarak çalıştığınızı varsayalım . Kimya teorisinin, ile derece arasındaki sıcaklık aralığında , hızın sıcaklıkla orantılı olduğunu tahmin ettiğini varsayalım .0 100y0100

Sen hem de bu reaksiyonu okumayı planlayan ve her sıcaklığında birkaç gözlem yaparak, derece. Bu nedenle çok, çok fazla sayıda kutu oluşturursunuz. Her kutuyu biletlerle dolduracaksın. Her birine yazılmış bir oran sabiti var. Herhangi bir kutudaki tüm biletler üzerinde yazılı aynı sabit orana sahiptir. Farklı kutular farklı oran sabitleri kullanır. 1000100

Herhangi bir biletin üzerine yazılan oran sabitini kullanarak, oranı ve oranı derece olarak : bu ve arayın . Fakat bu henüz iyi bir model için yeterli değil. Kimyacılar ayrıca hiçbir maddenin saf olmadığını, hiçbir miktarın tam olarak ölçülmediğini ve diğer gözlemsel değişkenlik biçimlerinin ortaya çıktığını da biliyor. Bu "hataları" modellemek için biletlerinizin çoğunu çok ama çok alıyorsunuz. Her kopyada ve değerlerini değiştirirsiniz . Birçoğunda onları biraz değiştirirsiniz. Çok azında, onları çok değiştirebilirsin. Her sıcaklıkta gözlemlemeyi planladığınız kadar değiştirilmiş değer yazarsınız. Bu gözlemler mümkün olanı temsil eder100 y 0 y 100 y 0 y 1000100y0y100y0y100denemenizin gözlemlenebilir sonuçları. Kutunun içine bu biletlerin her tür set go: Bir olan olasılık modeli ne için olabilir Belirli bir ücret sabiti için gözlemleyin.

Ne yapmak gözlemlemek o kutuyu bir bilet çizerek modellenmiştir ve sadece orada yazılı görüşlerini okuma. veya değerinin altında yatan (gerçek) değerleri . (True) rate sabitini okuyamazsınız. Bunlar denemeniz tarafından karşılanmıyor.y 100y0y100

Her istatistiksel model, bu (varsayımsal) kutulardaki biletlerle ilgili bazı varsayımlarda bulunmalıdır. Örneğin, ve in değerlerini değiştirdiğinizde , bunu her ikisinden birinin (bir bütün olarak, kutunun içinde) tutarlı bir şekilde artırmadan veya tutarlı bir şekilde azaltmadan yaptınız: bu sistematik bir önyargı şeklidir .y 100y0y100

Her bilete yazılan gözlemler sayı olduğundan, olasılık dağılımına neden olurlar. Kutular hakkında yapılan varsayımlar, tipik olarak sıfıra çıkmaları gerekip gerekmediği, simetrik olması, "çan eğrisi" şekline sahip olması veya ilişkisiz olması gibi, bu dağılımların özellikleri açısından ifade edilir.


Orada gerçekten hepsi bu. İlkel on iki tonluk bir ölçeğin tüm Batı klasik müziğine yol açtığı gibi, bilet içeren kutulardan oluşan bir koleksiyon son derece zengin ve karmaşık şekillerde kullanılabilecek basit bir konsepttir. Bir madeni para çevirmeden video kitaplığına, Web sitesi etkileşimlerinin veritabanlarına, kuantum mekanik topluluklarına ve gözlemlenebilecek ve kaydedilebilecek başka herhangi bir şeye kadar hemen hemen her şeyi modelleyebilir.


3

π

Tipik parametrik istatistiksel modeller, bir dağılım parametresinin (lerinin) faktörler (ayrık değerleri olan bir değişken) ve eş değişkenler (sürekli değişkenler) gibi bazı şeylere nasıl bağlı olduğunu açıklar. Örneğin, normal bir dağılımda, ortalamanın bazı sabit sayılarla (bir "kesişme") tanımlanabileceğini ve bazı sayıların ("regresyon katsayısı") çarpı değerinin katları ile tanımlanabileceğini varsayarsanız, doğrusal bir regresyon modeli elde edersiniz. normal dağılmış bir hata terimi. Binom dağılımı için yaygın olarak kullanılan bir model ("lojistik regresyon")ππ/(1π)intercept+β1covariate1+...


2
Evet, ama ... Model sadece parametrelerle ilgili değil aynı zamanda problemin yapısıyla da ilgili olabilir (örneğin, varsayılan veri üretme sürecine benzeyen olasılıksal model); parametrik olmayan modeller de var.
Tim

2

Bir olasılık dağılımı, rastgele bir miktarın nasıl dalgalandığı hakkında tüm bilgileri verir. Uygulamada genellikle ilgi miktarımızın tam olasılık dağılımına sahip değiliz. Bu konuda her şeyi bildiğimizi bilmeden veya varsaymadan bir şey biliyor veya varsayabiliriz. Örneğin, bazı miktarların normal dağıldığını, ancak ortalama ve varyans hakkında hiçbir şey bilmediğini varsayabiliriz. Ardından, dağıtım için seçim yapabileceğimiz bir aday koleksiyonumuz var; Örneğimizde, tüm olası normal dağılımlar. Bu dağılım koleksiyonu istatistiksel bir model oluşturur. Veri toplayarak kullanırız ve sonra da aday sınıfımızı kısıtlayarak kalan tüm adayların uygun bir şekilde verilerle tutarlı olmasını sağlarız.


2

Bir model PDF tarafından belirtilir, ancak bir PDF değildir.

Olasılık dağılımı (PDF), olasılıkları sayılara tahsis eden bir fonksiyondur ve çıktısı, Tim'in açıkladığı gibi olasılık aksiyomları ile aynı fikirde olmak zorundadır .

Bir model tamamen bir olasılık dağılımı ile tanımlanır, fakat bundan daha fazlasıdır. Bozuk para atma örneğinde modelimiz "bozuk para adil" + "her atış bağımsızdır" olabilir. Bu model, p = 0.5 olan bir binom olan PDF tarafından belirtilir.

P(x1,x2,x3,...)

Model ile PDF arasındaki bir fark, modelin istatistiksel bir hipotez olarak yorumlanabilmesidir. Örneğin, bozuk para atmada, madalyonun adil olduğu (p = 0.5) ve her atışın bağımsız olduğu (binom) modeli göz önünde bulundurabilir ve bunun bir rekabet hipotezine karşı test etmek istediğimiz hipotezimiz olduğunu söyleyebiliriz. .

pp


Son cümleniz hakkında ayrıntılı bilgi verebilir misiniz? Bu bana parametrik olmayan istatistiklerin önemli bir parçası gibi görünüyor.
Ian

Parametrik olmayan modelleri her zaman x_i'nin PDF'sinde daha az kısıtlayıcı olarak yorumladım, ancak yine de kullandıkları istatistikler için bir PDF gerektiriyor. Örneğin, Kendal sıra korelasyonu p-değerini hesaplamak için normallik varsaymaktadır . Ancak bunun bir karşı örneği olması olabilir. İlgilenirim
Jorge Leitao

"Rakip PDF'lerden bahsetmek mantıklı değil" derken ne demek istediğinizi anlamıyorum. Parametrik istatistiklerde bile gerçekte ne yaptığımız budur: sorun için geçerli olabileceğini düşündüğümüz bir sürü PDF'miz var, bazı verileri alıyoruz ve verilerden bazı PDF'lerimizin alt kümesinin daha iyi olduğu sonucuna varıyoruz. Sonra ne demek istediğimizi "daha iyi" olarak ölçüyoruz. (Ayrıca, temel bağlamda, gerçekten her şey için "PDF" kullanmamalısınız. Dağıtım anlamında bu sonuçta işe yarar, ancak bu oldukça karmaşık bir makinedir ...)
Ian

A model is specified by a PDFKatılmıyorum. Bir model birden fazla PDF ile de belirtilebilir. Ve bir model PDF olmadan da belirtilebilir: SVM veya regresyon ağacı gibi bir şey düşünün.
Ricardo Cruz

2

Çok önemli bir soru soruyorsun, Alan ve yukarıda bazı güzel cevaplar aldın. Daha basit bir cevap sunmak istiyorum ve aynı zamanda yukarıdaki cevapların ele almadığı ayrımına ek bir boyut belirtmek istiyorum. Basit olması için, burada söyleyeceğim her şey parametrik istatistiksel modeller ile ilgilidir .

y=birx2+bx+cy=mx+bF=-kxmbk

Öyleyse, benim sorum için # 1 numaralı kısa cevabım: istatistiksel bir model bir dağılım ailesidir.

Yapmak istediğim sonraki nokta, niteleyici, istatistik ile ilgili . Judea Pearl'ün “nedensel analizin altın kuralı” nı işaret ettiği gibi [1, s350],

Nedensel bir iddia tamamen istatistiksel bir yöntemle belirlenemez, eğilim puanları, regresyon, tabakalaşma veya diğer herhangi bir dağıtım tabanlı tasarım olabilir.

F=-kx yani olasılık dağılımları ile ilgili ifadeler.

Bu nedenle, sorunuza 2. cevabım şudur: modeller genellikle tamamen dağıtımla ifade edilemeyen nedensel fikirleri içerir.


[1]: Pearl, Judea. Nedensellik: Modeller, Muhakeme ve Çıkarım. 2. Baskı. Cambridge, İngiltere; New York: Cambridge University Press, 2009. Alıntılanan s. 351.


Cehaletimi affet, ama bu kelimeyle ne demek istiyorsun causal? Bunun için biraz daha nüanslı bir anlamı var mı yoksa sadece kavramına atıfta etmez causalityarasına bağlanmış ve ilişkileri causesve effects? Cevabınız için teşekkür ederim, btw.
AlanSTACK

FxF=-kx=
David C. Norris,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.