Hayatta kalma sürelerinin neden katlanarak dağıtıldığı varsayılmaktadır?


36

UCLA IDRE'deki bu yazıdan sağkalım analizini öğreniyorum ve bölüm 1.2.1 'de tetiklendi. Öğretici diyor ki:

... hayatta kalma sürelerinin katlanarak dağıtıldığı biliniyorsa , hayatta kalma süresini gözlemleme olasılığı ...

Hayatta kalma sürelerinin neden katlanarak dağıtıldığı varsayılmaktadır? Bana çok doğal geliyor.

Neden normal olarak dağıtılmıyor? Diyelim ki bazı canlıların yaşam koşullarını belirli koşullar altında (örneğin, gün sayısı) araştırdığımızı varsayalım, bazı varyanslarla bazı sayılar etrafında daha fazla merkezlenmeli mi (3 gün varyanslı 100 gün)?

Kesin olarak pozitif olmak için zaman istiyorsak, neden daha yüksek ortalama ve çok küçük varyans ile normal dağılım yapmıyoruz (neredeyse negatif sayı alma şansınız olmayacak).


9
Sezgisel olarak, normal dağılımın başarısızlık zamanını modellemenin sezgisel bir yolu olduğunu düşünemiyorum. Yaptığım işlerden hiçbirinde asla kırpılmadı. Her zaman çok doğru çarpıktırlar. Bence normal dağılımlar buluşsal olarak bir ortalamalar meselesi olarak ortaya çıkarken, hayatta kalma süreleri, buluşsal olarak bir paralel veya seri bileşen dizisine uygulanan sabit bir tehlikenin etkisi gibi bir ekstrema meselesi olarak ortaya çıkmaktadır.
AdamO

6
@AdamO ile hayatta kalma ve başarısız olma zamanının doğasında var olan aşırı dağıtımlar konusunda hemfikirim. Diğerlerinin de belirttiği gibi, üstel varsayımlar izlenebilir olma avantajına sahiptir. Onlarla ilgili en büyük sorun, sürekli bir bozulma oranının örtük varsayımıdır. Diğer fonksiyonel formlar mümkündür ve yazılıma bağlı olarak, örneğin genelleştirilmiş gama gibi standart seçenekler olarak gelir. Farklı fonksiyonel formları ve varsayımları test etmek için uyum iyiliği testleri kullanılabilir. Hayatta kalma modellemesindeki en iyi metin Paul Allison'ın SAS Kullanarak Hayatta Kalma Analizi, 2. baskı. SAS'ı unutun
Mike Hunter

8
Fomite

Yanıtlar:


40

Üstel dağılımlar genellikle hayatta kalma sürelerini modellemek için kullanılır, çünkü bunlar hayatta kalma / güvenilirlik verilerini karakterize etmek için kullanılabilecek en basit dağılımlardır. Bunun nedeni hafızada olmaları ve bu nedenle tehlike fonksiyonunun w / r / t süresi ile sabit olması analizi çok basit hale getirmesidir. Bu tür bir varsayım, örneğin, yüksek kaliteli entegre devreler gibi bazı elektronik bileşen türleri için geçerli olabilir. Eminim zamanın tehlike üzerindeki etkisinin ihmal edilebilir düzeyde olduğu varsayılabilir.

Ancak, bunun birçok durumda yapmak için uygun bir varsayım olmayacağını gözlemlemekte haklısınız. Normal dağılımlar bazı durumlarda açık olabilir, ancak negatif hayatta kalma süreleri anlamsızdır. Bu nedenle, lognormal dağılımlar sıklıkla göz önünde bulundurulur. Diğer yaygın seçenekler arasında Weibull, En Küçük Ekstrem Değer, En Büyük Ekstrem Değer, Lojistik, vb. Yer almaktadır. Model için mantıklı bir seçim, alan deneyimi ve olasılık grafiği ile bilgilendirilecektir . Elbette parametrik olmayan modellemeyi de düşünebilirsiniz.

Hayatta kalma analizinde klasik parametrik modelleme için iyi bir referans: William Q. Meeker ve Luis A. Escobar (1998). Güvenilirlik Verileri İçin İstatistiksel Yöntemler , Wiley


"Tehlike işlevi s / r / t zaman sabittir" konusunu daha ayrıntılı olarak açıklayabilir misiniz?
Haitao Du

4
@ hxd1011: Muhtemelen "tehlike" fonksiyonu ile yazar fonksiyonu için başvuran tarafından verilen , pdf olan ve kuyruk ve ( ). Buna başarısızlık oranı da denir . Gözlem, için başarısızlık oranının sabittir. Ayrıca, sadece üstel dağılımın bu özelliğe sahip olduğunu göstermek zor değildir .r, x ( t ) = f X ( t ) / ˉ F x ( t ) f x x ˉ K x x ˉ K x ( t ) = 1 - K x ( t ) = ∞ iken t f x ( X )rXrX(t)=fX(t)/F¯X(t)fXXF¯XXExp ( λ ) r ( t ) = ( λ e - λ t ) / ( e - λ t ) = λF¯X(t)=1FX(t)=tfX(x)dxExp(λ)r(t)=(λeλt)/(eλt)=λ
wchargin

22

Üstlerin hayatta kalma dağılımlarında nasıl ortaya çıktıklarının arkasına biraz matematiksel sezgi eklemek için:

Bir hayatta kalma değişkenin olasılık yoğunluğu , , mevcut tehlike ve ( "kalıp" bu gün bir kişi için riski) olduğu olan bir kişinin kadar hayatta kalma olasılığı . bir kişi ayağa gün ... gün 1 atlattı ve gün 2 hayatta kaldığını olasılık olarak genişletilebilir . Sonra: Sabit ve küçük tehlike kullanabiliriz: ila yaklaşık olduğu kadar basit f(t)=h(t)S(t)h(t)S(t)tS(t)t

P(survived day t)=1h(t)
P(survived days 1,2,...,t)=(1h(t))t
λ
eλ1λ
S(t)
(1λ)teλt
ve olasılık yoğunluğu daha sonra
f(t)=h(t)S(t)=λeλt

Feragatname: Bu, pdf'nin uygun bir şekilde türetilmesine yönelik bir girişim değildir - Ben sadece bunun düzgün bir tesadüf olduğunu düşündüm ve bunun neden doğru / yanlış olduğuna dair herhangi bir yorumumu kabul ettim.

DÜZENLEME: tavsiye başına yaklaşık @SamT tarafından değiştirildi, tartışma için yorumlara bakınız.


1
+1 bu, üstel dağılımın özelliklerini daha iyi anlamama yardımcı oldu.
Haitao Du

1
Sondadaki hattını açıklar mısın? yazıyor , yani sol taraf fonksiyonu ; üstelik doğru. Bununla birlikte, iki orta terim işlevidir (sağ tarafta olduğu gibi), ancak işlevleri değildir . Dahası, yaklaşım sadece . Bu kesinlikle doğru değil - hatta büyük yaklaşık doğru değil . Sanırım bu sadece yaptığın noter bir hata ... S(t)=...tλt(1+x/n)n exx=o(n)limt(1λt/t)t=eλtt
Sam T

@SamT - yorum için teşekkürler, düzenlendi. Uygulanan bir arka plandan gelince, herhangi bir düzeltmeyi çok hoş geldiniz, esp. gösterimde. Buradaki limitine geçmek kesinlikle gerekli değildi, ama hala hayatta kalma modellerinde karşılaşıldığı gibi bu yaklaşımın küçük için geçerli olduğuna inanıyorum . Yoksa tesadüfen bu yaklaşımı bekleten başka bir şey olduğunu mu söylersin? λtλ
juod

1
Şimdi daha iyi görünüyor :) - sorun şu ki küçük olsa da mutlaka küçük; bu nedenle, yaklaşık değeri kullanamazsınız (doğrudan): "Uygulamalı matematikte değil, saf olarak yapamazsınız"; sadece hiç tutmuyor. Bununla birlikte , bunun üstesinden gelebiliriz: küçük olduğundan, doğrudan oraya ulaşabiliriz,Tabii ki, , o zaman şunu öğrenebiliriz kiλ t ( 1 + x / n ) ne x λ e - λ t = ( e - λ ) t( 1 - λ ) t . λ = λ t / t e - λ t( 1 - λ t / t ) t .λλt
(1+x/n)nex
λ
eλt=(eλ)t(1λ)t.
λ=λt/t
eλt(1λt/t)t.
Sam T

Uygulanmakta, bunun biraz seçici olduğunu hissedebilirsiniz, ancak önemli olan, mantığın geçerli olmadığı; benzer geçersiz adımlar doğru olmayabilir. Elbette, birileri uyguladıkça, bu adımı atmaktan, davaların çoğunda beklemekten memnun olabilirsiniz ve özellikleri hakkında endişelenmeyin! Saf matematik yapan biri olarak, bu benim için sorun değil, ama hem saf hem de uygulamalı olduğumuzu anlıyorum! (Ve özellikle istatistiklerde, saf tekniklerden mahrum kalmamak iyidir.)
Sam T

11

Neredeyse kesinlikle güvenilirlik mühendisliği ve hayatta kalma sürelerinin ayrıntılı analizleri için tahminlere bakmak isteyeceksiniz. Bunun içinde sıkça kullanılan birkaç dağıtım vardır:

Weibull (veya "küvet") dağılımı en karmaşık olanıdır. Farklı yaşlarda baskın olan üç tip arıza modunu açıklar: bebek ölümleri (hatalı parçaların erken kırıldığı yerler), indüklenen arızalar (parçaların sistemin ömrü boyunca rastgele kırıldığı yerler) ve yıpranma (parçaların parçalandığı yerler) kullanımı). Kullanıldığı gibi, "\ __ /" gibi görünen bir PDF dosyasına sahiptir. Özellikle bazı elektronik ürünler için "yakma" zamanları hakkında bir şeyler duyabilirsiniz; bu, bu parçaların eğrinin "\" kısmı boyunca zaten çalıştırıldığı ve erken arızaların tarandığı (ideal). Ne yazık ki, Weibull analizi hızlı bir şekilde bozuluyorParçalarınız homojen değilse (kullanım ortamı dahil!) veya farklı zaman ölçeklerinde kullanıyorsanız (örneğin, bazı parçalar doğrudan kullanıma girerse ve diğer parçalar önce depoya girerse, "rasgele arıza" oranı geçerli olacaktır. İki zaman ölçümünün harmanlanmasından dolayı önemli derecede farklı olabilir (çalışma saatleri ve kullanım saatleri).

Normal dağılımlar neredeyse her zaman yanlıştır. Her normal dağılımın negatif değerleri vardır, güvenilirlik dağılımları yoktur. Bazen yararlı bir yaklaşım olabilirler, ancak bunun doğru olduğu zamanlar, neredeyse her zaman bir log-normale bakıyorsunuzdur, bu yüzden doğru dağıtımı da kullanabilirsiniz. Log-normal dağılımlar, bir çeşit yıpranma ve ihmal edilebilir rastgele arızalarınız olduğunda ve başka hiçbir koşulda doğru kullanılmadığında! Normal dağılım gibi, onları da çoğu veriye sığdırmaya zorlayabilecek kadar esnektir; Bu dürtüye karşı koymalı ve koşulların anlamlı olup olmadığını kontrol etmelisin.

Son olarak, üstel dağılım gerçek işgücüdür. Genellikle ne kadar eski parçaların olduğunu bilmiyorsunuz (örneğin, parçalar seri hale getirilmediğinde ve hizmete girdiklerinde farklı zamanlar olduğunda), bu nedenle herhangi bir bellek tabanlı dağıtım dışarıda kalır. Ek olarak, birçok parça, isteğe bağlı olarak uzun süren bir kopma süresine sahiptir, ya indüklenmiş hatalar tarafından ya da analizin faydalı zaman çerçevesi dışındadır. Diğer dağılımlar kadar mükemmel bir model olarak olmayabilir iken, bu sadece umursamıyor hangi yolculuk onları şeyleri. Bir MTTF'niz varsa (popülasyon süresi / başarısızlık sayısı), üstel bir dağılımınız var. Bunun üzerine, sisteminizi herhangi bir fiziksel anlayışa ihtiyaç duymazsınız. Üstel tahminleri sadece üstel olarak yapabilirsiniz.gözlenen parça MTTF'lerine dayanarak (yeterince büyük bir örnek varsayarsak) ve oldukça yakın bir şekilde sarkarlar. Aynı zamanda sebeplere de dayanıklıdır: eğer her ay birileri sıkılırsa ve kesilinceye kadar bir kısmı ile kroket oynuyorsa, üstel olarak hesaplar (MTTF'ye girer). Üstel, yedekli sistemlerin kullanılabilirliği için zarf arkası hesaplamaları yapabilmeniz için basit bir işlemdir ve bunun yararlılığını önemli ölçüde arttırır.


3
Bu iyi bir cevap, ancak Weibull dağılımının hayatta kalma modelleri için "en karmaşık" parametrik dağılım olmadığını unutmayın. Ben böyle bir şey olabilmesi durumunda değilim, ama orada Weibull kesinlikle göreceli genelleştirilmiş Gamma dağılımı , ve genelleştirilmiş F dağılımı 0'a parametrelerini ayarlayarak özel bir durum olarak Weibull alabilir, her ikisi de
gung - Eski Monica

Güvenilirlik mühendisliğinde yaygın olarak kullanılan en karmaşık olanıdır (ilk paragraf :) Meselenize katılmıyorum, ama aynı zamanda gerçekten de hiç kullanıldığını görmedim (bunların nasıl kullanılabileceğine dair yazımlar, evet. Gerçek uygulama, hayır) )
fektin - ücretsiz Monica

9

Açık sorunuzu yanıtlamak için, normal dağılım negatif sonsuzluğa gittiği ve hayatta kalma kesinlikle negatif olmadığı için normal dağılımı kullanamazsınız. Dahası, "hayatta kalma zamanlarının katlanarak dağıldığı varsayılmasının" gerçekte kimsenin doğru olduğunu sanmıyorum.

Hayatta kalma süreleri parametrik olarak modellendiğinde (yani adlandırılmış herhangi bir dağıtım çağrıldığında), Weibull dağılımı tipik bir başlangıç ​​yeridir. Weibull'un şekil ve ölçek olmak üzere iki parametresi olduğunu ve shape = 1 olduğunda Weibull'un üstel dağılımını basitleştirdiğini unutmayın. Bunu düşünmenin bir yolu, üstel dağılımın, hayatta kalma süreleri için mümkün olan en basit parametrik dağılım olduğunu ve bu nedenle, hayatta kalma analizi öğretilirken genellikle ilk olarak tartışılmasının nedeni budur. (Benzetmeyle, sık sık hipotez testini öğretmeye başladığımızı düşünün, tek örnekli -testinin üzerinden geçip , a-priori popülasyonu SD'yi tanıyormuş gibi yapın ve daha sonra testine kadar çalışın .) tzt

Üstel dağılım, birimin ne kadar süre hayatta kaldığına bakılmaksızın, tehlikenin daima aynı olduğunu varsayar (@ CaffeineConnoisseur'un cevabındaki rakamı düşünün ). Buna karşılık, Weibull dağılımında şekil olduğunda, tehlikelerin hayatta kalma sürenizi uzatacağı anlamına gelir ('insan eğrisi' gibi); ve , tehlikelerin azalması anlamına gelir ('ağaç'). < 1>1<1

En yaygın şekilde, hayatta kalma dağılımları karmaşıktır ve adlandırılmış herhangi bir dağılım için uygun değildir. İnsanlar genellikle hangi dağılımın olacağını bulmaya bile zahmet etmiyorlar. Cox orantılı tehlikeler modelini bu kadar popüler yapan şey budur: taban tehlikesi tamamen belirtilmemiş bırakılabilir, ancak modelin geri kalanı belirtilmemiş taban çizgisi ile ilişkisi açısından parametrik olabilir.


4
“Ayrıca, hayatta kalma sürelerinin“ gerçekte herhangi biri tarafından üssel olarak dağılacağı varsayıldığını ”sanmıyorum. Aslında epidemiyolojide, genellikle dolaylı olarak oldukça yaygın olduğunu gördüm.
Fomite

1
gung, nazikçe açıklayabilir misiniz - temel tehlikenin tamamen belirtilmemiş bırakılabileceği yarı parametriktir, ancak modelin geri kalanı belirtilmemiş olan baz çizgisi ile ilişkisi bakımından parametrik olabilir
Gaurav Singhal

7

Bazı ekoloji bu sorunun arkasındaki "Neden" i cevaplamaya yardımcı olabilir.

Üstel dağılımın hayatta kalmayı modellemek için kullanılmasının nedeni doğada yaşayan organizmalara dahil olan yaşam stratejileridir. Orta zeminde bir oda ile hayatta kalma stratejisi ile ilgili esasen iki uç vardır.

İşte ne demek istediğimi gösteren bir resim (Khan Academy'nin izniyle):

https://www.khanacademy.org/science/biology/ecology/population-ecology/a/life-tables-survivorship-age-sex-structure

Bu grafik, hayatta kalan bireyleri Y ekseni üzerinde ve "maksimum yaşam beklentisi yüzdesi" (bireyin yaşının yaklaşık olarak hesaplanması) X ekseninde çizer.

Tip I, yavrularının ölüm oranlarının düşük olmasını sağlayan, yavrularına aşırı derecede bakmakta olan organizmaları modelleyen insanlardır. Genellikle bu türlerin yavruları çok azdır, çünkü her biri ebeveynlerin zamanını ve çabasını büyük miktarda alır. Tip 1 organizmaları öldürenlerin çoğunluğu yaşlılıkta ortaya çıkan komplikasyon türüdür. Buradaki strateji, uzun, üretken yaşamlara, yüksek maliyetler için yüksek maliyetler için yüksek yatırımdır.

Tersine, Tip III, ebeveynin her bir çocuğa nispeten az yatırım yaptığı, ancak bir kaçının ümit edeceği umuduyla bir ton ürettiği, ağaçlarla modellenmiştir (ancak aynı zamanda plankton, mercanlar, yumurtlayan balıklar, birçok böcek türü, vb.) hayatta. Buradaki strateji, çoğu yavruların kolay toplamalardan yararlanan avcılar tarafından nispeten hızlı bir şekilde yok edilmesine rağmen, büyümek için yeterince uzun süre hayatta kalan birkaç kişinin öldürülmesi gittikçe zorlaşacak, sonunda (pratikte) imkansız hale geleceği umuduyla "sprey ve dua et" yenilmiş. Tüm bu süre zarfında bu bireyler, birkaçının kendi yaşlarında da hayatta kalacağını umarak çok sayıda yavru üretiyorlar.

Tip II, her yaşta orta derecede hayatta kalmak için orta düzeyde ebeveyn yatırımı olan orta ölçekli bir stratejidir.

Bu şekilde ekleyen bir ekoloji profesörüm vardı:

"Tip III (ağaçlar)" Umut Eğrisi "dir, çünkü birey ne kadar uzun süre hayatta kalırsa, hayatta kalmaya devam etme olasılığı o kadar yüksek olur. Bu arada, Tip I (insanlar) 'Umutsuzluk Eğrisi', çünkü uzun yaşarsanız, ölme olasılığınız artar. "


Bu ilginç, ancak insanlar için modern tıbbın (ve bugün hala dünyanın bazı yerlerinde) bebek ölümlerinin çok yüksek olduğunu unutmayın. Temel insan sağkalımı genellikle " küvet tehlikesi " ile modellenir .
dediklerinin - Eski Monica

Kesinlikle, bu geniş bir genellemedir ve farklı bölgelerdeki ve zaman periyodlarındaki insanlar arasında farklılıklar vardır. Aşırı derecede karşılaştığınız zaman, örneğin Batı insan aileleri (çoğunlukla bebeklik döneminde ölmeyen çift başına 2,5 çocuk) ile mercanlar veya yumurtlayan balıklar (çiftleşme döngüsü başına salınan milyonlarca yumurta, vs. yenmek, açlık, tehlikeli su kimyası, ya da sadece yaşanabilir bir yere sürüklenememesi nedeniyle ölmek)
CaffeineConnoisseur

1
Bunların hepsi ekolojiden gelen açıklamalar için olsa da, bunun gibi varsayımların sabit diskler ve uçak motorları gibi şeyler için de yapıldığını not edeceğim.
Fomite

6

Bu, doğrudan soruyu yanıtlamıyor, ancak not almanın çok önemli olduğunu düşünüyorum ve tek bir yoruma bile uymuyor.

Üstel dağılım çok güzel bir teorik türetmeye sahip olsa da ve dolayısıyla üretilen verilerin üstel dağılımda üstlenilen mekanizmaları takip ettiğini varsayarsak, pratikte üstel dağılımın ürettiği bir veri setine giremedim teorik olarak optimal tahminler vermelidir. kabul edilebilir sonuçlara yakın (elbette, bu analiz ettiğim veri türlerine, neredeyse tüm biyolojik verilere bağlıdır). Örneğin, R-paketimde bulabildiğim ilk veri setini kullanarak çeşitli dağıtımlara sahip bir modele uymaya başladım. Bazal dağılımın model kontrolü için, tipik olarak yarı parametrik model ile karşılaştırıyoruz. Sonuçlara bir göz atın.

Hayatta Kalma Eğrileri

Weibull, log-logistic ve log-normal dağılım, uygun uyum açısından mutlak net bir zafer yoktur. Ama net bir kaybeden var: üstel dağılım! Tecrübelerime göre, bu uyumsuzluk büyüklüğünün istisnai değil, üstel dağılım için norm olduğu.

Niye ya? Çünkü üstel dağılım tek bir parametre ailesidir. Dolayısıyla, bu dağıtımın ortalamasını belirtirsem, dağıtımın diğer tüm anlarını belirledim. Bu diğer aileler iki parametre ailesidir. Dolayısıyla, bu ailelerde verilere adapte olma konusunda daha fazla esneklik var.

Şimdi Weibull dağılımının özel bir durum olarak üstel dağılım olduğunu (örn. Shape parametresi = 1 olduğunda) unutmayın. Dolayısıyla, veriler gerçekten üstel olsa bile, bir üstel dağıtım üzerinden Weibull dağıtımı kullanarak tahminlerimize yalnızca biraz daha fazla gürültü ekliyoruz. Bu nedenle, gerçek veriyi modellemek için üstel dağılımın kullanılmasını asla tavsiye etmem (ve okurların gerçekten iyi bir fikir olduğu zamana dair bir örneği olup olmadığını duymayı merak ediyorum).


1
Bu cevaba ikna olmadım: 1) “R-paketimde bulabildiğim ilk veri setini kullanarak” ... Gerçekten mi? ... stats.stackexchange'de? Bir rastgele örnek ve genel sonuçlar çıkardık. 1b) Arıza süresinin belirli bir değere (insanların hayatı gibi) dağılma eğiliminde olduğu modeller için açıkça Gamma, Weibull, vs. gibi dağılımlar daha uygundur; Olaylar eşit derecede muhtemel olduğunda, üstel bir dağıtım daha uygundur. Bahse girerim yukarıdaki "ilk veri kümen" ilk türdendir. 2) Diğer tüm modellerde 2 parametre bulunur, biri modelleri karşılaştırmak için örneğin Bayes faktörünü kullanmalıdır.
Luca Citi

2
@LucaCiti: "R-paketimdeki ilk veri", R-paketteki yayınladığım ilk veri seti (icenReg) anlamına geliyor. Üstelik, üstel dağılım konusundaki deneyimimin, her zaman zayıf bir uyuma sahip olduğunu, analiz ettiğim veri türüne bağlı olduğunu; neredeyse sadece biyolojik veriler. Sonunda, sonunda belirttiğim gibi, üstel dağılımını kullanmak için ikna edici bir neden olduğu gerçek uygulamalı örnekleri duymak çok merak ediyorum, bu yüzden eğer varsa, lütfen paylaşın.
Cliff AB

1
Üstel dağılımını kullanmak isteyebileceğiniz bir senaryo, (a) verinin gerçekten üssel bir dağılım ile yaklaştığını ve (b) küçük örneklerle çıkarım yapmak için gerekli olduğunu gösteren çok sayıda tarihi verilere sahip olmanızdı. yani n <10). Ancak bunun gibi gerçek uygulamaları bilmiyorum. Belki bir tür imalat kalite kontrol probleminde?
Cliff AB,

1
Merhaba Cliff, yorumuma cevap vermek için zaman ayırdığınız için teşekkür ederiz. Kabaca Weibull gibi bir dağılıma hitap edersem, "örneğimde x'in bireysel yaşam süresi nedir" ya da "nöron x ne zaman tekrar ateşlenecek" ya da "ne zaman ateş böceği x tekrar yanıp sönecek" gibi sorulara karşılık gelen daha iyi durumlara uyar ". Tersine, üstel bir dağıtım “benim popülasyonumda bir sonraki ölüm ne zaman bekleniyor?”, “Bir sonraki nöron ne zaman ateş edecek” veya “sürüde bir ateş böceği ne zaman yanıp sönecek” gibi soruları modelliyor
Luca Citi

@LucaCiti; ha, daha önceki dürtüğünüzün n = 1 ile çıkarım yapma konusunda bir şaka olduğunu anladım. İlk defa nasıl kaçırdığımı bilmiyorum. Savunmamda, tahmin edicinin asimptotik olarak normal olması gerektiğini söyleyen bir teorimiz varsa, ancak diğer asimptotik olarak normal tahminlerden 4+ standart sapma uzaktır, o zaman yapabiliriz! Fakat tüm ciddiyetle, beni ikna eden tek bir komplo değil, aynı sapma seviyesini tutarlı bir şekilde görmek. 20 + 'dan fazla üssel kötü uyuşuk uyuşukluk yaparsam engellenebilirim.
Cliff AB

4

Üstel dağılımın, olaylar arasındaki süreyi modellemek için sıklıkla çoğalmasının bir başka nedeni de aşağıdaki gibidir.

Bazı varsayımlar altında, çok sayıda bağımsız rastgele değişkenin toplamının bir Gauss dağılımına yakın olacağı iyi bilinmektedir. Benzer bir teorem, yenileme süreçleri için geçerlidir , yani IID arasındaki olaylar arası aralıklarla rastgele gerçekleşen olaylar için stokastik modeller. Aslında, Palm-Khintchine teoremi , çok sayıda (zorunlu olarak Poissonian) yenileme işlemlerinin üst üste getirilmesinin, Poisson işlemi gibi asimptotik olarak davrandığını belirtir . Bir Poisson sürecinin etkinliklerarası aralıkları katlanarak dağıtılır.


3

tl; dr - Muhtemel bir dağılım, bireylerin herhangi bir anda herhangi bir diğerinde ölme ihtimalinin yüksek olduğunu varsaymaya eşdeğerdir.

türetme

  1. Yaşayan bir bireyin herhangi bir anda herhangi bir anda ölmesi muhtemel olduğunu varsayalım.

  2. Yani, ölüm oranı nüfus, orantılıdır .dPdtP

dPdt  P
  1. WolframAlpha şovlarını çözme :

P(t)=c1et

Böylece, nüfus bir üstel dağılımı izler.

Matematik notu

Yukarıdaki matematik, birinci mertebeden adi bir diferansiyel denklemin (ODE) indirgenmesidir . Normalde, biz de için çözecek işaret ederek sınır koşulu bazı verilen değere nüfus başlar; başlama zamanı en, .c0P(t0)t0

Sonra denklem olur:

P(t)=etP(t0).

Gerçeklik kontrolü

Üstel dağılım, popülasyondaki insanların zaman içerisinde aynı oranda ölme eğiliminde olduklarını varsayar. Gerçekte, ölüm oranları sonlu popülasyonlar için değişkenlik gösterecektir.

Daha iyi dağılımlarla gelen, stokastik diferansiyel denklemleri içerir . O zaman, sürekli bir ölüm olasılığı olduğunu söyleyemeyiz; bunun yerine, her bireyin belirli bir anda ölme olasılıkları için bir dağılım bulmalı, daha sonra bu çeşitli olasılık ağaçlarını tüm popülasyon için bir araya getirmeli, sonra zamanla bu diferansiyel denklemi çözmeliyiz.

Bunu daha önce herhangi bir çevrimiçi ortamda görmüş olduğumu hatırlayamıyorum, bu yüzden muhtemelen buna karışmayacaksınız; ancak, üstel dağılım üzerinde geliştirmek istiyorsanız, bir sonraki modelleme adımıdır.


3

(Aldığın kısımda, ifadenin şartlı olduğunu; cümlenin kendiliğinden üstel hayatta kalmayı varsaymadığını, bunun bir sonucunu açıkladığını not edin. Bununla birlikte, üstelik hayatta kalma varsayımının yaygın olduğu, bu nedenle “nedense üstel hayatta kalma” sorusu ile uğraşmaya değer. üstel "ve" neden normal değil "- ilki oldukça iyi kaplandığından dolayı ikinci şeye daha fazla odaklanacağım

Normalde dağılmış hayatta kalma süreleri anlamsızdır, çünkü hayatta kalma süresinin negatif olma ihtimali sıfır değildir.

Daha sonra, sıfıra yakın olma şansı olmayan normal dağılımlarla ilgili görüşünüzü kısıtlarsanız, kısa bir hayatta kalma süresi makul bir olasılığı olan hayatta kalma verilerini modelleyemezsiniz:

hayatta kalma süresi dağılımları - normal ortalama 100 sd 10 - ortalama 100 ve sd 42 ile belirli bir dağılım

Belki de kısa bir süre sonra, kısa hayatta kalma süresinin neredeyse hiç şansı olmayan hayatta kalma süreleri makul olacaktır, ancak pratikte mantıklı olan dağıtımlara ihtiyacınız var - genellikle kısa ve uzun hayatta kalma sürelerini (ve bunların arasındaki herhangi bir şeyi), genellikle eğri halde gözlemlersiniz hayatta kalma sürelerinin dağılımı). Değiştirilmemiş normal dağılım pratikte nadiren faydalı olacaktır.

[ Kesilmiş bir normal, normalden daha sık makul bir kaba yaklaşım olabilir, ancak diğer dağılımlar genellikle daha iyi sonuç verir.]

Üstelin sürekli tehlikesi, hayatta kalma süreleri için bazen makul bir yaklaşımdır. Örneğin, kaza gibi "rastgele olaylar" ölüm oranına önemli bir katkıda bulunuyorsa, üstel hayatta kalma oldukça iyi çalışacaktır. (Örneğin, hayvan popülasyonları arasında, bazen hem yırtıcı hem de hastalık, en azından kabaca bir şans süreci gibi davranabilir ve hayatta kalma sürelerine makul bir ilk yaklaşım olarak üstel bir şey bırakır.)


Ek bir soru ile ilgili normal kesildi: normal değilse uygun değil neden normal kare değil (chi sq df 1)?

Aslında bu biraz daha iyi olabilir ... ama bunun 0'da sonsuz bir tehlikeye tekabül edeceğine dikkat edin, bu yüzden sadece zaman zaman faydalı olabilir. Çok kısa süreleri çok yüksek olan vakaları modelleyebilse de, yalnızca ortalama olarak hayatta kalma süresinden daha kısa olan vakaları modelleyebilme problemi vardır (hayatta kalma sürelerinin% 25'i ortalama hayatta kalma süresinin% 10,15'in altındadır ve hayatta kalma sürelerinin yarısı ortalamanın% 45,5'inden az, yani medyan sağkalım ortalamanın yarısından az.

Ölçeklendirilmiş bir (ör., şekil parametresi olan bir gama ):χ1212

Öncekine benzer bir komplo, fakat aynı zamanda 100 kat ki kare (1) olan bir değişken yoğunluğuyla;  0'da yüksek bir tepe ve çok ağır bir kuyruk var - ortalama 100, ancak sd yaklaşık 141 ve ortanca yaklaşık 45.

[Belki bu değişkenden ikisini toplarsanız ... ya da belki merkez dışı , bazı uygun olanaklar elde edersiniz. Üstel, hayatta kalma süreleri için üssel, genel parametrik dağılım seçenekleri arasında Weibull, lognormal, gama, diğerleri arasında log-logistik… Weibull ve gama'nın üsteli özel bir durum olarak içerdiğine dikkat edin] χ 2χ12χ2


teşekkürler, cevabınızı dünden beri bekliyorum :). Ek bir soru ile ilgili normal kesildi: normal değilse uygun değil neden normal kare değil (chi sq df 1)?
Haitao Du

Aslında bu biraz daha iyi olabilir ... ama bunun 0'da sonsuz bir tehlikeye tekabül edeceğine dikkat edin - bu yüzden sadece zaman zaman faydalı olabilir. Yalnızca ortalama hayatta kalma oranından çok daha kısa olan sadece modelleme vakalarının konuşma problemi vardır (hayatta kalma sürelerinin% 25'i ortalama hayatta kalma süresinin% 10,15'in altında ve hayatta kalma sürelerinin yarısı ortalamanın% 45,5'inden azdır) bunlardan ikisinde değişken, daha az şaşırtıcı bir tehlike işlevi görebileceğinizden . . . Pχ12
Glen_b

eğitim için tekrar teşekkür ederim, şeylerin arkasındaki sezgim. Çok fazla tarif seviyesi öğretmeni gördüm ve insanlar nedenini bilmeden bir şeyler yapıyorlar. CV öğrenmek için harika bir yer.
Haitao Du

1

Kesin olarak pozitif olmak için zaman istiyorsak, neden daha yüksek ortalama ve çok küçük varyans ile normal dağılım yapmıyoruz (neredeyse negatif sayı alma şansınız olmayacak).

Çünkü

  1. Bu hala sıfır olma ihtimaline karşı sıfır olma ihtimaline sahip, bu yüzden kesinlikle olumlu değil ;

  2. ortalama ve varyans, modellemeye çalıştığınız popülasyondan ölçebileceğiniz bir şeydir. Nüfusunuz ortalama 2 ve varyans 1 ise ve bunu normal dağılımla modelliyorsanız, normal dağılım sıfırın altında önemli bir kütleye sahip olacaktır; Eğer ortalama 5 ve değişkenlik 0.1 olan normal bir dağılım ile modellerseniz, modeliniz açıkça modellemesi gereken şeye göre çok farklı özelliklere sahiptir.

Normal dağılım özel bir şekle sahiptir ve bu şekil ortalama etrafında simetriktir. Şekli ayarlamanın tek yolu sağa ve sola hareket ettirmek (ortalamayı arttırmak veya azaltmak) veya az çok yayılmasını sağlamak (varyansı arttırmak veya azaltmak). Bu, kütlenin çoğunun iki ile on arasında olduğu ve sadece kütlenin çok küçük bir miktarının sıfırın altında olduğu normal bir dağılım elde etmenin tek yolunun demek istediğinizi altıya (aralığın ortası) koymanız gerektiğidir. ) ve varyansı sadece küçük bir örnek fraksiyonunun negatif olacağı kadar küçük ayarlayın. Fakat muhtemelen numunelerinizin çoğunun 5, 6 veya 7 olduğunu göreceksiniz, oysa oldukça fazla 2s, 3s, 4s, 8s, 9s ve 10s olması gerekiyordu.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.