Yalnızca minimum / maksimum değerin bilindiği veriler için istatistiksel yöntemler


29

Kesin değerlerin bilinmediği verilerle ilgilenen bir istatistik dalı var mı , ancak her birey için değere bağlı bir maksimum veya minimum değer biliyoruz ?

Sorunumun büyük ölçüde onu istatistiksel terimlerle ifade etmek için mücadele etmemden kaynaklandığından şüpheliyim, ancak umarım bir örnek açıklığa kavuşturmaya yardımcı olacaktır:

Diyelim ki iki ve topluluğu var, öyle ki, bir noktada üyeleri “geçiş yapabilir” , ancak bunun tersi mümkün değildir. Geçişin zamanlaması değişkendir, fakat rastgele değildir. Örneğin, "çocuğu olmayan bireyler" ve "en az bir çocuğu olan bireyler" olabilir. Bu ilerlemenin gerçekleştiği yaşa ilgi duyuyorum ama yalnızca kesitsel verilerim var. Herhangi bir birey için, onların veya ait olup olmadığını öğrenebilirim . Ayrıca bu kişilerin yaşlarını da biliyorum. popülasyonundaki her birey içinB A B A B A B A BABABABABA, Geçiş çağındaki yaşın şu andaki yaşından daha büyük olacağını biliyorum. Aynı şekilde, üyeleri için , geçiş çağındaki yaşın şu andaki yaşından az olduğunu biliyorum. Ama kesin değerleri bilmiyorum.B

Diyelim ki geçiş yaşıyla karşılaştırmak istediğim başka bir faktör var. Örneğin, bir bireyin alt türlerinin mi yoksa vücut boyutunun ilk yavru yaşını mı etkilediğini bilmek istiyorum. Kesinlikle bu soruları bilgilendirmesi gereken bazı yararlı bilgilerim var: ortalama olarak, bireylerin, yaşlı bireylerin daha sonraki bir geçişi olacak. Ancak bilgiler , özellikle genç bireyler için mükemmel değildir. Ve popülasyonu için tam tersi .bAB

Bu tür verilerle ilgilenmek için belirlenmiş yöntemler var mı? Böyle bir analizin nasıl yapılacağına dair tam bir yönteme ihtiyacım yok, beni doğru yerde başlatmak için sadece bazı arama terimleri veya faydalı kaynaklar!

Uyarılar: Ben geçiş olduğunu basitleştirilmesi varsayım yapıyorum için anlıktır. Ayrıca, çoğu insanın yeterince yaşadıklarını düşünerek bir noktada ilerleyeceğini varsaymaya da hazırım . Longitutinal verilerin çok faydalı olacağını biliyorum, ancak bu durumda mevcut olmadığını varsayıyorum.B BABB

Söylediğim gibi, bunun bir kopyası olması için özür dilerim, sorunumun bir parçası ne aramam gerektiğini bilmiyorum. Aynı nedenle, lütfen uygunsa başka etiketler ekleyin.

Örnek veri kümesi: Ssp, veya olmak üzere iki alt türden birini gösterir . Yavrular, yavru ( ) olmadığını veya en az bir yavru ( ) olduğunu gösterir.Y, A BXYAB

 age ssp offsp
  21   Y     A
  20   Y     B
  26   X     B
  33   X     B
  33   X     A
  24   X     B
  34   Y     B
  22   Y     B
  10   Y     B
  20   Y     A
  44   X     B
  18   Y     A
  11   Y     B
  27   X     A
  31   X     B
  14   Y     B
  41   X     B
  15   Y     A
  33   X     B
  24   X     B
  11   Y     A
  28   X     A
  22   X     B
  16   Y     A
  16   Y     B
  24   Y     B
  20   Y     B
  18   X     B
  21   Y     B
  16   Y     B
  24   Y     A
  39   X     B
  13   Y     A
  10   Y     B
  18   Y     A
  16   Y     A
  21   X     A
  26   X     B
  11   Y     A
  40   X     B
   8   Y     A
  41   X     B
  29   X     B
  53   X     B
  34   X     B
  34   X     B
  15   Y     A
  40   X     B
  30   X     A
  40   X     B

Düzenleme: örnek veri kümesi çok temsili olmadığı için değişti


2
Bu ilginç bir durum. Verilerinizi sağlayabilir misiniz?
dediklerinin - Eski Monica

1
Veri kümesinin tamamını gönderemezdim ancak bir örnek set verebilirim.
user2390246

Yanıtlar:


26

Buna mevcut durum verileri denir . Verilerin kesitsel bir görüntüsünü alırsınız ve yanıtla ilgili olarak, bildiğiniz tek şey, her konunun gözlemlenen yaşında, olayın (sizin durumunda: A'dan B'ye geçiş) gerçekleştiği ya da olmadığıdır. Bu özel bir aralıklı sansür uygulamasıdır .

Resmi olarak tanımlamak için, konu (gözlemlenmemiş) gerçek olay zamanı olmasına izin verin . konusunun inceleme zamanını verin (sizin durumunda: muayene sırasındaki). Eğer ise, veriler doğru sansürlenir . Aksi takdirde veriler sansürlenir . dağılımının modellenmesinde ilginçtir . Regresyon modelleri için, bu dağılımın bir dizi ortak değişken olan ile nasıl değiştiğini modellemekle ilgileniyoruz .TiiCiiCi<TiTX

Bunu, aralıklı sansürleme yöntemlerini kullanarak analiz etmek için, verilerinizi genel sansürleme formatına koymak istiyorsunuz. Kendisine, her bir hasta için, biz intervalinde bildiğimiz hangi aralığını temsil eder, ihtiva edilecek. Konu Yani eğer sağ denetim süresi en sansürlü biz yazıyormuş . sansürlenmiş , onu olarak temsil .(li,ri)Tiici(ci,)ci(0,ci)

Utanmaz fiş: Verilerinizi analiz etmek için regresyon modellerini kullanmak istiyorsanız, bu R kullanılarak yapılabilir icenReg (yazar benim). Aslında, mevcut durum verileriyle ilgili benzer bir soruda OP, icenReg kullanmanın iyi bir tanıtımını yaptı . Sansürleme bölümünü görmezden gelmenin ve lojistik regresyon kullanmanın yanlılığa yol açtığını göstererek başlıyor (önemli not: yaşa göre ayarlama yapmadan lojistik regresyon kullanmaya atıfta bulunuyor .).

intervalDiğer araçların yanı sıra log-sıra istatistik testleri içeren bir başka harika paket .

DÜZENLE:

@EdM soruna cevap vermek için lojistik regresyon kullanmayı önerdi. Bunun işlevsel bir şekilde kaygılanması gerektiğini söyleyerek haksız yere küçümsüyordum. Fonksiyonel zaman hakkında endişelenmeniz gereken ifadenin arkasında dururken, makul bir parametrik tahminciye yol açan çok makul bir dönüşüm olduğunu anladım.

Özellikle, logistik regresyonlu modelimizde log (zaman) değişkeni olarak kullanırsak, logistik temelli orantılı bir olasılık modeli ile sonuçlanır.

Bunu görmek için önce orantılı oran regresyon modelinin

Odds(t|X,β)=eXTβOddso(t)

burada , zamanında sağkalımın temel oranlarıdır . Regresyon etkilerinin lojistik regresyon ile aynı olduğuna dikkat edin. Şimdi tek yapmamız gereken temel dağılımın log-lojistik olduğunu göstermektir.Oddso(t)t

Şimdi, log (Zaman) ile bir değişken olarak lojistik regresyon düşünün. Biz sonra

P(Y=1|T=t)=exp(β0+β1log(t))1+exp(β0+β1log(t))

Küçük bir çalışmayla, bunu bir lojistik logistik modelin CDF'si olarak görebilirsiniz (parametrelerin doğrusal olmayan bir dönüşümü ile).

R, uyumların eşdeğer olduğunu kanıtlar:

> library(icenReg)
> data(miceData)
> 
> ## miceData contains current status data about presence 
> ## of tumors at sacrifice in two groups
> ## in interval censored format: 
> ## l = lower end of interval, u = upper end
> ## first three mice all left censored
> 
> head(miceData, 3)
  l   u grp
1 0 381  ce
2 0 477  ce
3 0 485  ce
> 
> ## To fit this with logistic regression, 
> ## we need to extract age at sacrifice
> ## if the observation is left censored, 
> ## this is the upper end of the interval
> ## if right censored, is the lower end of interval
> 
> age <- numeric()
> isLeftCensored <- miceData$l == 0
> age[isLeftCensored] <- miceData$u[isLeftCensored]
> age[!isLeftCensored] <- miceData$l[!isLeftCensored]
> 
> log_age <- log(age)
> resp <- !isLeftCensored
> 
> 
> ## Fitting logistic regression model
> logReg_fit <- glm(resp ~ log_age + grp, 
+                     data = miceData, family = binomial)
> 
> ## Fitting proportional odds regression model with log-logistic baseline
> ## interval censored model
> ic_fit <- ic_par(cbind(l,u) ~ grp, 
+            model = 'po', dist = 'loglogistic', data = miceData)
> 
> summary(logReg_fit)

Call:
glm(formula = resp ~ log_age + grp, family = binomial, data = miceData)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.1413  -0.8052   0.5712   0.8778   1.8767  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)   
(Intercept)  18.3526     6.7149   2.733  0.00627 **
log_age      -2.7203     1.0414  -2.612  0.00900 **
grpge        -1.1721     0.4713  -2.487  0.01288 * 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 196.84  on 143  degrees of freedom
Residual deviance: 160.61  on 141  degrees of freedom
AIC: 166.61

Number of Fisher Scoring iterations: 5

> summary(ic_fit)

Model:  Proportional Odds
Baseline:  loglogistic 
Call: ic_par(formula = cbind(l, u) ~ grp, data = miceData, model = "po", 
    dist = "loglogistic")

          Estimate Exp(Est) Std.Error z-value        p
log_alpha    6.603 737.2000   0.07747  85.240 0.000000
log_beta     1.001   2.7200   0.38280   2.614 0.008943
grpge       -1.172   0.3097   0.47130  -2.487 0.012880

final llk =  -80.30575 
Iterations =  10 
> 
> ## Comparing loglikelihoods
> logReg_fit$deviance/(-2) - ic_fit$llk
[1] 2.643219e-12

Etkisinin grpher modelde aynı olduğunu ve son log olasılığının yalnızca sayısal hatayla değiştiğini unutmayın. Temel parametreler (yani lojistik regresyon için kesişim ve log_age, aralık sansürlü model için alfa ve beta) farklı parametreleştirmelerdir, bu nedenle eşit değildirler.

İşte size: lojistik regresyon kullanmak, orantılı olasılıkları logistik temel dağılımına uydurmaya eşdeğerdir. Bu parametrik modele uymakta sakınca varsa, lojistik regresyon oldukça makul. Aralıklı sansürlü verilerle, yarı parametrik modellerin tipik olarak model uyumunu değerlendirme zorluğundan dolayı tercih edildiğini, ancak gerçekten tam parametrik modeller için yer olmadığını düşündüğümde bunları dahil etmeyeceğime dikkat ediyorum icenReg.


Bu çok yardımcı görünüyor. İşaret ettiğiniz kaynaklara ve icenReg paketiyle oynayacağım. Lojistik regresyonun neden daha az uygun olduğu konusunda kafamı atmaya çalışıyorum - @EdM'in önerisi sanki işe yarıyor gibi görünüyor. Önyargı ortaya çıkıyor mu, çünkü "olay" - burada, yavruların olması - hayatta kalmayı etkileyebilir mi? Öyleyse, hayatta kalma oranını düşürürse, belirli bir yaştaki bireyler arasında çoğaltılamayanların fazla temsil edileceğini mi buluruz?
user2390246

1
@ user2390246: Sen olabilir mevcut durumu verileri için lojistik regresyon kullanın. Ama o zaman işlevsel yaş formunu elde etmek için çok fazla iş yapmanız gerekiyor ve bu diğer değişkenlerle etkileşimi de doğru. Bu çok önemsiz değil. Hayatta kalma tabanlı modellerde, yarı parametrik bir taban çizgisi ( ic_spin icenReg) kullanabilir ve bu konuda endişelenmeyin. Ayrıca, iki grubun sağkalım eğrilerine bakmak sorunuzu doğru cevaplar. Lojistik uyum bu yeniden çalışılıyor olabilir yapılabilir, ama yine hayatta kalma modellerini kullanarak çok daha fazla iş.
Cliff AB

Bu konuda @CliffAB ile aynı fikirdeyim. Özellikle yaşa bağlılık için doğru fonksiyonel formu elde etmenin zorluğu nedeniyle lojistik regresyon önermek konusunda tereddüt ettim. Mevcut durum veri analizi ile ilgili deneyimim olmadı; yaşa bağımlılık şeklinin bu tekniğin büyük bir avantajı olduğunu anlamak zorunda değilsiniz. Yine de cevabımı açık tutacağım, böylece daha sonra bu konuyu inceleyenler bunun nasıl oynandığını anlayacaklar.
EdM

Bana öyle geliyor ki, buradaki yorumunuz konunun özü. Cevabında bunu geliştirebilseydin yardımı olurdu. Örneğin, bir LR modeli ve aralıklı sansürlü bir hayatta kalma modeli oluşturmak için OP'nin örnek verilerini kullanabiliyorsanız ve ikincisinin OP'nin araştırma sorusunu nasıl daha kolay yanıtladığını gösterin.
gung - Monica’yı eski

1
@gung: aslında, lojistik regresyon hakkında daha yumuşak bir duruş sergiledim. Bunu yansıtmak için cevabımı değiştirdim.
Cliff AB

4

Bu bir sansür / kaba veri durumu. Verilerinizin güzel davranışlı sürekli (vb.) Pdf ve cdf içeren bir dağıtımdan kaynaklandığını düşünün . Olay konusu verinin zamana ilişkin standart çözümü, konusu için bir olayın tam zamanı bilindiğinde, olasılık katkısının . Zamanın sadece (sağ sansür) daha büyük olduğunu , bağımsız sansür varsayımı altında olasılık katkısı . Zamanın (sol sansür) daha az olduğunu , olasılık katkısıF ( x ) x i i f ( x i ) y i 1 - F ( y i ) z i F ( z i ) ( y i , z i ] F ( z i ) - F ( y i )f(x)F(x)xiif(xi)yi1F(yi)ziF(zi). Son olarak, eğer zaman belli bir aralığa düşerse , olasılık katkısı .(yi,zi]F(zi)F(yi)


1
sürekli olmasına gerek yoktur . Ya da iyi davrandım. Bu ayrı bir hayatta kalma model olabilir ve hafif bir düzeltme ile birlikte doğru olacağını söylediği geri kalanı (değiştirin (pdf tanımlanmamıştır ve bir pmf yerine kullanılır böylece) ile .F ( y ı ) F ( y ı + )f(x)F(yi)F(yi+)
Cliff AB

4

Bu sorun lojistik gerileme ile iyi çözülmüş gibi gözüküyor.

A ve B olmak üzere iki durumunuz var ve belirli bir bireyin A durumundan B durumuna geri dönüşü olmayan bir şekilde geçip geçmediğini incelemek istiyorsunuz. Bir temel belirleyici değişkeni gözlem sırasındaki yaş olacaktır. Diğer faktör veya ilgilenilen faktörler, ek öngörücü değişkenler olacaktır.

Lojistik modeliniz daha sonra, bu tahmincilerin bir fonksiyonu olarak B durumunda olma olasılığını tahmin etmek için A / B durumu, yaşı ve diğer faktörlerin gerçek gözlemlerini kullanır. Olasılığın 0.5'i geçtiği yaş, geçiş zamanının tahmini olarak kullanılabilir ve daha sonra diğer faktör (ler) in bu öngörülen geçiş süresi üzerindeki etkilerini incelerdiniz.

Tartışmaya cevap olarak eklendi:

Herhangi bir doğrusal modelde olduğu gibi, öngörücülerinizin, sonuç değişkenine doğrusal bir ilişki içerecek şekilde dönüştürülmesini sağlamanız gerekir, bu durumda B durumuna geçme olasılığının günlük olasılıkları. önemsiz bir problem. @CliffAB tarafından verilen cevap, yaş değişkeninin log dönüşümünün nasıl kullanılabileceğini gösterir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.