Değişkenleri sayım verisi olarak ölçekle - doğru mu değil mi?


10

In Bu yazıda (merkezi PubMed aracılığıyla serbestçe kullanılabilir), yazarlar 0-40 attı 10 maddelik tarama enstrüman puanı modellemek için negatif binom regresyon kullanın. Bu prosedürde sayım verileri olduğu varsayılmaktadır, burada açıkça durum böyle değildir. Bu yaklaşımın kabul edilebilir olup olmadığı konusunda görüşlerinizi almak isterim, çünkü bazen aynı enstrümanı veya benzerlerini benim çalışmamda kullanıyorum. Değilse, kabul edilebilir alternatifler olup olmadığını bilmek istiyorum. Aşağıda daha fazla ayrıntı:

Kullanılan ölçek, alkol kullanım bozukluğu ve tehlikeli / zararlı içme için bir tarama aracı olarak tasarlanmış 10 maddelik bir anket olan Alkol Kullanım Bozuklukları Tanımlama Testi'dir (AUDIT). Alet 0 ila 40 arasında puanlanır ve sonuçlar tipik olarak ağır sola eğrilir.

Anladığım kadarıyla, sayım verilerini kullanmak, "sayılan" tüm değerlerin birbirinden bağımsız olduğunu varsayar - her gün acil servise gelen hastalar, belirli bir gruptaki ölüm sayısı, vb. - hepsi birbirinden bağımsızdır, temel değişkenlere bağımlı olsa da. Ayrıca, sayım verilerini kullanırken izin verilen bir maksimum sayı olamayacağını düşünüyorum, ancak teorik maksimum değer verilerde gözlemlenen maksimum değerle karşılaştırıldığında çok yüksek olduğunda bu varsayımın rahatlayabileceğini düşünüyorum?

AUDIT ölçeğini kullanırken, gerçek bir sayımız yoktur. Uygulamada yüksek puanların nadiren görülmesine rağmen, toplam puanı 40 olan maksimum 10 öğemiz var. Maddelerdeki puanlar doğal olarak birbirleriyle ilişkilidir.

Sayım verilerini kullanmak için gereken varsayımlar böylece ihlal edilir. Ama bu hala kabul edilebilir bir yaklaşım mı? Varsayımların ihlali ne kadar ciddidir? Bu yaklaşımın daha kabul edilebilir olarak değerlendirilebileceği belirli koşullar var mı? Bu yaklaşımın ölçek değişkenini kategorilere indirmeyi içermeyen alternatifleri var mı?

Yanıtlar:


4

DENETİM aracı esasen Likert ölçeğidir. Genellikle beş puanlık bir ölçekte cevaplar içeren bir dizi soru (Likert öğeleri), altta yatan bir fenomene ulaşmak için tasarlanmıştır. Soru setine verilen yanıtların toplamı, Likert ölçeği, daha sonra altta yatan fenomenin ölçüsü olarak kullanılır. Likert ürün için "kesinlikle katılmıyorum" bir ölçekte genellikle olmasına rağmen uygulama "yönünde bir eğilim ölçmek için "kesinlikle katılıyorum" A lcohol U se D bu" içinde isorders " Ben ters düşer T est" basittir.

Likert ölçeği Wikipedia sayfasında belirtildiği gibi , "Tek tek Likert öğelerinin aralık düzeyinde veri olarak kabul edilip edilemeyeceği veya bunların sıralı kategorik veri olarak ele alınıp alınmayacağı literatürde neyin güçlü olduğuna dair güçlü mahkumiyetler ile önemli bir anlaşmazlık konusudur. en uygun yöntemler. " Bu anlaşmazlık muhtemelen Likert ölçeği ilk önerdiğinden bu yana 80+ yılın çoğuna dayanmaktadır: Ölçeği oluşturan maddeler arasında hem ölçeği hem de ölçeği oluşturan öğeler arasında eşdeğer mi? Bu soruya verilen cevaplar gibi , bu sitede sorulan en eski sorulardan biri de Çapraz Onaylı'da ele alındı .

Ölçeğin tekdüze (veya eldeki uygulama için tekdüze kadar yeterince yakın, belki de DENETİM'deki gibi 10 farklı öğe ekleyerek ortalaması alınmış) adımları olduğu fikrini kabul ederseniz, analiz için çeşitli yaklaşımlar mümkündür. Bunlardan biri, ölçeğin tepkisini, ölçeğin her biri için yukarı hareket etme olasılığı ile birlikte, ölçeği yukarı taşımak için seçilen veya seçilmeyen bir dizi adım olarak düşünmektir.

Bu, @ nike Likert ölçeği verilerini @MikeLawrence'in 2010 sorusunda olduğu gibi " binom sürecinden n deneme olarak " düşünmesini sağlar. Bu soruya verilen yanıtlar bu fikri çok fazla desteklemese de, bugün farklı binom olasılıkları olan alt popülasyonları ayırt etmek için bu yaklaşımı başarıyla kullanan ve genişleten bir 2014 araştırmasını hızlı bir şekilde bulmak zor değildi . Her ne kadar binom işlemi sayım verilerini modellemek için sıklıkla kullanılsa da, bu nedenle bireyin "Alkol Kullanım Bozuklukları" ölçeği boyunca attığı adımların sayısını, sayımını modellemek için kullanılabilir.

@Scortchi bir belirtildiği gibi yanıt ikinci paragrafta bağlı soruya, binomial model bir sınırlama, ortalama ve tepki varyansı arasında özel bir ilişki koymasıdır. Negatif binom kaldırır basit binom modeli tarafından sağlanan kolay yorumlanması kaybıyla bu kısıtlama. Analizde, uygun olması gereken ekstra parametre sadece bir ek serbestlik derecesi kullanır. Buna karşılık, 40 Likert madde aşamasının her biri ve Likert ölçeğindeki toplamları için farklı olasılıklar belirlemeye çalışmak göz korkutucu olacaktır.

@MatthewGraves'in bu soruya verdiği yanıtta belirttiği gibi, negatif binom modelinin uygun olup olmadığı en iyi şekilde kalıntılar incelenerek cevaplanır. Gelen orijinal çalışmada gelişmiş DENETİM, 40 puanlık bir ölçekte 8 veya daha fazla bir değer 6 farklı ülkede "tehlikeli veya zararlı alkol kullanımı," için teşhis olanlar ayırt oldukça makul belirginliği ve duyarlılığı vardı. Dolayısıyla, yukarıda bağlantılı 2014 çalışmasına benzer şekilde, yüksek riskli ve düşük riskli nüfuslara dayanan iki nüfuslu bir binom modeli daha iyi olacaktır.

AUDIT ile ilgilenenler özellikle özgün çalışmayı incelemelidir. Örneğin, bir sabah içeceğine duyulan ihtiyaç, içme sıklığından tamamen farklı bir şey ölçüyor gibi görünse de, @SeanEaster'ın tahmin ettiği gibi, sabah içmenin, alkol alım ölçümleri ölçeği ile ağırlıkça ortalama 0.73 korelasyonu vardır. (Bu sonuç, alkol kullanım bozukluğu olan arkadaşları olan biri için şaşırtıcı değildir.) AUDIT, birden fazla kültürde güvenilir bir şekilde kullanılabilecek bir enstrüman geliştirmek için ihtiyaç duyulan geleneklere iyi bir örnek gibi görünmektedir.


İyi bir cevap için teşekkür ederim. 20000'den fazla kişiden oluşan kendi DENETİM verilerime bakıldığında, şekil negatif bir binom dağılımına yakın görünüyor, bu yüzden bu dağıtım varsayımını kullanmak mantıklı olabilir mi, yoksa belki de bir yarı-poisson modeli kullanılabilir mi? Eğer 40 bernoulli çalışmasında k başarıları olarak puanları göz önünde bulundurarak binom dağılımı kullanırsak, aşırı dağılım konusunda ciddi bir sorunumuz olmaz mı? Verilerime öyle görünüyor. Yarı-binomyal bir alternatif olabilir mi?
JonB

Çoğunlukla neden 0-40 DENETİM puanlarını modellediğinize ve sonuçlara hangi buluşsal yorumlamayı eklemek istediğinize bağlıdır. İstediğiniz tek şey, AUDIT puanlarının diğer değişkenlerle olan bir ilişkisiyse, dağıtım parametresi değerlerinin yalnızca sınırlı yorumlanmasıyla, iyi davranılmış kalıntılar sağlayan bir dağıtım kullanın; önerileriniz makul. Verilere tek Binom takılması problemlidir, ancak farklı 2 terimliler (yüksek riskli ve düşük risk gruplan) içindeki bir karışımı, p bilgi olabilir. Yargınızı, konu hakkındaki bilginize dayanarak kullanın.
EdM

2

Negatif binom dağılımı "bulaşıcı" ayrı olaylar için tercih edilir. Ayrık olaylar bağımsız olduğunda bir Poisson dağılımı kullanılır. Temel olarak noktasını noktası ile değiştirerek bu dağılımların kısaltılması da oldukça kolaydır .x 40x=40x40

Genel bir yorum olarak, farklı regresyon lezzetlerinin parametreler (yani düzenlenme) ve farklı gürültü modelleri için farklı öncelikleri vardır. Standart en küçük kareler regresyonunun bir Gauss gürültü modeli vardır, negatif binom regresyonunun negatif binom gürültü modeli vardır, vb. Bir regresyon modelinin uygun olup olmadığının gerçek testi, kalan gürültünün beklenen dağılıma sahip olup olmadığıdır.

Böylece verilerinize negatif binom regresyonu uygulayabilir, kalıntıları hesaplayabilir ve daha sonra negatif bir binom olasılık grafiğine çizebilir ve modelin uygun olup olmadığını anlayabilirsiniz. Gürültü başka bir şekilde yapılandırılmışsa, o yapıya daha yakından uyan bir gürültü modeli aramamız gerekir.

Üretken modelden gürültü yapısına gerek duyulması yararlıdır - verilerin katkı maddesi yerine çarpımsal olduğunu bilirsek, örneğin normal yerine lognormal'e ulaşırız - ancak beklenen üretken model ve gürültü yapısı aynı değilse, beklentiyle değil, verilerle devam edin.


İlginç, olayların "bulaşıcı" olabileceğini bilmiyordum. Pratikte x = 40'ı x> = 40 ile değiştirerek ne demek istersiniz? R'de negatif bir binom olasılık grafiğini nasıl yapabilirim? Sanırım artık değerlere uygun arsalar demek istemiyor musunuz? QQ grafiği gibi mi demek istiyorsun?
JonB

@JonB d = 1 ve başarı olasılığı p = .9 olan negatif bir binomunuz olduğunu varsayalım. 40 denemede hayatta kalma olasılığı tam olarak% 0.148'dir; 40 veya daha fazla denemeden kurtulma olasılığı% 1.48'dir. Böylece [0,39] için negatif binom kullanarak ve daha sonra [40] 'ı ayarlayarak etki alanı [0,40] üzerinde iyi biçimlenmiş bir olasılık tanımlanabilir, çünkü negatif binom dağılımı iyi oluşan 40 veya daha fazla olma olasılığıdır.
Matthew Graves

@JonB Kesinlikle, bir QQ grafiği gibi. Daha önce R'de yapmadım, ama umarım bu bağlantı yardımcı olacaktır.
Matthew Graves

1
AUDIT puanları olan bazı veriler üzerinde bir deneme yaptım. Bir qq grafiği oluştururken, negatif bir binom dağılımından rastgele bir sonuç vektörü oluşturmam gerekiyor. Mu / teta regresyon modelim tarafından verilir, ancak hangi "boyutu" kullanacağımı nasıl bilebilirim? Bu R-özel bir soru ise özür dilerim .. Her neyse, nazik ölçmek birkaç öğe toplanarak inşa edilen bu tür ölçeklere negatif binom (ve diğer dağıtımlar) uygulamak hakkında daha fazla okuyabileceğim güzel bir referans var mı? aynı sürecin?
JonB

Şimdi ek deneyler yaptım. İki değişkenli bir veri kümesini simüle ettim: x ve y. % 50'si x = 0,% 50'si x = 1'dir. X = 0 olanların y = 1 için 0.2 olasılığı vardır ve x = 1 olanların y = 1 için 0.4 olasılığı vardır. Daha sonra lojistik bir gerileme yürüttüm ve artıklara bir göz attım. Hiç binomial dağılmış görünmüyor. Aslında, (elbette) 4 spesifik değer alırlar. Kalan kalıbın her zaman dağıtım varsayımına uyması gerektiğinden emin misiniz? Çünkü bu durumda, bu açıkça yanlış.
JonB
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.