Sınıf içi korelasyon katsayısı F testi (tek yönlü ANOVA) mı?


10

Sınıf içi korelasyon katsayısı ve tek yönlü ANOVA konusunda biraz kafam karıştı. Anladığım kadarıyla, her ikisi de size bir grup içindeki benzer gözlemlerin, diğer gruplardaki gözlemlere göre ne olduğunu söyler.

Birisi bunu biraz daha iyi açıklayabilir ve belki de her yöntemin daha avantajlı olduğu durumları açıklayabilir mi?


Lütfen, güvenilirlik veya değerlendiriciler arası etiketlere bakmak için zaman ayırın . ICC bir ANOVA tablosuna dayanmaktadır, ancak fikir, F testi gibi dağılım özelliklerine sahip tek bir test istatistiği üretmek yerine sadece varyans bileşenlerini analiz etmektir. Aklınızda hangi uygulama var?
chl

@chl Gruplandırılmış veriler için bireysel puanları analiz etmek istiyorum. Ebeveynler ve çocukların puanları arasındaki farklılıkları inceleyen birkaç makale gördüm, ICC'yi kullanarak ebeveynlere ve çocuklara verilen yanıtlarda önemli bir fark olup olmadığını anlattım. ICC'nin burada istediğim şey olduğunu düşünüyorum, ancak belirttiğim gibi, ikisi arasındaki farkı gerçekten anlamıyorum. Daha fazla soru sormaktan çekinmeyin, ancak iyi (temel) referanslar biliyor musunuz? İstatistik geçmişim doğrusal gerilemede durdu ve iyi formüle edilmemiş sorular soruyorum. Teşekkür ederim.
blep

Eşleştirilmiş verileriniz var gibi görünüyor. Ayrı grupları (ebeveynler ve çocukları) değerlendirirken ve puan güvenilirliğini bildirmek için bir ICC kullanırken, bilgilerin bir kısmını, yani ebeveynlerden ve akrabalarının derecelendirmelerinin tutarlı bir şekilde hareket edip etmediğini atarsınız. İki ICC'niz, yalnızca varyansın önemli bir kısmının değerlendirici etkisi ile açıklanabileceği anlamında, bağımsız olduğu varsayılan her iki puan dizisinin "güvenilir" olup olmadığını söyleyecektir. (...)
chl

(...) Özetle, ebeveyn derecelendirmelerinin çocuklardan daha güvenilir olduğunu göstermek istiyorsanız, ICC kullanmak iyidir; Öte yandan, ebeveyn puanlarının çocuk puanlarıyla nasıl ilişkili olduğunu incelemek istiyorsanız, o zaman başka tür analizlere başvurabilirsiniz (tam olarak ikili verilerin analizi).
chl

Yanıtlar:


17

Her iki yöntem de gözlenen varyansı farklı parçalara veya bileşenlere ayırma fikrine dayanır. Bununla birlikte, kalemlerin ve / veya değerlendiricilerin sabit veya rastgele etkiler olarak kabul edilip edilmeyeceği konusunda küçük farklılıklar vardır. Toplam değişkenliğin hangi kısmının ara faktör (veya varyans arasındaki artık varyanstan ne kadar ayrıldığını) açıkladığını söylemenin yanı sıra, F testi fazla bir şey söylemez. En azından bu, sabit bir etki varsaydığımız (ve aşağıda açıklanan ICC'ye (1,1) karşılık gelen) tek yönlü bir ANOVA için geçerlidir. Öte yandan, ICC birkaç "değiştirilebilir" derecelendirici için derecelendirme güvenilirliğini veya analitik birimler arasındaki homojenliği değerlendirirken sınırlı bir endeks sağlar.

Farklı ICC türleri arasında genellikle aşağıdaki ayrımı yaparız. Bu, Shrout ve Fleiss'in (1979) seminal çalışmasından kaynaklanmaktadır:

  • Tek yönlü rastgele etkiler modeli , ICC (1,1): her bir öğe, daha büyük potansiyel derecelendiriciler havuzundan örneklendiği düşünülen farklı değerlendiriciler tarafından derecelendirilir, bu nedenle rastgele etkiler olarak ele alınır; ICC daha sonra denek / madde varyansı tarafından hesaplanan toplam varyansın yüzdesi olarak yorumlanır. Buna ICC tutarlılığı denir.
  • İki yönlü rastgele etkiler modeli , ICC (2,1): her iki faktör - değerlendiriciler ve öğeler / konular - rastgele etkiler olarak görüntülenir ve artık varyansa ek olarak iki varyans bileşeni (veya ortalama kareler) vardır; ayrıca değerlendiricilerin tüm konuları / konuları değerlendirdiğini varsayıyoruz; ICC bu durumda değerlendiriciler + öğeler / konularla ilişkilendirilebilen varyansın yüzdesini verir.
  • İki yönlü karma model , ICC (3,1): tek yönlü yaklaşımın aksine, burada değerlendiriciler sabit etkiler olarak kabul edilir (eldeki numunenin ötesinde genelleme yoktur) ancak nesneler / özneler rastgele etkiler olarak ele alınır; analiz birimi bireysel veya ortalama derecelendirmeler olabilir.

Bu, Tablo 1'deki 1 ila 3 numaralı vakalara karşılık gelir. Gözlemlenen derecelendirmelerin birkaç derecelendirmenin ortalaması olduğunu düşünüp düşünmediğimize bağlı olarak ek bir ayrım yapılabilir (ICC (1, k), ICC (2, k), ve ICC (3, k)).

Özetle, doğru modeli seçmelisiniz (tek yönlü veya iki yönlü) ve bu büyük ölçüde Shrout ve Fleiss'in makalesinde tartışılmaktadır. Tek yönlü bir model, iki yönlü modele göre daha küçük değerler verme eğilimindedir; benzer şekilde, rastgele etki modeli genellikle sabit etki modelinden daha düşük değerler verir. Sabit etkiler modelinden türetilmiş bir ICC, değerlendiricilerin tutarlılığını değerlendirmenin bir yolu olarak kabul edilir (çünkü derecelendirici varyansını görmezden geliriz), oysa rastgele etkiler modelinde değerlendiriciler anlaşmasının bir tahmininden bahsederiz (değerlendiriciler birbirinin değişip değişmeyeceği). Tipik olmayan derecelendirme düzenlerini çözmeye çalışırken ilgi çekici olabilecek rater x konu etkileşimini yalnızca iki yönlü modeller içerir.

Aşağıdaki şekilde, kolaylıkla / örnek arasında yapıştırma kopyasıdır ICC()olarak psikolojik paketi (veriler Shrout ve Fleiss, 1979 gelir). Veriler 6 hakimi veya hedefi (S) belirleyen 4 hakemden (J) oluşur ve aşağıda özetlenmiştir (bunun bir R matrisi olarak depolandığını varsayacağım sf)

   J1 J2 J3 J4
S1  9  2  5  8
S2  6  1  3  2
S3  8  4  6  8
S4  7  1  2  6
S5 10  5  6  9
S6  6  2  4  7

Bu örnek ilginçtir, çünkü model seçiminin sonuçları nasıl etkileyebileceğini, dolayısıyla güvenilirlik çalışmasının yorumlanmasını göstermektedir. 6 ICC modelinin tümü aşağıdaki gibidir (Shrout ve Fleiss'in raporundaki Tablo 4)

Intraclass correlation coefficients 
                         type  ICC    F df1 df2       p lower bound upper bound
Single_raters_absolute   ICC1 0.17  1.8   5  18 0.16477      -0.133        0.72
Single_random_raters     ICC2 0.29 11.0   5  15 0.00013       0.019        0.76
Single_fixed_raters      ICC3 0.71 11.0   5  15 0.00013       0.342        0.95
Average_raters_absolute ICC1k 0.44  1.8   5  18 0.16477      -0.884        0.91
Average_random_raters   ICC2k 0.62 11.0   5  15 0.00013       0.071        0.93
Average_fixed_raters    ICC3k 0.91 11.0   5  15 0.00013       0.676        0.99

Görülebileceği gibi, değerlendiricilerin sabit etkiler olarak görülmesi (dolayısıyla daha geniş bir değerlendirici havuzuna genelleme yapmaya çalışmamak) ölçümün homojenliği için çok daha yüksek bir değer verecektir. ( İrr paketi ( icc()) ile benzer sonuçlar elde edilebilir , ancak model türü ve analiz birimi için farklı bir seçenekle oynamalıyız.)

ANOVA yaklaşımı bize ne anlatıyor? İlgili ortalama kareleri elde etmek için iki modele uymamız gerekir:

  • yalnızca konuyu dikkate alan tek yönlü bir model; bu, derecelendirilen hedeflerin (grup MS, BMS) ayrılmasını ve hata içi terimin (WMS) bir tahmininin alınmasını sağlar
  • konu + rater + etkileşimlerini göz önünde bulunduran iki yönlü bir model (çoğaltma olmadığında, bu son terim artıklarla karıştırılacaktır); Bu, rasgele efektler modeli kullanmak istiyorsak hesaba katılabilecek derecelendirici ana etkisini (JMS) tahmin etmeyi sağlar (yani, toplam değişkenliğe ekleriz)

F testine bakmaya gerek yok, sadece MS'ler burada ilgi çekiyor.

library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))

Şimdi, farklı parçaları aşağıda gösterilene benzeyen genişletilmiş bir ANOVA Tablosuna monte edebiliriz (Shrout ve Fleiss'in kağıdındaki Tablo 3):


(kaynak: mathurl.com )

burada ilk iki sıra tek yönlü modelden gelirken, sonraki iki satır iki yönlü ANOVA'dan gelir.

Shrout ve Fleiss'in makalesindeki tüm formülleri kontrol etmek kolaydır ve tek bir değerlendirme için güvenilirliği tahmin etmek için ihtiyacımız olan her şeye sahibiz . Birden fazla değerlendirmenin ortalaması için güvenilirlik ne durumda (genellikle değerlendiriciler arası çalışmalara ilgi miktarı)? Hays ve Revicki'nin (2005) ardından, MS'lerin oranını yeniden yazmak zorunda olduğumuz iki yönlü rastgele etkiler modeli hariç olmak üzere, paydada dikkate alınan toplam MS'yi değiştirerek yukarıdaki ayrışmadan elde edilebilir.

  • ICC (1,1) = (BMS-WMS) / (BMS + (k-1) • WMS) durumunda, genel güvenilirlik (BMS-WMS) /BMS=0.443 olarak hesaplanır.
  • ICC (2,1) = (BMS-EMS) / (BMS + (k-1) • EMS + k • (JMS-EMS) / N) için genel güvenilirlik (N • (BMS-EMS)) / (K • BMS + JMS-EMS) 0.620 =.
  • Son olarak, ICC (3,1) = (BMS-EMS) / (BMS + (k-1) • EMS) için, (BMS-EMS) /BMS=0.909 güvenilirliğine sahibiz.

Yine, değerlendiricileri sabit etkiler olarak değerlendirirken genel güvenilirliğin daha yüksek olduğunu görüyoruz.

Referanslar

  1. Shrout, PE ve Fleiss, JL (1979). Sınıf içi korelasyonlar: Değerlendirici güvenilirliğini değerlendirmede kullanır . Psikolojik Bülten , 86, 420-3428.
  2. Hays, RD ve Revicki, D. (2005). Güvenilirlik ve geçerlilik (yanıt verebilirlik dahil). Fayers, P. ve Hays, RD (ed.), Klinik Araştırmalarda Yaşam Kalitesinin Değerlendirilmesi , 2. baskı, s. 25-39. Oxford Üniversitesi Yayınları.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.