Her iki yöntem de gözlenen varyansı farklı parçalara veya bileşenlere ayırma fikrine dayanır. Bununla birlikte, kalemlerin ve / veya değerlendiricilerin sabit veya rastgele etkiler olarak kabul edilip edilmeyeceği konusunda küçük farklılıklar vardır. Toplam değişkenliğin hangi kısmının ara faktör (veya varyans arasındaki artık varyanstan ne kadar ayrıldığını) açıkladığını söylemenin yanı sıra, F testi fazla bir şey söylemez. En azından bu, sabit bir etki varsaydığımız (ve aşağıda açıklanan ICC'ye (1,1) karşılık gelen) tek yönlü bir ANOVA için geçerlidir. Öte yandan, ICC birkaç "değiştirilebilir" derecelendirici için derecelendirme güvenilirliğini veya analitik birimler arasındaki homojenliği değerlendirirken sınırlı bir endeks sağlar.
Farklı ICC türleri arasında genellikle aşağıdaki ayrımı yaparız. Bu, Shrout ve Fleiss'in (1979) seminal çalışmasından kaynaklanmaktadır:
- Tek yönlü rastgele etkiler modeli , ICC (1,1): her bir öğe, daha büyük potansiyel derecelendiriciler havuzundan örneklendiği düşünülen farklı değerlendiriciler tarafından derecelendirilir, bu nedenle rastgele etkiler olarak ele alınır; ICC daha sonra denek / madde varyansı tarafından hesaplanan toplam varyansın yüzdesi olarak yorumlanır. Buna ICC tutarlılığı denir.
- İki yönlü rastgele etkiler modeli , ICC (2,1): her iki faktör - değerlendiriciler ve öğeler / konular - rastgele etkiler olarak görüntülenir ve artık varyansa ek olarak iki varyans bileşeni (veya ortalama kareler) vardır; ayrıca değerlendiricilerin tüm konuları / konuları değerlendirdiğini varsayıyoruz; ICC bu durumda değerlendiriciler + öğeler / konularla ilişkilendirilebilen varyansın yüzdesini verir.
- İki yönlü karma model , ICC (3,1): tek yönlü yaklaşımın aksine, burada değerlendiriciler sabit etkiler olarak kabul edilir (eldeki numunenin ötesinde genelleme yoktur) ancak nesneler / özneler rastgele etkiler olarak ele alınır; analiz birimi bireysel veya ortalama derecelendirmeler olabilir.
Bu, Tablo 1'deki 1 ila 3 numaralı vakalara karşılık gelir. Gözlemlenen derecelendirmelerin birkaç derecelendirmenin ortalaması olduğunu düşünüp düşünmediğimize bağlı olarak ek bir ayrım yapılabilir (ICC (1, k), ICC (2, k), ve ICC (3, k)).
Özetle, doğru modeli seçmelisiniz (tek yönlü veya iki yönlü) ve bu büyük ölçüde Shrout ve Fleiss'in makalesinde tartışılmaktadır. Tek yönlü bir model, iki yönlü modele göre daha küçük değerler verme eğilimindedir; benzer şekilde, rastgele etki modeli genellikle sabit etki modelinden daha düşük değerler verir. Sabit etkiler modelinden türetilmiş bir ICC, değerlendiricilerin tutarlılığını değerlendirmenin bir yolu olarak kabul edilir (çünkü derecelendirici varyansını görmezden geliriz), oysa rastgele etkiler modelinde değerlendiriciler anlaşmasının bir tahmininden bahsederiz (değerlendiriciler birbirinin değişip değişmeyeceği). Tipik olmayan derecelendirme düzenlerini çözmeye çalışırken ilgi çekici olabilecek rater x konu etkileşimini yalnızca iki yönlü modeller içerir.
Aşağıdaki şekilde, kolaylıkla / örnek arasında yapıştırma kopyasıdır ICC()
olarak psikolojik paketi (veriler Shrout ve Fleiss, 1979 gelir). Veriler 6 hakimi veya hedefi (S) belirleyen 4 hakemden (J) oluşur ve aşağıda özetlenmiştir (bunun bir R matrisi olarak depolandığını varsayacağım sf
)
J1 J2 J3 J4
S1 9 2 5 8
S2 6 1 3 2
S3 8 4 6 8
S4 7 1 2 6
S5 10 5 6 9
S6 6 2 4 7
Bu örnek ilginçtir, çünkü model seçiminin sonuçları nasıl etkileyebileceğini, dolayısıyla güvenilirlik çalışmasının yorumlanmasını göstermektedir. 6 ICC modelinin tümü aşağıdaki gibidir (Shrout ve Fleiss'in raporundaki Tablo 4)
Intraclass correlation coefficients
type ICC F df1 df2 p lower bound upper bound
Single_raters_absolute ICC1 0.17 1.8 5 18 0.16477 -0.133 0.72
Single_random_raters ICC2 0.29 11.0 5 15 0.00013 0.019 0.76
Single_fixed_raters ICC3 0.71 11.0 5 15 0.00013 0.342 0.95
Average_raters_absolute ICC1k 0.44 1.8 5 18 0.16477 -0.884 0.91
Average_random_raters ICC2k 0.62 11.0 5 15 0.00013 0.071 0.93
Average_fixed_raters ICC3k 0.91 11.0 5 15 0.00013 0.676 0.99
Görülebileceği gibi, değerlendiricilerin sabit etkiler olarak görülmesi (dolayısıyla daha geniş bir değerlendirici havuzuna genelleme yapmaya çalışmamak) ölçümün homojenliği için çok daha yüksek bir değer verecektir. ( İrr paketi ( icc()
) ile benzer sonuçlar elde edilebilir , ancak model türü ve analiz birimi için farklı bir seçenekle oynamalıyız.)
ANOVA yaklaşımı bize ne anlatıyor? İlgili ortalama kareleri elde etmek için iki modele uymamız gerekir:
- yalnızca konuyu dikkate alan tek yönlü bir model; bu, derecelendirilen hedeflerin (grup MS, BMS) ayrılmasını ve hata içi terimin (WMS) bir tahmininin alınmasını sağlar
- konu + rater + etkileşimlerini göz önünde bulunduran iki yönlü bir model (çoğaltma olmadığında, bu son terim artıklarla karıştırılacaktır); Bu, rasgele efektler modeli kullanmak istiyorsak hesaba katılabilecek derecelendirici ana etkisini (JMS) tahmin etmeyi sağlar (yani, toplam değişkenliğe ekleriz)
F testine bakmaya gerek yok, sadece MS'ler burada ilgi çekiyor.
library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))
Şimdi, farklı parçaları aşağıda gösterilene benzeyen genişletilmiş bir ANOVA Tablosuna monte edebiliriz (Shrout ve Fleiss'in kağıdındaki Tablo 3):
(kaynak: mathurl.com )
burada ilk iki sıra tek yönlü modelden gelirken, sonraki iki satır iki yönlü ANOVA'dan gelir.
Shrout ve Fleiss'in makalesindeki tüm formülleri kontrol etmek kolaydır ve tek bir değerlendirme için güvenilirliği tahmin etmek için ihtiyacımız olan her şeye sahibiz . Birden fazla değerlendirmenin ortalaması için güvenilirlik ne durumda (genellikle değerlendiriciler arası çalışmalara ilgi miktarı)? Hays ve Revicki'nin (2005) ardından, MS'lerin oranını yeniden yazmak zorunda olduğumuz iki yönlü rastgele etkiler modeli hariç olmak üzere, paydada dikkate alınan toplam MS'yi değiştirerek yukarıdaki ayrışmadan elde edilebilir.
- ICC (1,1) = (BMS-WMS) / (BMS + (k-1) • WMS) durumunda, genel güvenilirlik (BMS-WMS) /BMS=0.443 olarak hesaplanır.
- ICC (2,1) = (BMS-EMS) / (BMS + (k-1) • EMS + k • (JMS-EMS) / N) için genel güvenilirlik (N • (BMS-EMS)) / (K • BMS + JMS-EMS) 0.620 =.
- Son olarak, ICC (3,1) = (BMS-EMS) / (BMS + (k-1) • EMS) için, (BMS-EMS) /BMS=0.909 güvenilirliğine sahibiz.
Yine, değerlendiricileri sabit etkiler olarak değerlendirirken genel güvenilirliğin daha yüksek olduğunu görüyoruz.
Referanslar
- Shrout, PE ve Fleiss, JL (1979). Sınıf içi korelasyonlar: Değerlendirici güvenilirliğini değerlendirmede kullanır . Psikolojik Bülten , 86, 420-3428.
- Hays, RD ve Revicki, D. (2005). Güvenilirlik ve geçerlilik (yanıt verebilirlik dahil). Fayers, P. ve Hays, RD (ed.), Klinik Araştırmalarda Yaşam Kalitesinin Değerlendirilmesi , 2. baskı, s. 25-39. Oxford Üniversitesi Yayınları.