Sıra veya aralık verileri için puanlayıcılar arası güvenilirlik


25

Sıralı veya aralıklı veriler için en çok puanlayıcılar arası güvenilirlik yöntemleri hangileridir?

"Ortak anlaşma olasılığı" veya "Kappa" nın nominal veriler için tasarlandığını düşünüyorum. "Pearson" ve "Spearman" kullanılabilse de, esas olarak iki puanlayıcı için kullanılırlar (ikiden fazla puanlayıcı için kullanılsalar da).

Sıralı veya aralıklı veriler için, yani ikiden fazla puanlayıcı için başka hangi ölçütler uygundur?

Yanıtlar:


29

Kappa ( ) istatistiği, nominal veya sıralı bir ölçekte 2 puanlayıcı arasındaki gözlemlenen anlaşmayı, sadece şans eseri beklenen (puanlayıcılar fırlatıyormuş gibi) yapılan anlaşmayla karşılaştıran bir kalite endeksidir. Birden fazla puanlayıcı için uzantılar mevcuttur (2, s. 284-231). Durumunda sıralı veriler , kullanabileceğiniz ağırlıklı \ kappa'yı temelde her zamanki gibi okur \ kappa çapraz kapatma elemanları anlaşmasının ölçüsü katkıda ile. Fleiss (3), \ kappa değerlerini yorumlamak için kılavuzlar sağladı, ancak bunlar yalnızca başparmakların kuralları.κ κκκ

istatistik iki yönlü rastgele etki ANOVA tahmin ICC asimptotik eşdeğerdir ancak anlamlılık testleri ve SE zamanki ANOVA çerçevesinde gelen ikili verilerle artık geçerli değildir. Güven aralığı (CI) elde etmek için önyükleme kullanmak daha iyidir. Fleiss (8) ağırlıklı kappa ve sınıf içi korelasyon (ICC) arasındaki bağlantıyı tartıştı.κ

Bazı Psikometristler gibi çok fazla değil unutulmamalıdır o öngörü değerleri göz altında hastalığın yaygınlığı etkilenen çok gibi ölçüm nesnenin yaygınlığı etkilenir, çünkü bu paradoksal sonuçlara yol açabilir.κ

puanlayıcılar için puanlayıcılar arası güvenilirlik , Kendall'ın uyum katsayısı ile tahmin edilebilir . olarak derecelendirilen öğe veya birim sayısı , . (2, sayfa 269-270). Bu asimptotik yaklaşım, ve (6) ' nın ılımlı değeri için geçerlidir , ancak 20'den az maddeyle veya permütasyon testleri daha uygundur (7). Spearman's ve Kendall'ın istatistiği arasında yakın bir ilişki var : doğrudan ikili Spearman korelasyonlarının ortalamasından hesaplanabilir (sadece çözülmüş gözlemler için).kWn>7k(n-1)W~χ2(n-1)nkFρWW

Politik (ordinal veri) korelasyon, aynı zamanda değerlendiriciler arası anlaşmanın bir ölçüsü olarak da kullanılabilir. Nitekim, izin verir

  • Eğer derecelendirmeler sürekli ölçekte yapılırsa korelasyonun ne olacağını tahmin etmek,
  • puanlayıcılar arasındaki marjinal homojenliği test eder.

Aslında, dağıtım varsayımlarını gevşetmeyi sağlayan özel bir gizli özellik modelleme durumu olduğu gösterilebilir (4).

Hakkında sürekli (ya da kabul) ölçümler arasında,-konu varyasyonuna varyans atfedilebilen oranını ölçen ICC gayet iyi. Yine, önyükleme CI'ler önerilir. @Ars'ın da söylediği gibi, temelde iki versiyon vardır - anlaşma ve tutarlılık - anlaşma çalışmaları için geçerli olan (5) ve esas olarak kareler toplamının hesaplanma şekli bakımından farklı olan; “tutarlılık” ICC genellikle Öğe × Değerlendirici etkileşimi dikkate alınmadan tahmin edilir. ANOVA çerçevesi, derecelendirme sayısını ( BIBD ) en aza indirmek isteyen özel blok tasarımında kullanışlıdır - aslında, bu Fleiss'in çalışmalarının orijinal motivasyonlarından biriydi. Aynı zamanda birden fazla puanlayıcıya gitmenin en iyi yolu. Bu yaklaşımın doğal uzantısı Genelleştirilebilirlik Teorisi olarak adlandırılır . Rater Models: Giriş bölümünde kısa bir genel bakış verilmiştir , aksi takdirde standart referans Psychometrika 2006 71 (3) 'te gözden geçirilen Brennan kitabıdır .

Genel referanslar için, Psikiyatride İstatistik Bölüm 3'ü Graham Dunn'dan önermekteyim (Hodder Arnold, 2000). Güvenilirlik çalışmalarının daha kapsamlı bir tedavisi için, bugüne kadarki en iyi referans

Dunn, G (2004). Güvenilirlik Çalışmalarının Tasarımı ve Analizi . Arnold. Uluslararası Epidemiyoloji Dergisi'ndeki incelemeye bakınız .

John Uebersax'ın web sitesinde, Sınıf İçi İlişkilerde ve İlgili Yöntemlerde çevrimiçi olarak iyi bir tanıtım yapılabilir ; ICC yaklaşımının artılarını ve eksilerini, özellikle sıralı skalalarla ilgili bir tartışmayı içerir.

İki yönlü değerlendirme için ilgili R paketleri (sıralı veya sürekli ölçümler) Psikometri Görev Görünümü'nde bulunur; Genelde psy , pssy veya irr paketlerini kullanırım. Orada da var concord paket ama asla kullanılmış. İkiden fazla puanlayıcıyla uğraşmak için lme4 paketi, rastgele efektleri kolayca eklemeyi mümkün kılma yoludur, ancak güvenilirlik tasarımlarının çoğu, aov()yalnızca varyans bileşenlerini tahmin etmemiz gerektiği için analiz edilebilir .

Referanslar

  1. J Cohen. Ağırlıklı Kappa: Kısmi kredinin anlaşmazlığı için ölçek hükmü ile nominal ölçekli anlaşma. Psikolojik Bülten , 70 , 213-220, 1968.
  2. S Siegel ve Jr N John Castellan. Davranış Bilimleri İçin Parametrik Olmayan İstatistikler . McGraw-Hill, İkinci baskı, 1988.
  3. JL Fleiss. Oranlar ve Oranlar İçin İstatistiksel Yöntemler . New York: Wiley, İkinci baskı, 1981.
  4. JS Uebersax. Tetrachoric ve polychoric korelasyon katsayıları . Derecelendirme Sözleşmesi web sitesi, 2006 için İstatistiksel Yöntemler . Http://john-uebersax.com/stat/tetra.htm . Erişim tarihi 24 Şubat 2010.
  5. PE Kapatma ve JL Fleiss. Sınıf içi korelasyon: Değerlendirici güvenilirliğinin değerlendirilmesinde kullanılır . Psikolojik Bülten , 86 , 420-428, 1979.
  6. MG Kendall ve B Babington Smith. M sıralama problemi . Matematiksel İstatistiklerin Annals , 10 , 275-287, 1939.
  7. P Legendre. Uyum katsayısı . NJ Salkind, editör, Araştırma Tasarım Ansiklopedisi . SAGE Yayınları, 2010.
  8. JL Fleiss. Ağırlıklandırılmış kappa ve sınıf içi korelasyon katsayısının güvenilirlik ölçütleri olarak denkliği . Eğitim ve Psikolojik Ölçüm , 33 , 613-619, 1973.

3
Üç ek referans: 1. Kappa'nın ötesinde: Mousumi Banerjee, Michelle Capozzoli, Laura McSweeney ve Debajyoti Sinha'nın ara değerlendirme anlaşması önlemlerinin gözden geçirilmesi 2. Ara değerlendirme güvenilirliği ve performans değerlendirmesi sözleşmesi: John W. Fleenor, Julie B. Fleenor & William F. Grossnickle
M. Tibbits 13:10

3. Spor hekimliği ile ilgili değişkenlerde ölçüm hatasını (güvenilirlik) değerlendirmek için istatistiksel yöntemler. by Atkinson G & Nevill AM. İlk referans, ordinal verilere özgüdür ve ordinal veriler için kappa dışındaki diğer önlemleri tartışır. İkinci ve üçüncü, aralık verilerine özgüdür.
M. Tibbits

(+1) Çok Teşekkürler M. Tibbits! Psikometride derslerim sırasında genellikle ilk alıntı yaptığınız da dahil olmak üzere birçok referans ve örnek veriyorum, ancak ikisini de tanımıyorum.
chl

İlave olarak, sıralı paket, lme4 gibi çok seviyeli modellemeye izin verir, ancak sıralı regresyonla.
John

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.