Cohen'in basit İngilizce dilinde kappa


131

Bir veri madenciliği kitabı okuyorum ve sınıflayıcıların tahmin performansını değerlendirmenin bir aracı olarak Kappa istatistiklerinden bahsetti. Ancak bunu anlayamıyorum. Ayrıca Wikipedia'yı da kontrol ettim ama bu da yardımcı olmadı: https://en.wikipedia.org/wiki/Cohen's_kappa .

Cohen'in kappa sınıflandırıcıların öngörü performansını değerlendirmede nasıl yardımcı olur? Ne anlatıyor?

% 100 kappa'nın sınıflandırıcının rastgele bir sınıflandırıcıyla tamamen uyumlu olduğu anlamına geldiğini anlıyorum, ancak bunun sınıflandırıcının performansını değerlendirmede nasıl yardımcı olduğunu anlamıyorum?

% 40 kappa ne demektir? Sınıflandırıcının, zamanın% 40'ının rastgele sınıflandırıcıyla uyumlu olduğu anlamına mı geliyor? Eğer öyleyse, bu sınıflandırıcıyı değerlendirmede bana ne söylüyor veya yardımcı oluyor?

Yanıtlar:


226

Giriş

Kappa istatistiği (veya değer) Gözlenen Doğruluk ile Beklenen Doğruluk (rastgele şans) ile karşılaştırılan bir metriktir . Kappa istatistiği yalnızca tek bir sınıflandırıcıyı değerlendirmek için değil, aynı zamanda kendi aralarında sınıflandırıcıları değerlendirmek için kullanılır. Ek olarak, rastgele şansı (rastgele bir sınıflandırıcı ile anlaşma) hesaba katar; bu genellikle bir metrik olarak doğruluğu kullanmaktan daha az yanıltıcı olduğu anlamına gelir ( % 80'lik bir Gözlenen Doğruluk ,% 75 Beklenen Doğruluk oranı ile çok daha az etkileyicidir) . bir karşı Beklenen Doğruluk )% 50. Gözlenen Doğruluk ve Beklenen Doğruluk Hesabıkappa istatistiğinin anlaşılması için bir bütündür ve bir karmaşa matrisi kullanılarak en kolay şekilde tasvir edilmiştir. Kedi ve Köpeklerin basit bir ikili sınıflandırmasından elde edilen basit bir karışıklık matrisiyle başlayalım :

Hesaplama

     Cats Dogs
Cats| 10 | 7  |
Dogs| 5  | 8  |

Etiketli veriler üzerinde denetimli makine öğrenimi kullanılarak bir model oluşturulduğunu varsayalım. Bu her zaman böyle olmak zorunda değildir; kappa istatistiği genellikle iki insan değerlendirici arasındaki güvenilirliğin bir ölçüsü olarak kullanılır. Ne olursa olsun, sütunlar bir "puanlayıcıya" karşılık gelirken, satırlar başka bir "puanlayıcıya" karşılık gelir. Denetimli makine öğreniminde, bir "puanlayıcı" , etiketlenmiş verilerden elde edilen temel gerçeği (sınıflandırılacak her bir örneğin gerçek değerleri) yansıtırken , diğer "puanlayıcı", sınıflandırmayı gerçekleştirmek için kullanılan makine öğrenme sınıflandırıcısıdır. Nihayetinde kappa istatistiğini kimin hesaplayacağı önemli değil, açıklık için ' sınıflandırmalar.

Karışıklık matrisinden toplam 30 örnek olduğunu görebiliriz (10 + 7 + 5 + 8 = 30). Birinci sütuna göre 15 , Kediler (10 + 5 = 15), ikinci sütuna göre 15 Köpekler (7 + 8 = 15) olarak etiketlenmiştir . Modelin 17 örneği Kediler (10 + 7 = 17) ve 13 örneği Köpekler (5 + 8 = 13) olarak sınıflandırdığını da görebiliriz .

Gözlemlenen Doğruluk olarak etiketlenmesi durumlarda sayısına yani tüm karışıklık matris boyunca doğru sınıflandırıldı örnekleri sadece sayısını, Kediler aracılığıyla zemin gerçeğin ardından sınıflandırılmış olarak Kediler tarafından makine öğrenme sınıflandırıcı olarak veya etiketli Köpekler vasıtasıyla zemin hakikat ve daha sonra makine öğrenme sınıflandırıcısı tarafından Köpekler olarak sınıflandırılır . Hesaplamak için Gözlemlenen Doğruluk , biz sadece örneklerinin sayısını eklemek makine öğrenme sınıflandırıcı ile mutabık zemin gerçeğietiketleyin ve toplam örnek sayısına bölün. Bu karışıklık matrisi için, bu 0.6 ((10 + 8) / 30 = 0.6) olacaktır.

Kappa istatistiğinin denklemine gelmeden önce, bir değer daha gereklidir: Beklenen Doğruluk . Bu değer, karışıklık matrisine dayanarak rastgele herhangi bir sınıflandırıcının elde etmesi beklenen doğruluk olarak tanımlanır. Beklenen Doğruluk doğrudan her sınıf (örneği sayısıyla ilgilidir Kediler ve Köpekler örneklerinin sayısıyla birlikte) makine öğrenimi sınıflandırıcı ile mutabık zemin gerçeği etiket. Hesaplamak için Beklenen Doğruluk ilk çarpma bizim karışıklık matris için marjinal frekansı arasında Kediler birer "değerlendirici" için marjinal frekansa aitİkinci "puanlayıcı" için kediler ve toplam örnek sayısına bölün. Belli bir sınıf için belirli bir "puanlayıcı" tarafından olan marjinal frekans , sadece belirtilen "puanlayıcı" nın olduğu sınıfların toplamıdır. Bizim durumumuzda 15 (10 + 5 = 15) örnek, zemin gerçeğine göre Kediler olarak etiketlendi ve 17 (10 + 7 = 17) örnek , makine öğrenme sınıflandırıcısı tarafından Kediler olarak sınıflandırıldı . Bu da 8,5 (15 x 17/30 = 8,5) değerine yol açar . Bu daha sonra ikinci sınıf için de yapılır (ve eğer 2'den fazlası varsa her ek sınıf için tekrarlanabilir). 15(7 + 8 = 15) örnekler yer gerçeğine göre Köpekler olarak etiketlenmiş ve 13 (8 + 5 = 13) örnekler makine öğrenme sınıflandırıcısı tarafından Köpekler olarak sınıflandırılmıştır . Bu 6.5 değerinde bir sonuç verir (15 * 13/30 = 6.5). Son adım, tüm bu değerleri bir araya getirmek ve sonunda toplam örnek sayısına bölün ve sonuçta , 0,5 ((8,5 + 6,5) / 30 = 0,5) Beklenen Doğrulukla sonuçlanır . Örneğimizde, Beklenen Doğruluk % 50 olarak ortaya çıktı, çünkü her "sınıfçı" her sınıfı bir ikili sınıflandırmada aynı sıklıkta sınıflandırdığında (her iki Kedi de)ve Köpekler , karışıklık matrisimizdeki yer gerçeği etiketlerine göre 15 örnek içeriyordu ).

Kappa istatistiği, hem Gözlenen Doğruluk ( 0.60 ) hem de Beklenen Doğruluk ( 0.50 ) ve aşağıdaki formül kullanılarak hesaplanabilir:

Kappa = (observed accuracy - expected accuracy)/(1 - expected accuracy)

Yani, bizim durumumuzda, kappa istatistiği eşittir: (0.60 - 0.50) / (1 - 0.50) = 0.20.

Başka bir örnek olarak, burada daha az dengeli bir karışıklık matrisi ve karşılık gelen hesaplamalar yer almaktadır:

     Cats Dogs
Cats| 22 | 9  |
Dogs| 7  | 13 |

Temel gerçek: Kediler (29), Köpekler (22)
Makine Öğrenimi Sınıflandırıcısı: Kediler (31), Köpekler (20)
Toplam: (51)
Gözlenen Doğruluk: ((22 + 13) / 51) = 0,69
Beklenen Doğruluk: ((29) * 31/51) + (22 * 20/51)) / 51 = 0.51
Kappa: (0.69 - 0.51) / (1 - 0.51) = 0.37

Temelde, kappa istatistiği, makine öğrenmesi sınıflandırıcısı tarafından sınıflandırılan örneklerin , zemin doğruluğu olarak etiketlenen verileri ne kadar yakından eşleştirdiğini ve beklenen doğruluk ile ölçülen rastgele bir sınıflandırıcının doğruluğunu kontrol eden bir ölçüdür . Bu kappa istatistiği, sınıflandırıcının kendisinin nasıl performans gösterdiğine ışık tutamaz, bir model için kappa istatistiği, aynı sınıflandırma görevi için kullanılan diğer herhangi bir model için kappa istatistiğiyle doğrudan karşılaştırılabilir.

yorumlama

Kappa istatistiğinin standart bir yorumu yoktur. Wikipedia'ya göre (makalelerine atıfta bulunarak), Landis ve Koch 0-0.20'yi hafif, 0.21-0.40'ı adil, 0.41-0.60'ı orta, 0.61-0.80'i önemli ve 0.81-1'i mükemmel buluyor. Fleiss, kappas> 0.75'i mükemmel, 0.40-0.75'i ortadan iyiye ve <0.40'ı zayıf olarak kabul eder. Her iki ölçeğin de bir miktar keyfi olduğunu not etmek önemlidir. Kappa istatistiği yorumlanırken en az iki husus dikkate alınmalıdır. İlk olarak, en doğru yorumu elde etmek için mümkünse kappa istatistiği her zaman eşlik eden bir karmaşa matrisi ile karşılaştırılmalıdır. Aşağıdaki karışıklık matrisini göz önünde bulundurun:

     Cats Dogs
Cats| 60 | 125 |
Dogs| 5  | 5000|

Kappa istatistiği, Landis ve Koch'a göre ılımlı eşiğin oldukça üzerinde ve Fleiss için oldukça iyi bir eşik değer olan 0.47'dir. Ancak, Kedileri sınıflandırmak için isabet oranına dikkat edin . Tüm üçte birinden az Kediler aslında olarak sınıflandırıldı Cats ; Gerisi Köpekler olarak sınıflandırıldı . Kedileri doğru bir şekilde sınıflandırmayı daha fazla önemsersek (diyelim ki, Kedilere alerjiniz ama Köpeklere değil alerjimiz var ve tek umursadığımız, aldığımız hayvan sayısını maksimize etmemiz yerine alerjilere boyun eğmememizdir) kappa ancak daha iyi sınıflandırma oranı Kediler için daha ideal olabilir.

İkincisi, kabul edilebilir kappa istatistik değerleri bağlama göre değişir. Örneğin, kolayca gözlemlenebilir davranışları olan birçok gözlemci arası güvenilirlik çalışmasında, 0.70'in altındaki kappa istatistik değerleri düşük olarak kabul edilebilir. Ancak, gün rüyası gibi bilişsel durumlar gibi gözlemlenemeyen olayları keşfetmek için makine öğrenmesini kullanan çalışmalarda, 0.40'ın üzerindeki kappa istatistik değerleri istisnai olarak kabul edilebilir.

Yani, 0.40 kappa hakkındaki sorunuza cevaben bağlı olarak değişir. Başka bir şey değilse, sınıflandırıcı, beklenen doğruluk ne olursa olsun ve% 100 doğruluk arasında 2/5 oranında bir sınıflandırma oranına ulaştığını gösterir. Beklenen doğruluk% 80 ise, sınıflandırıcının% 40 (kappa 0.4 olduğu için)% 40 (bu% 80 ile% 100 arasındaki mesafe olduğu için)% 80'in üzerinde (çünkü bu 0'lık bir kappa olduğu için) gerçekleştirdiği anlamına gelir. rastgele şans), veya% 88. Dolayısıyla, bu durumda, 0.10 kappa değerindeki her bir artış, sınıflandırma doğruluğunda% 2'lik bir artışı belirtir. Doğruluk% 50 yerine geçerse, 0,4 değerinde bir kappa, sınıflandırıcının% 40'tan büyük (% 0,4 kappa)% 50'lik (% 50 ile% 100 arasındaki mesafe)% 50'den büyük bir doğrulukla gerçekleştirdiği anlamına gelir (çünkü bu bir kappa 0, veya rastgele şans) veya% 70'dir. Yine, bu durumda bu 0 0 kappa artışı anlamına gelir.

Farklı sınıf dağılımlarının veri kümeleri üzerinde oluşturulan ve değerlendirilen sınıflandırıcılar, beklenen doğruluk ile ilgili bu ölçeklendirmeden dolayı kappa istatistiği (sadece doğruluk kullanımının aksine) ile daha güvenilir bir şekilde karşılaştırılabilir. Sınıflandırıcının tüm örneklerde nasıl performans gösterdiğine dair daha iyi bir gösterge verir, çünkü sınıf dağılımı benzer şekilde bükülürse basit bir doğruluk bükülebilir. Daha önce de belirtildiği gibi,% 80'lik bir doğruluk,% 50'lik bir beklenen doğrulukla,% 50'lik bir beklenen doğrulukla çok daha etkileyicidir. Yukarıda detaylandırıldığı gibi beklenen doğruluk, çarpık sınıf dağılımlarına karşı hassastır, bu nedenle kappa istatistiğinden beklenen doğruluğu kontrol ederek, farklı sınıf dağılımlarının modellerinin daha kolay karşılaştırılmasını sağlıyoruz.

Bütün sahip olduğum bu. Herhangi biri bir şeyden ayrıldığını fark ederse, yanlış bir şey veya bir şey hala belirsizse, lütfen cevabı iyileştirebilmem için bana bildirin.

Referanslar faydalı buldum:

Kappa'nın kısa ve öz bir açıklamasını içerir: http://standardwisdom.com/softwarejournal/2011/12/confusion-matrix-another-single-value-metric-kappa-statistic/

Beklenen doğruluğu hesaplamanın açıklamasını içerir: http://epiville.ccnmtl.columbia.edu/popup/how_to_calculate_kappa.html


1
Bir hücrenin beklenen frekansının neden rowsum * colsum / N'ye eşit olduğuna dair bir arka plan eklemek, çünkü bu azaltılmış versiyondur ve denklemin tuttuğu başlangıçta açık değildir. Bu, Ki-Kare testinde de kullanılır: en.wikipedia.org/wiki/…
Zhubarb

2
bu harika bir cevap ama ben çok baskın bir sınıfın Kappa'nın yorumunu nasıl etkileyebileceği konusunda daha fazla ışık tutabiliyor musunuz (veya bağlar!) merak ediyorum. Örneğin, 7 arazi örtüsü sınıfından oluşan bir karma matrisim var ve bunlardan biri baskın (tüm verinin ~% 70'i). Bunun genel hatayı “sulamayı” sanıyorum?
Sam

2
Sadece rastgele bir yorum: açıklamanız Wikipedia sayfasından çok daha net :)
R.Falque

1
Beklenen doğruluk için, şu şekilde düşünmenin daha kolay olabileceğine dikkat edin: (15/30) "temel gerçeğin" bir kediyi sınıflandırdığı zamanların beklenen oranı ve (15/30), beklenen zamanların beklenen oranıdır. "temel gerçek" bir şeyi köpek olarak sınıflandırır. Aynı şekilde, ML sınıflandırıcısı için (17/30) beklenen oranda kedi, (13/30) beklenen oranda köpek. İlişkili olmayan sınıflandırıcıları varsayalım, bu durumda (15/30) * (17/30) + (15/30) * (13/30) = .5 (ya da köpek olarak kabul eder ve sınıflandırırlar) kedi gibi). Bu nedenle, zaman anlaşması .5 şans eseri.
ClownInTheMoon

1
Tabii ki, açıklayıcıların karşılaştırılması elbette ki asıl amaçtır. Bununla birlikte, bilimsel tarih bazı formüllerin veya başkalarının yumurtlama havuzundan diğerine atladığı ve dünyayı daha iyi bir yer haline getirdiği durumlarla doludur. Olduğu söyleniyor, davanıza bağlı olarak kullanmak için muhtemelen daha iyi ölçümler vardır. Son bir karar vermeden önce aday metriklerin güçlü ve zayıf yönlerini anlamalısınız. AUPRC, örneğin bazı durumlar için daha iyi bir yöntem olabilir.
rbx

14

rbx'in harika bir cevabı var. Ancak, biraz ayrıntılı. Kappa metriğinin arkasındaki özetim ve sezgim.


Kappa, özellikle dengesiz veri setinde sınıflandırıcı performansında önemli bir ölçüdür .

Örneğin, kredi kartı sahtekarlığı tespitinde, cevap değişkeninin marjinal dağılımı yüksektir, ölçüm olarak doğruluk kullanmak işe yaramayacaktır. Başka bir deyişle, verilen sahtekarlık tespiti örneği için işlemlerin% 99.9'u sahtekarlık dışı işlemlerdir. Her işlemde dolandırıcılık olmadığını söyleyen önemsiz bir sınıflandırıcıya sahip olabiliriz ve yine de doğruluğun% 99,9'unu alacağız.

Öte yandan, Kappa cevap değişkeninin marjinal dağılımını göz önüne alarak bu problemi "düzeltecektir" . Kappa'yı kullanarak, yukarıda bahsedilen önemsiz sınıflandırıcı çok küçük bir Kappa'ya sahip olacaktır.

Basit İngilizce'de, hedef dağılımla ilgili tahminlere kıyasla, sınıflandırmanın ne kadar iyi olduğunu ölçer.


1
Son paragrafın "Düz İngilizce dilinde, sınıflandırıcının hedef dağılım ile tahmin etmenin ne kadar iyi olduğunu ölçmesi" ni okuması gerektiğini düşünüyorum.
Silverfish,

8

Cohen'in kappa değerinin ne kadar güçlü olduğu, örneğin, kullanılan1 kategorilerin veya kodların kappa ve her kodun doldurulma olasılığını etkileyen çeşitli faktörlere bağlıdır .

"Örneğin,% 85 oranında doğru olan eşlenebilir kodlar ve gözlemciler göz önüne alındığında:

value of kappa   number of codes
0.49             2
0.60             3 
0.66             5 
0.69             10"

Şimdi, denkleştirilebilir kodlarımız yoksa, farklı “baz oranlarımız” varsa?

İki kod için kappa, Bruckner ve ark. Benzeyecekmiş gibigörüntü tanımını buraya girin

... Bununla birlikte (… devam eden Wikipedia alıntıları) , literatürde büyüklük kuralları ortaya çıkmıştır. Belki de ilki, değerleri karakterize eden Landis ve Koch idi.

 <0 as indicating no agreement
 0.00–0.20 as slight, 
 0.21–0.40 as fair, 
 0.41–0.60 as moderate, 
 0.61–0.80 as substantial, and 
 0.81–1 as almost perfect agreement. 

Ancak bu ilke seti hiçbir şekilde evrensel olarak kabul edilmez; Landis ve Koch, kişisel düşünceye dayanarak onu destekleyecek hiçbir kanıt sunmadı. Bu kuralların yardımcı olmaktan daha zararlı olabileceği belirtilmiştir. Fleiss'in eşit derecede keyfi yönergeleri kappas'ı nitelendiriyor

>0.75 as excellent, 
 0.40 to 0.75 as fair to good, and 
<0.40 as poor."

(Vikipedi alıntıyı sonlandır)

FalliObs Windows programının bir yükseltme (yükseltme) için, Bakeman ve ark. ComKappa3 bağlantısını takip edin . program açıklaması , standart kappa hatasının tahmin edilebildiği ve elde edilen kappa'nın boş bir dağılıma karşı anlamlılık açısından test edilmesine olanak tanıdığı ile ilgilidir (Bakeman ve Gottman, 1997; Fleiss, Cohen ve Everitt, 1969). Diğer kappa ölçümleri için daha fazla okuma için bkz . DAVRANIŞ AKIŞLARI ANALİZİ .12

Ayrıca , benzer bir soru için ikili bir sınıflandırıcıyı değerlendirmek için Cohen'in kappa istatistiğini kullanma bölümüne bakınız .

1 Bakeman, R .; Quera, V .; McArthur, D; Robinson, BF (1997). "Sıralı modelleri tespit etme ve yanılabilir gözlemcilerin güvenilirliklerini belirleme" Psikolojik Yöntemler. 2: 357-370. doi: 10,1037 / 1082-989X.2.4.357

2 Robinson BF, Bakeman R. ComKappa: Kappa ve ilgili istatistikleri hesaplamak için bir Windows 95 programı. Davranış Araştırma Yöntemleri. 1998; 30: 731-2.


1

Sorunuzu cevaplamak için (düz ingilizce :-)):

Kappa, sınıflandırıcıların tahmin performansını değerlendirmede nasıl yardımcı olur? Ne anlatıyor?

Kappa'yı, sonuç olarak yorumlanabilecek 2 kişi arasındaki bir anlaşma ölçütü olarak düşünmelisiniz:

Poor agreement = 0.20 or less
Fair agreement = 0.20 to 0.40
Moderate agreement = 0.40 to 0.60
Good agreement = 0.60 to 0.80
Very good agreement = 0.80 to 1.00

6
Bu ölçeği kör uygulamayın, rbx'in cevabını okuyun: “Kappa istatistiğinin standartlaştırılmış bir yorumu yoktur. ... Landis ve Koch 0-0.20'yi hafif, 0.21-0.40'ı adil, 0.41-0.60'ı orta derecede kabul eder. , Önemli ölçüde 0.61-0.80 ve neredeyse mükemmel olarak 0.81-1, Fleiss kappas> 0.75'i mükemmel, 0.40-0.75'i ortadan iyiye, <0.40'ı zayıf olarak kabul eder, her iki ölçeğin de keyfi olduğunu belirtmek önemlidir. Kappa istatistiklerini yorumlarken en az iki önemli husus dikkate alınmalıdır. ” Bu hususlar rbx'in cevabında açıklanmıştır
joelostblom
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.