Benim modeli tanı metrik (dayalı herhangi iyi, var


12

Modelimi taktım ve bunun iyi olup olmadığını anlamaya çalışıyorum. Değerlendirmek için önerilen metrikleri hesapladım ( / AUC / doğruluk / tahmin hatası / vb) ancak bunları nasıl yorumlayacağımı bilmiyorum. Kısacası, modelimin metriğe göre iyi olup olmadığını nasıl anlarım? BirR2R2 yeterli (örneğin) 0,6 beni çıkarımlar veya baz bilimsel / iş kararları çizmek devam edelim mi?


Bu soru kasıtlı olarak, üyelerin sıkça karşılaştığı çok çeşitli durumları kapsamaktadır; bu tür sorular bunun bir kopyası olarak kapatılabilir. Kapsamı burada belirtilen metriklerin ötesine genişletmek için yapılan düzenlemeler ve özellikle diğer metrik sınıfları hakkında bilgi veren yanıtlar da memnuniyetle karşılanmaktadır.


1
İlgili: Makine öğrenimi probleminizin umutsuz olduğunu nasıl bilebilirsiniz? " , bu onu daha fazla geliştiremeyeceğim anlamına mı geliyor?" R2=0.6
Stephan Kolassa

2
İçin baz hattı ya da başka bir ikinci metrik? İleri geri gidiş R 2 = 0.03 için R 2 = 0.05 , bazı uygulamalarda şaşırtıcı bir performans atlama olabilir. Bu tam olarak nasıl tüm makul yayın çalışması. Önerilen bir modelimiz var, iyi kabul edilmiş bir dizi metrikimiz var, "en son teknoloji" hakkında bilgimiz var ve performansı karşılaştırıyoruz. Modelimizin iyi olup olmadığını bu şekilde biliyoruz . R2R2=0.03R2=0.05
usεr11852

Yanıtlar:


18

Bu cevap çoğunlukla üzerinde durulacak R2 , ancak bu mantığın en diğer ölçümlere AUC ve benzeri gibi uzanmaktadır.

Bu soru CrossValidated'daki okuyucular tarafından neredeyse kesinlikle iyi cevaplanamaz. Modeli gibi ölçümlerini karar vermek hiçbir bağlam serbest yolu yoktur R2 iyidir ya da değil . Bir: aşırı anda, uzmanlar çok çeşitli bir uzlaşma sağlamak genellikle mümkündür R2 , genel iyi bir model belirtir ve 0 olarak yakın korkunç birini gösterir neredeyse 1. Arasında, değerlendirmeler doğal olarak öznel olan bir aralıktır. Bu aralıkta, model metriğinizin iyi olup olmadığını yanıtlamak için istatistiksel uzmanlıktan daha fazlası gerekir. Bölgenizde CrossValidated okuyucuların sahip olmadığı ek uzmanlık gerektirir.

Bu neden? Deneyimlerimden bir örnekle açıklayayım (küçük ayrıntılar değişti).

Mikrobiyoloji laboratuarı deneyleri yapardım. Farklı besin konsantrasyonu seviyelerinde hücre şişeleri kurarım ve hücre yoğunluğundaki büyümeyi ölçerdim (yani, bu ayrıntı önemli olmasa da, hücre yoğunluğunun zamana karşı eğimi). Daha sonra bu büyüme / besleyici ilişki model, elde etmek için yaygın bir R2 0.90> değerleri.

Şimdi çevre bilimciyim. Doğadan ölçümler içeren veri kümeleriyle çalışıyorum. Bunları 'alanına' veri setleri için yukarıda açıklanan aynı modeli uygun çalışırsanız ben, ben şaşıracaksınız R2 0,4 olarak en yüksek olarak oldu.

Bu iki durum, aynı prosedürleri kullanarak yazılan ve takılan çok benzer ölçüm yöntemleriyle, ve hatta montajı yapan aynı kişiyle tam olarak aynı parametreleri içerir! Ancak bir durumda, bir in R2 , 0.7 endişe verici düşük olacaktır, ve diğerinde ise şüpheli yüksek olacaktır.

Ayrıca, biyolojik ölçümlerin yanında bazı kimya ölçümleri de alacağız. Kimya standart eğriler için modeller olurdu R2 0.99, yaklaşık 0.90 arasında bir değer endişe verici olur düşük .


Beklentilerdeki bu büyük farklılıklara ne yol açar? Bağlam. Bu belirsiz terim geniş bir alanı kaplıyor, bu yüzden onu daha spesifik faktörlere ayırmaya çalışmama izin verin (bu muhtemelen eksiktir):

1. Kazanç / sonuç / başvuru nedir?

Alanınızın doğasının en önemli olduğu yer burasıdır. Çalışmam ne kadar değerli olursa olsun, R2 s modelimi 0,1 veya 0,2 arttırmak dünyayı kökten değiştirmeyecek. Ancak bu değişimin büyüklüğünün çok büyük olacağı uygulamalar var! Hisse senedi tahmin modelinde çok daha küçük bir gelişme, onu geliştiren firma için on milyonlarca dolar anlamına gelebilir.

R2kuşların. Birkaç on yıl öncesine kadar, ABD'de yaklaşık% 85'lik doğruluklar yüksek kabul edildi. Günümüzde, en yüksek doğruluğa ulaşmanın değeri, yaklaşık% 99? Görünüşe göre yılda 60.000 ila muhtemelen 180.000 dolar arasında değişen bir maaş (bazı hızlı googlinglere dayanarak). İnsanlar hala çalışma hızları ile sınırlı olduğundan, benzer doğruluk elde edebilen ancak sıralamanın daha hızlı gerçekleşmesini sağlayan makine öğrenme algoritmaları milyonlarca değere sahip olabilir.

(Umarım örnek hoşunuza gitmiştir - alternatif, teröristlerin çok tartışmalı algoritmik tanımlamaları hakkında iç karartıcı bir örnekti).

2. Sisteminizde değiştirilmemiş faktörlerin etkisi ne kadar güçlü?

R2

3. Ölçümleriniz ne kadar hassas ve doğru?

R2

4. Model karmaşıklığı ve genelleştirilebilirlik

R2R2

R2R2

IMO, aşırı uydurma birçok alanda şaşırtıcı derecede yaygındır. Bundan kaçınmanın en iyi yolu karmaşık bir konudur ve eğer ilgileniyorsanız bu sitedeki düzenleme prosedürleri ve model seçimi hakkında okumanızı tavsiye ederim .

5. Veri aralığı ve ekstrapolasyon

R2

Bunun yanı sıra, bir veri kümesine bir model takarsanız ve bu veri kümesinin X aralığının (yani ekstrapolat ) dışında bir değer tahmin etmeniz gerekiyorsa, performansının beklediğinizden daha düşük olduğunu görebilirsiniz. Bunun nedeni, tahmin ettiğiniz ilişkinin, eklediğiniz veri aralığının dışında iyi bir şekilde değişebilmesidir. Aşağıdaki şekilde, yalnızca yeşil kutunun gösterdiği aralıkta ölçüm aldıysanız, düz bir çizginin (kırmızı) verileri iyi tanımladığını düşünebilirsiniz. Ancak bu kırmızı çizgiyle bu aralığın dışında bir değer tahmin etmeye çalışırsanız, oldukça yanlış olur.

resim açıklamasını buraya girin

[Şekil düzenlenmiş bir versiyonu , bu bir 'Monod eğrisi' için hızlı bir hakkında arama yoluyla bulunan,.]

6. Metrikler yalnızca resmin bir parçasını verir

Bu gerçekten metriklerin bir eleştirisi değildir - özetlerdir , yani bilgiyi tasarım yoluyla da atıyorlar. Ancak bu, herhangi bir metriğin, yorumu için çok önemli olabilecek bilgileri bıraktığı anlamına gelir. İyi bir analiz tek bir metrikten daha fazlasını dikkate alır.


Öneriler, düzeltmeler ve diğer geri bildirimler hoş geldiniz. Ve tabii ki diğer cevaplar da.


3
R2R2

@Lewian Geri bildiriminiz için teşekkür ederiz. Ben 2 ve 3 noktalarında örtülü olduğunu düşündüm, ama bunun geliştirilebileceğini görüyorum. Bu noktayı nasıl daha net hale getireceğimizi düşüneceğim.
MKT - Monica

1
Evet, bunun zaten kapsanıp kapsanmadığını düşündüm. 2 ve 3'teki şey, bunun neden olabileceğine dair belirli nedenler vermeleridir, ancak bu genel bir konudur.
Lewian

@Lewian Anlaşma, bunu biraz düşüneceğim.
mkt - Monica

2

Hidroloji alanımda bu sorun, modellerin yağış ve iklim verilerinden gelen akışı ne kadar iyi tahmin ettiğini değerlendirirken ortaya çıkıyor. Bazı araştırmacılar ( Chiew ve McMahon, 1993 ) 93 hidrolog araştırdı (63 yanıt verdi), hangi tanılama grafiklerini ve kullandıkları uyum istatistiklerinin iyiliğini ve hangilerinin en önemli olduğunu ve bir model uyum kalitesini sınıflandırmak için nasıl kullanıldıklarını öğrenmek için . Sonuçlar şimdi tarihlendirilmiştir, ancak yaklaşım yine de ilgi çekici olabilir. Çeşitli niteliklere sahip model uyumlarının sonuçlarını sundular ve hidrologlardan bunları 4 kategoriye ayırmalarını istediler (1) mükemmel kabul edilebilir sonuç; (2) kabul edilebilir ancak rezervasyonda kullanılması; (3) kabul edilemez, sadece başka alternatif yoksa kullanın; ve (4) asla hiçbir koşulda kullanmayın.

En önemli diagnostik grafikler, kalibrasyon için kullanılan verilerden simüle edilmiş ve kaydedilmiş akışların zaman çizelgeleri ve saçılma grafikleriydi. R-kare ve Nash-Sutcliffe model verimlilik katsayısı (E), uyum istatistiklerinin tercih edilen iyiliği idi. Örneğin, E => 0,8 ise sonuçlar kabul edilebilir olarak kabul edildi

Literatürde başka örnekler de var. Kuzey Denizi'nde bir ekosistem modeli değerlendirilirken, aşağıdaki kategorizasyon E> 0.65 mükemmel, 0.5 ila 0.65 çok iyi, 0.2 ila 0.5 iyi ve <0.2 zayıf olarak kullanıldı ( Allen ve diğerleri, 2007 ).

Moriasi ve diğerleri, (2015) çeşitli model türleri için metrikler için kabul edilebilir değerler tablosu sunmaktadır.

Bir blog gönderisinde bu bilgileri ve referansları özetledim .

Allen, J., P. Somerfield ve F. Gilbert (2007), Yüksek çözünürlüklü birleştirilmiş hidrodinamik cos ekosistem modellerindeki belirsizliğin nicelleştirilmesi, J. Mar. Syst., 64 (1-4), 3-14, doi: 10.1016 /j.jmarsys.2006.02.010.

Moriasi, D., Gitau, M. Pai, N. ve Daggupati, P. (2015) Hidrolojik ve Su Kalitesi Modelleri: ASABE'nin Performans Ölçümleri ve Değerlendirme Kriterleri İşlemleri (Amerikan Tarım ve Biyoloji Mühendisleri Derneği) 58 (6): 1763-1785


0

Sadece yukarıdaki harika cevaplara eklemek için - deneyimlerime göre, değerlendirme metrikleri ve teşhis araçları bunları kullanan kişi kadar iyi ve dürüst. Yani, arkasındaki matematiği anlarsanız, modelinizin gerçek faydasını arttırmadan daha iyi görünmesini sağlamak için onları yapay olarak artırabilirsiniz.

R2=0.03R2=0.05

Yukarıdaki açıklamaları / referansları sağlayan harika bir iş yaptığından bu cevabı kısa tutacağım. 6. bölüme biraz perspektif katmak istedim . Metrikler sadece resmin bir parçasını mkt'ın cevabı ile verir.

Bu yardımcı olur umarım.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.