Sınıflandırma olasılığı eşiği


49

Genel olarak sınıflandırma ile ilgili bir sorum var. F bazı verilerle verilen bir olasılık kümesi ortaya çıkaran bir sınıflandırıcı olsun. D Normalde biri şöyle der: p: p (c | D)> 0.5 ise 1. sınıfa, aksi takdirde 0 atarız (bunun bir ikili olmasına izin verin). sınıflama).

Benim sorum şu, ne öğrenirsem, 1 olarak sınıflandırırsam, olasılıkları da daha büyük bulursam: yani 0,2, sınıflandırıcı daha iyi performans gösterir. Sınıflandırma yaparken bu yeni eşiği kullanmak meşru mudur?

Daha küçük bir sinyal yayan veri bağlamında sınırlandırılmış düşük sınıflandırma gerekliliğini yorumluyorum; sınıflandırma problemi için yine de önemli.

Bunu yapmanın bir yolu olduğunun farkındayım, ancak bu doğru düşünme değilse, tekil özellikleri benzer şekilde vurgulayan, eşiğin 0,5'de kalması için bazı veri dönüşümleri ne olurdu?


7
Zaten mükemmel bir cevabınız var, bu yüzden şunu söylememe izin verin: "normal" in normal bir normal değildir. "0'da eşik değeri" meselesinin standart hale geldiğinden emin değilim ve bunun fikrini teşvik eden bazı, başka türlü mükemmel yazılımlar olduğunu biliyorum, ancak genel olarak çok zayıf bir uygulama.
Matthew Drury

1
@MatthewDrury: Tabii ki, skor, önemli bir hata yapmama konusunda iyi kalibre edilmiş ilgili posterior olasılık olmadıkça (ikincisi, farklı sınıflandırma maliyetlerine dikkat edecektir).
cbeleites, Monica

Yanıtlar:


68

Frank Harrell bunu blogunda şöyle yazdı: Bütün kalbiyle katılıyorum, Sınıflandırma vs. Tahmin .

Temel olarak, argümanı, alıştırmanızın istatistiksel bileşeninin, yeni örneğinizin her bir sınıfı için bir olasılık ortaya çıkardığınızda sona ermesidir. Yeni bir gözlemi 1'e 0 olarak sınıflandırdığınız bir eşik seçmek, artık istatistiklerin bir parçası değildir . Bu bir parçası olan karar bileşeni. Ve burada, modelinizin olasılıksal çıktısına ihtiyacınız var - ama aynı zamanda gibi hususlar:

  • Yeni bir gözlemi sınıf 1'e karşı 0 olarak kabul etmeye karar vermenin sonuçları nelerdir? Daha sonra herkese ucuz bir pazarlama postası gönderir miyim? Yoksa büyük yan etkileri olan istilacı bir kanser tedavisi mi uyguluyorum?
  • "Doğru" 0'ı 1 olarak kabul etmenin sonuçları nedir ve tam tersi? Bir müşteriyi işaretler miyim? Birisini gereksiz tıbbi tedaviye maruz bırakmak?
  • "Sınıflarım" gerçekten ayrık mı? Veya klinik eşiklerin gerçekte sadece bilişsel kısayollar olduğu bir süreklilik var mı (örneğin, kan basıncı)? Öyleyse, şu anda "sınıflandırdığım" durumun eşiğin ne kadar ötesinde olduğu?
  • Ya da 1. sınıf olma olasılığı düşük ama olumlu bir olasılık aslında "daha fazla veri almak", "başka bir test çalıştırmak" anlamına mı geliyor?

Bu nedenle sorunuzu yanıtlamak için: sınıflandırmanızın son tüketicisiyle konuşun ve yukarıdaki soruların yanıtlarını alın. Ya da olası çıktınızı kendinize açıklayın ve sonraki adımlardan geçmesine izin verin.


1
Bu anlayışlı cevap için çok teşekkür ederim. Sorunu daha ayrıntılı olarak inceleyeceğim - Bu özelliği bir şekilde istatistiksel öğrenme bölümüne dönüştürebileceğime eminim.
sdgaw erzswer

Vay, keşke buna bir şeyler ekleyebilseydim ama hiçbir şey alamadım, olağanüstü cevap!
the_SJC

4
Çok iyi cevap: sorular yerinde! Ancak mesleğimin uygulama tarafında olması, karar eşiğinin bulunup bulunmadığına istatistik denir ya da denmez - tamamen mesleki görevlerimin içine düşüyor ... Ve bana göre bu, "ön işleme" nin bir parçası olduğu gibi modelin bir parçası. Model - aynı zamanda tüm bu kararların doğrulama sürecinde ele alınması gerektiğinden de.
cbeleites, 21

11

Stephan'ın cevabı harika. Temelde sınıflandırıcı ile ne yapmak istediğinize bağlıdır.

Sadece birkaç örnek ekledim.

En iyi eşiği bulmanın bir yolu objektif bir fonksiyon tanımlamaktır. İkili sınıflandırma için bu, örneğin doğruluk veya F1 puanı olabilir. Hangisini seçtiğinize bağlı olarak, en iyi eşik farklı olacaktır. F1 puanı için burada ilginç bir cevap var: F1 Optimal Eşiği nedir? Nasıl hesaplanır? . Ancak "F1-puanını kullanmak istiyorum" demek aslında seçimi yaptığınız yer. Bu seçimin iyi olup olmaması nihai amaca bağlıdır.

Bunu keşfetmenin bir başka yolu da keşif ve sömürü arasındaki değiş tokuş ile karşı karşıya kalmaktır (Stephan'ın son noktası): Çok silahlı haydut böyle bir soruna örnektir: bilgi edinmek ve en iyi haydutu seçmek için birbiriyle çelişen iki hedefle uğraşmak zorundasınız. . Bir Bayes stratejisi, her bir haydutu rasgele seçerek en iyi olasılık olasılığını seçmek. Tam olarak sınıflandırma değil, aynı şekilde çıktı olasılıkları ile de ilgilenmek.

Sınıflandırıcı karar verme algoritmasında sadece bir tuğla ise, o zaman en iyi eşik algoritmanın nihai amacına bağlı olacaktır. Tüm sürecin nesnel işlevi bakımından değerlendirilmeli ve ayarlanmalıdır.


Başka bir büyük cevap için teşekkür ederim. Doğru anlarsam, boru hattındaki son adımla ilgileniyorsam, eşiği doğrudan optimize etmek tamamen meşrudur.
sdgaw erzswer

@sdgawerzswer: evet. A) doğru soruya verilen cevabı optimize ettiğinizden emin olun ve b) bu ​​kararı (ve eşik bulma) modelin geri kalanıyla birlikte doğruladığınızdan emin olun.
cbeleites, Monica

3

Olasılığın nasıl hesaplandığına bakıldığında muhtemelen bir miktar değer vardır. Bu günlerde, Sınıflandırıcılar bir matrisle (doğrusal cebir) çarpılan bir önyargı vektörünü kullanır. Vektörde sıfır olmayan herhangi bir değer olduğu sürece, olasılık (vektörün ürünü ve matris) asla 0 olmayacaktır.

Bu, lineer cebir almayan insanların gerçek dünyasında karışıklığa neden oluyor sanırım. 0 olması gerektiğini düşündükleri maddeler için olasılık puanlarının olması rahatsızlık duyuyorlar. Başka bir deyişle, bu girdiyi temel alan karardan istatistiksel girdiyi karıştırıyorlar. İnsanlar olarak, "pratik" kullanım durumlarında, 0,0002234 olasılığı olan bir şeyin 0 ile aynı olduğunu söyleyebiliriz. Yüksek bilişsel bilim tartışmalarında belki de, önyargı vektörünün bunu neden yaptığıyla ilgili ilginç bir tartışma vardır, bunun yerine bilişsel uygulamalar için bu geçerlidir.


2

Yanlış eşik yok. Seçtiğiniz eşik, öngörünüzdeki amacınıza veya tercih etmek istediğiniz şeye bağlıdır, örneğin kesinliğe karşı hatırlamaya (tercihinize göre farklı sınıflandırma modellerini karşılaştırmak için onu grafik çizmeye ve ilişkili AUC'sini ölçmeye çalışın).

Şu anda üzerinde çalışıyorum, kendi sorunum şu anda üzerinde çalıştığım en küçük hassasiyete (veya PPV Olumlu Öngörülen Değer) bağlı olarak eşiğimi seçiyorum, ancak tahmin ederken sahip olmamı istiyorum. Olumsuzlukları pek umursamıyorum. Bu nedenle, modelimi eğittiğimde istenen hassasiyete karşılık gelen eşiği alıyorum. Hassasiyet benim kısıtlamam ve geri çağırma, diğer sınıflandırma modelleri ile karşılaştırdığımda modelimin performansı.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.