Madeni para çevirerek sınıflandırıcıları birleştirme

Bir makine öğrenimi kursu okuyorum ve ders slaytlarında önerilen kitapla çeliştiğim bilgiler var.

Sorun şudur: üç sınıflandırıcı vardır:

daha düşük eşik aralıklarında daha iyi performans sağlayan A sınıflandırıcısı ,
daha yüksek eşik aralıklarında daha iyi performans sağlayan Sınıflandırıcı B ,
Sınıflandırıcı C bir p-coin çevirerek ve iki sınıflandırıcıdan seçerek elde ettiğimiz şeydir.

ROC eğrisinde görüldüğü gibi C sınıflandırıcısının performansı ne olacak?

Ders slaytları, sadece bu madeni parayı çevirerek, A ve B'nin ROC eğrisinin sihirli " dışbükey gövdesini " alacağımızı belirtiyor .

Bu noktayı anlamıyorum. Sadece madalyon çevirerek nasıl bilgi edinebiliriz?

Ders slaydı

ders slaytları

Kitap ne diyor

Öte yandan, önerilen kitap ( Veri Madenciliği ..., Ian H. Witten, Eibe Frank ve Mark A. Hall ) şunları belirtmektedir:

Bunu görmek için, sırasıyla tA ve fA'nın doğru ve yanlış pozitif oranlarını veren A yöntemi için belirli bir olasılık kesme ve tB ve fB'yi veren yöntem B için başka bir kesme seçin. Bu iki şemayı, p + q = 1 olan p ve q olasılıkları ile rastgele kullanırsanız, p'nin doğru ve yanlış pozitif oranlarını elde edersiniz. tA + q. tB ve p. fA + q. fB. Bu, (tA, fA) ve (tB, fB) noktalarını birleştiren düz çizgi üzerinde yatan bir noktayı temsil eder ve p ve q'yu değiştirerek bu iki nokta arasındaki tüm çizgiyi takip edebilirsiniz.

Anladığım kadarıyla, kitabın söylediği şey aslında bilgi kazanmak ve dışbükey gövdeye ulaşmak için sadece bir p-coin çevirmekten daha gelişmiş bir şey yapmamız gerektiğidir.

AFAIK, (kitabın önerdiği gibi) doğru yol şudur:

A sınıflandırıcısı için en uygun eşik Oa'yı bulmalıyız
B sınıflandırıcısı için optimal bir Ob eşiği bulmalıyız
C'yi aşağıdaki gibi tanımlayın:
- T <Oa ise, t ile A sınıflandırıcısını kullanın
- T> Ob ise, t ile B sınıflandırıcısını kullanın
- Oa <t <Ob ise, Oa ve Ob arasında olduğumuz yerin doğrusal bir kombinasyonu olarak olasılıkla A ile Oa ve B ile sınıflandırıcı arasında seçim yapın.

Bu doğru mu? Evet ise, slaytların önerdiklerine kıyasla birkaç önemli fark vardır.

Basit bir bozuk para çevirme değil, hangi bölgeye düştüğümüze göre manuel olarak tanımlanan noktalara ve seçimlere ihtiyaç duyan daha gelişmiş bir algoritma.
Asla A ve B sınıflandırıcılarını Oa ve Ob arasında eşik değerleriyle kullanmaz.

Bana bu sorunu açıklayabilir misiniz ve eğer anlayışım doğru değilse, onu anlamanın doğru yolu nedir?

Slaytların önerdiği gibi bir p-coin çevirirsek ne olur?A ve B arasında bir ROC eğrisi alacağımızı, ancak belirli bir noktada asla daha iyi olandan "daha iyi" olmadığını düşünürdüm.

Görebildiğim kadarıyla, slaytların nasıl doğru olabileceğini gerçekten anlamıyorum. Sol taraftaki olasılıksal hesaplama benim için anlamlı değil.

Güncelleme: Dışbükey gövde yöntemini icat eden orijinal yazar tarafından yazılmış makaleyi buldu: http://www.bmva.org/bmvc/1998/pdf/p082.pdf

— hyperknot
kaynak

Hem paylaştığınız slaydı hem de kitap alıntısını okuduğumdan, aynı şeyi tarif ediyor gibi görünüyorlar ve slaytlar hatalı değil.

— kardinal

Ayrıca, slaytta belirtilen gerçeğe kendinizi ikna etmek için bir simülasyon oluşturmanın da zor olmadığını unutmayın. Karşılaşabileceğiniz tek zorluk, kabaca böyle görünen iki ROC eğrisi oluşturmaktır, ancak gözlemleri ve bazı yetersiz karar kurallarını oluşturmak için bir Gauss karışım modeli kullanmak yönetilebilir.

— kardinal

Yanıtlar:

(Edited)

Ders slaytları doğrudur.

Yöntem A, sırasıyla doğru ve yanlış pozitif oranlar (grafikte TPA, FPA) veren bir "optimal noktaya" sahiptir. Bu nokta bir eşik değere veya daha genel olarak [*] A için optimal bir karar sınırına karşılık gelir. Aynı şey B için de geçerlidir (Ancak eşikler ve sınırlar birbiriyle ilişkili değildir).

Sınıflandırıcı A'nın, "gerçek pozitifleri en üst düzeye çıkarmak" (istekli strateji) istediğimizde "yanlış pozitifleri en aza indir" (muhafazakar strateji) ve sınıflandırıcı B tercihi altında iyi performans gösterdiği görülmektedir.

~~İlk sorunuzun cevabı temel olarak evettir, ancak madalyonun olasılığı (bir anlamda) keyfidir. Son clasiffier şöyle olacaktır:~~

~~$x$ $x$ $p$~~

(Düzeltildi: aslında, dersler tamamen doğru, her durumda jetonu çevirebiliriz.

$p$

[*] Burada genel olmalısınız: Eğer tek bir skaler eşik açısından düşünüyorsanız, bunların hepsi çok az mantıklıdır; eşik tabanlı bir sınıflandırıcıya sahip tek boyutlu bir özellik, serbest parametreler (karar sınırı = eşik) değiştiğinde farklı eğriler boyunca performans gösteren A ve B gibi farklı sınıflandırıcılara sahip olmak için yeterli serbestlik derecesi sağlamaz. Başka bir deyişle: A ve B'ye "sınıflandırıcılar" değil, "yöntemler" veya "sistemler" denir; çünkü A, sadece bir skaleri değil, bir karar sınırını belirleyen bir parametre (skaler) ile parametreleştirilmiş bütün bir sınıflandırıcı ailesidir]

Daha açık hale getirmek için bazı diyagramlar ekledim:

resim açıklamasını buraya girin

$t$ $t$ $t$ $t_A=2$ $t$ $t_B=4$ oran.

Bu senaryoda, doldurulan turuncu çizginin "optimal A sınıflandırıcısı" (ailesinin içinde) olduğunu ve B için aynı olduğunu söyleyebiliriz. Ancak turuncu çizginin mavi çizgiden daha iyi olup olmadığını söyleyemez: yanlış pozitiflere yüksek maliyet atadığımızda daha iyi olurken, diğeri yanlış negatifler çok daha maliyetli olduğunda.

resim açıklamasını buraya girin

Şimdi, bu iki sınıflandırıcıların bizim ihtiyaçlarımız için aşırı uçlar olabileceği, her iki hatanın da benzer ağırlıklara sahip olmasını istiyoruz. Aralarında bir performans elde etmek için A (turuncu nokta) veya B (mavi nokta) sınıflayıcı kullanmak yerine tercih ederiz. Kursun dediği gibi, bu sonuca sadece bir bozuk para çevirerek ve sınıflandırıcılardan birini rastgele seçerek ulaşılabilir.

Sadece madalyon çevirerek nasıl bilgi edinebiliriz?

Bilgi kazanmıyoruz. Yeni randomize sınıflandırıcımız sadece A veya B'den "daha iyi" değildir, performansı her bir hata türüne atanan maliyetlere göre bir çeşit A ve B ortalamasıdır. Maliyetlerimize bağlı olarak bu bizim için yararlı olabilir veya olmayabilir.

AFAIK, (kitabın önerdiği gibi) doğru yol şudur ... Bu doğru mu?

$p$

— leonbloy
kaynak

@leonboy x'in eşik olduğuna inanıyorum ve x sınıflandırıcısının düşük değerleri için en iyi sonucu verir. Yüksek x sınıflandırıcı değerleri için B en iyi sonucu verir. En iyi ifade etmek gerekirse, verilen yanlış pozitif oranı için gerçek pozitif oran en yüksektir. Bildiğimiz tek şey, A'nın en iyi eşikler için kesiştiği tek bir noktaya kadar çalıştığı ve bunun üzerindeki tüm eşikler için B olması durumunda, A'nın daha yüksek TP'ye sahip olduğu FPa ve FPb arasındaki bölgede 1'den A'ya ağırlık veren herhangi bir algoritma gerçekleştiremez Dolayısıyla böyle bir algoritma C bu bölgede A'nın altına düşmelidir.

— Michael R.Chernick

Benzer şekilde, TP'nin B için daha yüksek olduğu FPa ve FPb arasındaki bölgede, p'den daha büyük p algoritması B'den daha iyi performans göstermez. TPc'nin formülü doğrudur, ancak TPb ve TPa arasındaki sabit ağırlıklı ortalama TPa'dan daha büyük olamaz. ve TPb. Aralarında düşmek zorunda. Ancak diyagram, FPa ve FPb'den bölge boyunca TPa ve TPb'nin üzerindeki TPc'yi daima gösterir. Burada eksik olduğumuz bir şey görüyor musunuz? Cevabınızda bulamıyorum.

— Michael R.Chernick

Tamam ampul söndü! X, skaler bir eşik yerine zihninizde bir vektördür. Bu gerçekten bir şey değiştiriyor mu? FP aixleri skaler bir olasılıktır. Geçiş noktam, A ve B için FP eşitlik noktasıdır. Buna yol açan birçok X vektörü olabilir. Ben sadece FPa ve FPb arasındaki FP ekseni boyunca herhangi bir noktada söylüyorum. TPc = p TPa + (1-p) TPb. Arsadaki çizgi TP ve FP düzlemindedir. Bu çizgi OP'nin sorguladığı gibi hem A hem de B için eğrilerin üzerindeki noktalardan nasıl geçebilir (doğru düşünüyorum)?

— Michael R.Chernick

@Michael: A ve B'yi farklı sınır kararları veren farklı yöntemler olarak düşünüyorum. Her birinin ayarlanabilir bir parametresi vardır (1D'de bir eşiktir), parametreler bağımsızdır ve (her biri için) bir sınıflandırıcı ailesi verir. Açıklığa kavuşturmak için bir diyagram çizmeye çalışacağım, bekle.

— leonbloy

Leonbloy'a bu güzel açıklama için bir oy verdim. Ama kardinalin son yorumunu seviyorum çünkü bu argüman benim için açık ve son düşüncemle aynı fikirde. @leobloy Şemanızda eksik olan tek şey, her iki ayrı ayrı da atan rastgele kural için noktaların bir grafiğidir. sanırım yeni kuralı iki hatayı farklı şekilde ağırlıklandırabilirsiniz ama bu gerekli değildir ve bu argümanı dışarıda bırakırsanız daha az kafa karıştırıcı olduğunu düşünüyorum.

— Michael R.Chernick

Akıl yürütmenize katılıyorum. Sınıflandırıcıyı, A ve B noktaları arasındayken bir tane seçmek için madeni para çevirerek kullanırsanız, eğri üzerindeki noktanız her zaman daha iyi sınıflandırıcının altında ve daha fakir olanın üstünde olur ve muhtemelen her ikisinin de üstünde olmaz! Diyagramda yanlış bir şey olmalı. 2 ROC eğrisinin rastgele seçim algoritmasını geçtiği noktada iki algoritmayla aynı performansa sahip olacaktır. Diyagramın tasvir ettiği yolun üstünde olmayacaktır.

— Michael R. Chernick
kaynak

Slaytın doğru olduğuna inanıyorum. İki farklı eşik değerine sahip iki farklı karar prosedürü kullanır ve daha sonra rastgele bir karar alırsanız, ikisi arasında bir noktaya değecek dışbükey bir kombinasyon elde edersiniz. Bu nokta aynı yanlış pozitif oranda eğrilerin her ikisinin ( ! ) Üstünde olabilir . Bunun nedeni, her prosedür için kullanılan eşiğin o noktada farklı olmasıdır.

— kardinal

Dışbükey kombinasyonundaki A ve B, bireysel olarak o pozitif pozitif hızda seçilen A ve B'den farklıdır. Sadece diyagramın kafa karıştırıcı olduğunu düşünüyorum çünkü A ve B'nin sınıflandırıcılar ailesinden seçildiğini görmedim.

— Michael R.Chernick

A

$A$

B

$B$

Bu cevabın doğru olduğuna ve kardinalin yorumuna eklediğine inanıyorum! Kavşak alanından çıkmak olabilir, ancak bu bir yöntem değildir. Bu yöntemi icat eden adamdan orijinal kağıdı buldum ve çok iyi açıklıyor! bmva.org/bmvc/1998/pdf/p082.pdf

— hyperknot

@zsero: Michael'ın bile bu cevabın, cevabın gönderildiği andaki diyagramın anlaşılmasına dayandığını ve yorumların ve diğer cevapların ortaya çıkmasından bu yana yorumunun değiştiğini kabul edeceğine inanıyorum. Şekilde gösterildiği gibi, sonuçta elde edilen gerçek pozitif oran, verilen bir yanlış pozitif oran için diğer iki eğriye hükmediyor olsa bile , birinci eğrideki bir nokta ile ikinci bir nokta arasındaki herhangi bir çizgi üzerindeki herhangi bir noktaya rastgele bir şekilde ulaşılabilir .

— kardinal