Lojistik regresyon hakkında felsefi soru: optimal eşik değeri neden eğitilmiyor?


13

Genellikle lojistik regresyonda, bir modele uyuyoruz ve eğitim seti hakkında bazı tahminler alıyoruz. Daha sonra bu eğitim tahminlerini ( burada olduğu gibi ) çapraz doğrular ve ROC eğrisi gibi bir şeye dayanarak optimum eşik değerine karar veririz .

Neden gerçek modele INT eşiğinin çapraz doğrulamasını dahil etmiyoruz ve her şeyi uçtan uca eğitmiyoruz?

Yanıtlar:


19

Lojistik regresyon bir sınıflandırıcı olmadığı için modelle bir eşik eğitilmemiştir (bkz. Lojistik Regresyon Neden Lojistik Sınıflandırma olarak adlandırılmıyor? ). Bernoulli dağılımının davranışını yöneten p parametresini tahmin etmek için bir modeldir . Yani, ortak değişkenlere bağlı olarak yanıt dağılımının Bernoulli olduğunu varsayıyorsunuz ve bu nedenle bu değişkeni kontrol eden parametrenin ortak değişkenlerin bir fonksiyonu olarak nasıl değiştiğini tahmin etmek istiyorsunuz. Bu doğrudan bir olasılık modeli sadece . Tabii ki, daha sonra bir sınıflandırıcı olarak kullanılabilir ve bazen belirli bağlamlardadır, ancak yine de bir olasılık modelidir.


1
Tamam, teorinin bu kısmını anlıyorum (bu güzel açıklama için teşekkür ederim!) Ama sınıflandırma yönünü modele neden dahil edemiyoruz? Yani, neden p'yi bulamıyoruz, sonra eşiği bulamıyoruz ve her şeyi bir miktar kaybı en aza indirmek için uçtan uca eğitmiyoruz?
İstatistikler

4
Kesinlikle olabilir (Sycorax en @ cevabı olasılığı konuşur). Ancak, LR'nin kendisi bu değil, daha ziyade geçici bir büyütme olduğu için, tam optimizasyon şemasını kendiniz kodlamanız gerekir. BTW, Frank Harrell'in sürecin birçok standartta daha düşük bir model olarak kabul edilebileceğine işaret ettiğini belirtti .
gung - Monica'yı eski

1
Hmm. Burada ilgili sorudaki kabul edilen cevabı okudum ve teoride buna katılıyorum, ancak bazen makine öğrenme sınıflandırma uygulamalarında göreceli hata türlerini umursamıyoruz, sadece "doğru sınıflandırma" yı önemsiyoruz. Bu durumda, tarif ettiğim gibi uçtan uca antrenman yapabilir misiniz?
İstatistikler

4
Dediğim gibi, modeli eğitecek ve eşiği aynı anda seçecek olan kendi özel optimizasyonunuzu ayarlayabilirsiniz. Sadece kendiniz yapmak zorundasınız ve son modelin çoğu standarda göre daha kötü olması muhtemeldir.
gung - Monica'yı eski

1
@StatsSorceress "... bazen makine öğrenimi sınıflandırmasında ...". Bazen büyük bir vurgu olmalı . Doğruluğun doğru cevap olduğu bir proje hayal etmek zor . Deneyimlerime göre, her zaman bir azınlık sınıfının kesinliğini ve hatırlanmasını içerir.
Wayne

15

Çünkü optimal eşik sadece gerçek pozitif oranın (TPR), yanlış pozitif oranın (FPR), doğruluğun veya başka bir şeyin fonksiyonu değildir. Diğer önemli bileşen, doğru ve yanlış kararların maliyeti ve getirisidir .

Hedefiniz soğuk algınlığı ise, pozitif bir teste cevabınız iki aspirin reçete etmektir ve gerçek bir tedavi edilmemiş pozitifin maliyeti iki günlük gereksiz bir baş ağrısıdır, o zaman optimal karar (sınıflandırma değil) eşiği oldukça Hedefiniz hayatı tehdit eden bir hastalık ve kararınız (a) apandisit ameliyatı gibi nispeten basit bir prosedür veya (b) aylarca kemoterapi gibi büyük bir müdahale! Hedef değişkeniniz ikili (hasta / sağlıklı) olmasına rağmen, kararlarınızın daha fazla değere sahip olabileceğini unutmayın (eve iki aspirin ile gönderin / daha fazla test yapın / hastaneye kabul edin ve hemen izleyin / çalıştırın).

Alt satır: Maliyet yapınızı ve tüm farklı kararları biliyorsanız, kesinlikle olasılıksal bir sınıflandırma veya tahmin içeren bir karar destek sistemini (DSS) doğrudan eğitebilirsiniz. Bununla birlikte, tahminleri veya sınıflandırmaları eşiklerle ayrıştırmanın bu konuda doğru yol olmadığını şiddetle savunuyorum.

Ayrıca , daha önceki "Sınıflandırma olasılığı eşiği" iş parçacığına verilen cevaba bakın . Ya da bu cevabım . Veya o .


4

Felsefi endişeler bir yana, bu hesaplama zorluklarına neden olur.

Bunun nedeni, sürekli çıkışlı işlevlerin optimize edilmesinin nispeten kolay olmasıdır. İşlevin arttığı yönü ararsınız ve sonra bu şekilde devam edersiniz. Kayıp fonksiyonumuzu "kesme" adımını içerecek şekilde değiştirirsek, çıktımız ayrık hale gelir ve bu nedenle kayıp fonksiyonumuz da ayrık olur. Artık lojistik fonksiyonumuzun parametrelerini "biraz" değiştirip, kesme değerini "biraz" değiştirdiğimizde, kaybımız özdeş bir değer verir ve optimizasyon zorlaşır. Tabii ki, imkansız değil ( Ayrık optimizasyonda bütün bir çalışma alanı var ), ancak sürekli optimizasyon açık arabirçok parametreyi optimize ederken çözülmesi daha kolay bir problemdir. Uygun bir şekilde, lojistik model uygun hale geldiğinde, hala ayrı bir çıkış problemi olsa da, optimum kesimi bulmak artık sadece bir değişkendir ve sadece bir değişkente bir ızgara araması veya bazılarını yapabiliriz.


3

Temel modele bakılmaksızın, TPR ve FPR örnekleme dağılımlarını bir eşikte çalışabiliriz. Bu, TPR ve FPR değişkenliğini bir eşikte karakterize edebileceğimizi ve istenen bir hata oranı değişimine geri dönebileceğimizi gösterir.

ROC eğrisi biraz aldatıcıdır, çünkü kontrol ettiğiniz tek şey eşiktir, ancak grafikte eşiğin işlevleri olan TPR ve FPR görüntülenir. Ayrıca, TPR ve FPR'nin her ikisi de istatistiktir , bu nedenle rastgele örneklemenin kaprislerine tabidirler. Bu, prosedürü tekrarlayacak olursanız (örneğin çapraz doğrulamayla), belirli bir eşik değerinde farklı bir FPR ve TPR bulabileceğiniz anlamına gelir.

Ancak, TPR ve FPR'deki değişkenliği tahmin edebilirsek, ROC prosedürünü tekrarlamak gerekli değildir. Sadece bir eşik aralığının (bazı genişliklerle) uç noktaları kabul edilebilir olacak şekilde bir eşik seçiyoruz. Yani, FPR'yi araştırmacı tarafından belirlenmiş bazı maksimum değerlerin altında olması ve / veya TPR'nin araştırmacı tarafından belirlenmiş bazı minimum değerlerin üzerinde olması için modeli seçin . Modeliniz hedeflerinize ulaşamıyorsa, daha iyi bir model oluşturmanız gerekir.

Tabii ki, kullanımınızda hangi TPR ve FPR değerlerinin tolere edilebileceği bağlama bağlı olacaktır.

Daha fazla bilgi için bkz . Wojtek J. Krzanowski ve David J. Hand.


Bu gerçekten soruma cevap vermiyor, ancak ROC eğrilerinin çok güzel bir açıklaması.
İstatistikler

Bu, sorunuza ne şekilde cevap vermiyor? Sınıflandırma için bir eşiğin nasıl seçileceğini sormuyorsanız, sorunuz nedir?
Sycorax, Reinstate Monica'yı

2
Bu şekilde çalışan herhangi bir istatistiksel prosedürün farkında değilim. Bu kare tekerlek neden iyi bir fikir? Hangi sorunu çözüyor?
Sycorax,

1
"Eğitim süresini azaltacak şekilde bir eşiği nasıl seçerim?" orijinal yayınınızdaki sorudan çok farklı bir soru gibi görünüyor.
Sycorax, Reinstate Monica'yı

1
Ne olursa olsun, bunun nasıl zaman kazandırdığını görmüyorum. Bir ROC eğrisi yapmak, bir modeli tahmin etmenin en pahalı kısmı değildir, bu nedenle eşik seçimini optimizasyon adımına taşımak geçici ve gereksiz görünmektedir .
Sycorax, Reinstate Monica'yı

-2

Genellikle biyomedikal araştırmalarda bir eğitim seti kullanmıyoruz - baktığımız sonuç için hangi öngörücülerin önemli risk faktörleri olduğunu görmek için tam veri kümesine lojistik regresyon uyguluyoruz; ya da diğer olası yordayıcıların sonuç üzerindeki etkisini kontrol ederken bir çıkar yordayıcısına bakmak.
Eşik değerleri ile ne demek istediğinizden emin değilim, ancak bir optimize etmek isteyebileceğiniz çeşitli parametreler var: AUC, sürekli bir tahmin değişkenini ikiye ayırmak için kesme değerleri, pozitif ve negatif tahmin değerleri, güven aralıkları ve p-değerleri, yanlış pozitif ve yanlış negatif oranlar. Lojistik regresyon bir denek popülasyonuna bakar ve bu popülasyondaki ilginin sonucuna katkıda bulunan risk faktörlerinin gücünü ve nedensel yönünü değerlendirir. Tabii ki "tersine çevirmek" ve bireyin sahip olduğu risk faktörleri göz önüne alındığında bireyin sonuç riskini belirlemek de mümkündür. Lojistik regresyon, her bireye, bireysel risk faktörlerine dayanarak sonuç için bir risk atar ve varsayılan olarak bu 0,5'tir. Bir konu varsa ' sonuca sahip olma olasılığı (modelinizdeki tüm verilere ve konulara dayanarak) 0,5 veya üstü ise, sonuca sahip olacağını tahmin eder; 0,5'in altındaysa o olmayacağını tahmin eder. Ancak, bu kesme seviyesini, örneğin, model tarafından tahmin edilen daha yanlış pozitiflere sahip olma pahasına da olsa, sonuç alma riski olan daha fazla kişiyi işaretlemek için ayarlayabilirsiniz. Bu kesim seviyesini, hangi bireylerin daha fazla tıbbi takibe sahip olmalarının tavsiye edileceğini tahmin etmek için tarama kararlarını optimize etmek üzere ayarlayabilirsiniz; ve lojistik regresyon modeline dayalı bir tarama testi için pozitif prediktif değerinizi, negatif prediktif değerinizi ve yanlış negatif ve yanlış pozitif oranlarınızı oluşturmak. Modeli veri kümenizin yarısında geliştirebilir ve diğer yarısında test edebilirsiniz, ancak t gerçekten (ve bunu yapmak, 'eğitim' verilerinizi yarıya indirecek ve böylece modelde önemli yordayıcılar bulma gücünü azaltacaktır). Yani evet, 'her şeyi uçtan uca eğitebilirsiniz'. Tabii ki, biyomedikal araştırmalarda, sonuçlarınızın daha geniş bir popülasyonda genelleştirilebileceğini söylemeden önce, başka bir popülasyonda, başka bir veri setinde doğrulamak istersiniz. Başka bir yaklaşım, modelinizi çalışma popülasyonunuzun bir alt örneğinde çalıştırdığınız, daha sonra bu özneleri havuza geri koyduğunuz ve birçok kez (genellikle 1000 kez) tekrarladığınız bir önyükleme türü yaklaşım kullanmaktır. Önemli bir sonuç alırsanız, zamanın büyük bir çoğunluğu (örneğin, zamanın% 95'i), modelinizin onaylanmış olduğu kabul edilebilir - en azından kendi verilerinizde. Ama yine de, modelinizi çalıştırdığınız çalışma popülasyonu ne kadar küçükse, bazı öngörücülerin sonuç için istatistiksel olarak önemli risk faktörleri olması daha az olasıdır. Bu özellikle sınırlı sayıda katılımcıyla biyomedikal çalışmalar için geçerlidir.
Verilerinizin yarısını modelinizi 'eğitmek' için kullanmak ve daha sonra diğer yarısında 'doğrulamak' gereksiz bir yüktür. Bunu t-testleri veya doğrusal regresyon için yapmıyorsunuz, neden lojistik regresyonda yapıyorsunuz? Yapacağı en iyi şey, 'evet işe yarıyor' demenize izin vermek, ancak tam veri kümenizi kullanırsanız, yine de bunu belirlersiniz. Verilerinizi daha küçük veri kümelerine bölmek, küçük örneklem büyüklüğü, çalışma büyüklüğünüz için çok fazla öngörücüye sahip olma ve gerçekte mevcut olduklarında, çalışma popülasyonunda (VEYA doğrulama popülasyonu) önemli risk faktörlerini tespit etmeme riski taşır. 'doğrulama örneğinizin' şans eseri hiçbir ilişkilendirme göstermeyeceğini unutmayın. 'Tren sonra doğrula' yaklaşımının arkasındaki mantık, önemli olarak tanımladığınız risk faktörleri yeterince güçlü değilse, verilerinizin rasgele seçilen bir yarısına modellendiğinde istatistiksel olarak anlamlı olmazlar. Ancak rastgele seçilen bu örnek, tesadüfen veya risk faktörlerinin istatistiksel olarak anlamlı olmaması için çok küçük bir ilişki göstermeyebilir. Ancak, risk faktörlerinin büyüklüğü ve önemlerini belirleyen istatistiksel önemi ve bu nedenle modelinizi oluşturmak için tam veri kümenizi kullanmak en iyisidir. İstatistiksel anlamlılık, çoğu istatistiksel testte olduğu gibi daha küçük örnek büyüklüklerinde daha az belirgin hale gelecektir. Lojistik regresyon yapmak, tıpkı istatistik bilimi kadar bir sanattır. Çalışma tasarımınıza bağlı olarak, farklı kullanım yaklaşımları ve optimize etmek için farklı parametreler vardır. t Verilerinizin rastgele seçilen yarısına göre modellendiğinde istatistiksel olarak anlamlı değildir. Ancak rastgele seçilen bu örnek, tesadüfen veya risk faktörlerinin istatistiksel olarak anlamlı olmaması için çok küçük bir ilişki göstermeyebilir. Ancak, risk faktörlerinin büyüklüğü ve önemlerini belirleyen istatistiksel önemi ve bu nedenle modelinizi oluşturmak için tam veri kümenizi kullanmak en iyisidir. İstatistiksel anlamlılık, çoğu istatistiksel testte olduğu gibi daha küçük örnek büyüklüklerinde daha az belirgin hale gelecektir. Lojistik regresyon yapmak, tıpkı istatistik bilimi kadar bir sanattır. Çalışma tasarımınıza bağlı olarak, farklı kullanım yaklaşımları ve optimize etmek için farklı parametreler vardır. t Verilerinizin rastgele seçilen yarısına göre modellendiğinde istatistiksel olarak anlamlı değildir. Ancak rastgele seçilen bu örnek, tesadüfen veya risk faktörlerinin istatistiksel olarak anlamlı olmaması için çok küçük bir ilişki göstermeyebilir. Ancak, risk faktörlerinin büyüklüğü ve önemlerini belirleyen istatistiksel önemi ve bu nedenle modelinizi oluşturmak için tam veri kümenizi kullanmak en iyisidir. İstatistiksel anlamlılık, çoğu istatistiksel testte olduğu gibi daha küçük örnek büyüklüklerinde daha az belirgin hale gelecektir. Lojistik regresyon yapmak, tıpkı istatistik bilimi kadar bir sanattır. Çalışma tasarımınıza bağlı olarak, farklı kullanım yaklaşımları ve optimize etmek için farklı parametreler vardır. Ancak rastgele seçilen bu örnek, tesadüfen veya risk faktörlerinin istatistiksel olarak anlamlı olmaması için çok küçük bir ilişki göstermeyebilir. Ancak, risk faktörlerinin büyüklüğü ve önemlerini belirleyen istatistiksel önemi ve bu nedenle modelinizi oluşturmak için tam veri kümenizi kullanmak en iyisidir. İstatistiksel anlamlılık, çoğu istatistiksel testte olduğu gibi daha küçük örnek büyüklüklerinde daha az belirgin hale gelecektir. Lojistik regresyon yapmak, tıpkı istatistik bilimi kadar bir sanattır. Çalışma tasarımınıza bağlı olarak, farklı kullanım yaklaşımları ve optimize etmek için farklı parametreler vardır. Ancak rastgele seçilen bu örnek, tesadüfen veya risk faktörlerinin istatistiksel olarak anlamlı olmaması için çok küçük bir ilişki göstermeyebilir. Ancak, risk faktörlerinin büyüklüğü ve önemlerini belirleyen istatistiksel önemi ve bu nedenle modelinizi oluşturmak için tam veri kümenizi kullanmak en iyisidir. İstatistiksel anlamlılık, çoğu istatistiksel testte olduğu gibi daha küçük örnek büyüklüklerinde daha az belirgin hale gelecektir. Lojistik regresyon yapmak, tıpkı istatistik bilimi kadar bir sanattır. Çalışma tasarımınıza bağlı olarak, farklı kullanım yaklaşımları ve optimize etmek için farklı parametreler vardır. Risk faktörlerinin büyüklüğü ve önemini belirleyen istatistiksel önemleri ve bu nedenle modelinizi oluşturmak için tam veri kümenizi kullanmak en iyisidir. İstatistiksel anlamlılık, çoğu istatistiksel testte olduğu gibi daha küçük örnek büyüklüklerinde daha az belirgin hale gelecektir. Lojistik regresyon yapmak, tıpkı istatistik bilimi kadar bir sanattır. Çalışma tasarımınıza bağlı olarak, farklı kullanım yaklaşımları ve optimize etmek için farklı parametreler vardır. Risk faktörlerinin büyüklüğü ve önemini belirleyen istatistiksel önemleri ve bu nedenle modelinizi oluşturmak için tam veri kümenizi kullanmak en iyisidir. İstatistiksel anlamlılık, çoğu istatistiksel testte olduğu gibi daha küçük örnek büyüklüklerinde daha az belirgin hale gelecektir. Lojistik regresyon yapmak, tıpkı istatistik bilimi kadar bir sanattır. Çalışma tasarımınıza bağlı olarak, farklı kullanım yaklaşımları ve optimize etmek için farklı parametreler vardır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.