Lojistik Regresyon, geleneksel işlev olmayan eğrileri nasıl üretebilir?


15

Lojistik regresyondaki işlevlerin nasıl çalıştığı (veya belki de bir bütün olarak işlev gördüğü) konusunda bazı temel karışıklıklarım olduğunu düşünüyorum.

H (x) fonksiyonu görüntünün solunda görülen eğriyi nasıl üretir?

Ben bu iki değişkenin bir komplo olduğunu görüyorum ama sonra bu iki değişken (x1 & x2) de fonksiyonun argümanları. Bir değişkenin bir çıktıya standart işlevlerini biliyorum, ancak bu işlev açıkça bunu yapmıyor - ve neden olduğundan emin değilim.

resim açıklamasını buraya girin

Sezgim, mavi / pembe eğrinin bu grafikte gerçekten çizilmemesi, daha ziyade grafiğin bir sonraki boyutundaki (3.) değerlerle eşleştirilen bir gösterim (daireler ve X'lar) olmasıdır. Bu muhakeme hatalı mı ve sadece bir şey mi kaçırıyorum? Herhangi bir görüş / sezgi için teşekkürler.


8
Eksen etiketlerine dikkat edin, ikisinin de etiketli olmadığına dikkat edin . y
Matthew Drury

3
"Geleneksel işlev" ne olurdu?
whuber

@matthewDrury Bunu anlıyorum ve bu 2D X / O'ları açıklıyor. Daha sonra çizilen eğrinin nereden geldiğini soruyorum
Sam

Yanıtlar:


19

Bu ilgili aşırı uyuma örneğidir Andrew Ng programı ML Coursera iki özelliklere sahip bir sınıflandırma modeli durumunda gerçek değerlerin sembolize edildiği, x ve , ve karar sınırıdır yüksek dereceli polinom terimleri kullanılarak belirlenen eğitim setine tam olarak uyarlanmıştır.(x1,x2)×,

Göstermeye çalıştığı sorun, sınır karar çizgisi (mavi eğrisel çizgi) herhangi bir örneği yanlış sınıflandırmasa da, eğitim setinden genelleme yeteneğinin tehlikeye gireceği gerçeğiyle ilgilidir. Andrew Ng, düzenlileştirmenin bu etkiyi hafifletebileceğini açıklamaya devam ediyor ve eflatun eğrisini eğitim setine daha az sıkı olan ve genelleme olasılığı daha yüksek bir karar sınırı olarak çiziyor.


Özel sorunuzla ilgili olarak:

Sezgim, mavi / pembe eğrinin bu grafikte gerçekten çizilmemesi, daha ziyade grafiğin bir sonraki boyutundaki (3.) değerlerle eşleştirilen bir gösterim (daireler ve X'lar) olmasıdır.

Orada iki kategori vardır: bir yüksekliği (üçüncü boyut) vardır ve ) , model, aralarına nasıl karar hattı göstermektedir ve. Daha basit modelde(×),

hθ(x)=g(θ0+θ1x1+θ2x2)

karar sınırı doğrusal olacaktır.


Belki aklınızda böyle bir şey var, örneğin:

5+2x1.3x21.2x2y+1x2y2+3x2y3

resim açıklamasını buraya girin

g()x1x2× ().(1,0)

(x1,x2)×××bu blog girişi R-blogcularda ).

Wikipedia'daki karar sınırına ilişkin girişe dikkat edin :

İki sınıflı bir istatistiksel sınıflandırma probleminde, bir karar sınırı veya karar yüzeyi, altta yatan vektör uzayını her sınıf için bir tane olmak üzere iki kümeye ayıran bir hiper yüzeydir. Sınıflandırıcı, karar sınırının bir tarafındaki tüm noktaları bir sınıfa, diğer taraftaki tüm noktaları diğer sınıfa ait olarak sınıflandırır. Karar sınırı, bir sınıflandırıcının çıktı etiketinin belirsiz olduğu bir sorun alanının bölgesidir.

[0,1]),

resim açıklamasını buraya girin


3

resim açıklamasını buraya girin

y1=hθ(x)W(Θ)Θ

Birden fazla nörona bağlanan bu ayırıcı hiperplanlar, kaprisli şekillerle sonuçlanacak şekilde eklenebilir ve çıkarılabilir:

resim açıklamasını buraya girin

Bu evrensel yaklaşım teoremiyle bağlantılıdır .


1
+1 her zaman cevabınızı okumaktan zevk alır. Planınızla kesişen bir karar uçağınız varsa daha da iyi olabilir. yukarıda, bazıları altında göstermek için.
Haitao Du

Bunun için çok teşekkürler. Hala eğrinin kendisi hakkında küçük bir şey eksikmişim gibi hissediyorum - bu karar sınırının gerçekten "çizilmedi" demek değil, sadece Andrew Ng'in x1 ve x2 değer eşiklerini hipotezin × veya ∘ olmasına neden olur mu? Sanırım bazı karışıklığım bu eğrinin ilk etapta nasıl bir işlev olabileceğinden kaynaklandı, ama şimdi bunun farkında değilim.
Sam

1
@AntoniParellada Bu harika, şimdi ayrımı görüyorum. Yardımın için çok teşekkürler.
Sam

0

Bu soruya cevap veren bazı ağır matematikçilerimiz var. Burada tasvir ettiğiniz gibi bir diyagram görmedim, X1 ve X2 tahmincilerinin değerleri ve tahmin edilen pozitifleri tahmin edilen negatiflerden ayıran 'karar sınırı' satırı. (veya tahmin edilen ve gerçek sonuçların bir haritası mı?) Ama yararlıdır --- eşlemek istediğiniz yalnızca iki ilgi tahmin ediciniz olduğu sürece.
Kırmızı çizginin tahmin edilen pozitifleri tahmin edilen negatiflerden ayırdığı görülürken, koyu mavi çizgi tüm pozitifleri içerir. Bu genellikle lojistik regresyonda geçerlidir: model, vakaların% 100'ünden daha azının sonucunu doğru bir şekilde tahmin edecektir (ve bazı yanlış pozitifleri ve / veya yanlış negatifleri tahmin edecektir).
Lojistik regresyonu çalıştırmak ve prosedürün veri kümesindeki her bir durum için h (x) fonksiyonunu üretmesini sağlamak mümkündür. Bu, her denek için, 0 den 1 e kadar, tüm denekleri kullanan lojistik regresyon modeline dayanarak, bu deneğin tahmin değişkenlerine dayalı olarak her bir denek için pozitif sonucun tahmin edilme olasılığını veya olasılığını veren bir eğilim skoru üretecektir. Eğilim skoru 0.5 veya daha yüksek olanların sonuca sahip olduğu ve 0.5'in altında olanların sonuca sahip olmadığı tahmin edilmektedir. Ancak bu kesme seviyesini uygun gördüğünüz şekilde ayarlayabilirsiniz, örneğin lojistik regresyon analizinize girilen tüm girdi değişkenlerine dayalı olarak bazı sonuçların tanı tahmin modelini yapmak için. Kesmeyi örneğin 0,3 olarak ayarlayabilirsiniz. Daha sonra 2X2 tahmin-fiili sonuçlar tablosu yapabilir ve bu kesim seviyesine dayanarak modelinizin hassasiyetini, özgüllüğünü, yanlış pozitif oranını ve yanlış negatif oranını belirleyebilirsiniz. Bu, daha fazla bilgi sağlar ve ayrıca grafiğinizde kullanılan 2 değişken sınırından sizi kurtarır. Modele makul şekilde sığabildiğiniz kadar çok yordayıcı kullanabilirsiniz ve yine de 2X2 gerçek ve tahmin edilen sonuç tablosunu yapabilirsiniz. Lojistik regresyon kategorik (evet-hayır) sonuçları kullandığından, 2X2 tablosundaki her hücre, satır ve sütun ölçütlerini karşılayan deneklerin sayısıdır. Modele makul şekilde sığabildiğiniz kadar çok yordayıcı kullanabilirsiniz ve yine de 2X2 gerçek ve tahmin edilen sonuç tablosunu yapabilirsiniz. Lojistik regresyon kategorik (evet-hayır) sonuçları kullandığından, 2X2 tablosundaki her hücre, satır ve sütun ölçütlerini karşılayan deneklerin sayısıdır. Modele makul şekilde sığabildiğiniz kadar çok yordayıcı kullanabilirsiniz ve yine de 2X2 gerçek ve tahmin edilen sonuç tablosunu yapabilirsiniz. Lojistik regresyon kategorik (evet-hayır) sonuçları kullandığından, 2X2 tablosundaki her hücre, satır ve sütun ölçütlerini karşılayan deneklerin sayısıdır.
Sağladığınız grafikte, muhtemelen 0,5'lik bir kesme varsayılır. Bu yazılım için ortak varsayılan değerdir. Daha yüksek (örneğin 0,65'e) ayarladıysanız, satırın içindeki tüm O'ları içerebilir, ancak modelin sonucuna sahip olması için tahmin edileceği bazı yanlış pozitifler de (X'in O olduğunu düşünüyor). faiz. (veya kesme puanını daha düşük ayarlayın ve daha yanlış negatiflere sahip olun).
Umarım bu yardımcı olur.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.