Kısmi bağımlılık parsellerinin y eksenini yorumlayabilme


22

Kısmi bağımlılık parselleri hakkındaki diğer konuları okudum ve bunların çoğu, onları nasıl doğru bir şekilde yorumlayabileceğinizi değil, onları farklı paketlerle nasıl çizdiğinizle ilgili.

Adil miktarda kısmi bağımlılık grafiği okuyordum ve yaratıyorum. As değişkeninin ƒS (χS) fonksiyonu üzerindeki marjinal etkisini, modelimdeki diğer tüm değişkenlerin (χc) ortalama etkisiyle ölçtüğünü biliyorum. Yüksek y değerleri, sınıfımı doğru bir şekilde öngörmede daha büyük bir etkiye sahip oldukları anlamına gelir. Ancak bu nitel yorumdan memnun değilim.

Bu bağlantı benim birçok arsadan birini gösteriyor.  http://imgur.com/RXqlOky

Modelim (rastgele orman) iki gizli sınıfı öngörüyor. "Evet ağaçlar" ve "Ağaç yok". TRI, bunun için iyi bir değişken olduğu kanıtlanmış bir değişkendir.

Düşünmeye başladığım, Y değerinin doğru sınıflandırma için bir olasılık gösterdiğidir. Örnek: y (0.2),> ~ 30 olan TRI değerlerinin bir True Positive sınıflandırmasını doğru şekilde tanımlamada% 20 şansa sahip olduğunu göstermektedir.

Tersine

y (-0.2), <~ 15 olan TRI değerlerinin bir True Negatif sınıflandırmasını doğru şekilde tanımlamada% 20 şansa sahip olduğunu gösteriyor.

Literatürde yapılan genel yorumlar, "TRI 30'dan büyük değerler modelinizdeki sınıflandırma için olumlu bir etkiye sahip olmaya başlar" şeklinde gerçekleşir ve işte budur. Verileriniz hakkında çok fazla konuşabilecek bir komplo için belirsiz ve anlamsız geliyor.

Ayrıca tüm grafiklerim y ekseni için -1 ile 1 arasında değişir. -10 dan 10 a kadar olan başka araziler gördüm. Bu, kaç tane ders öngörmeye çalıştığınızın bir işlevi midir?

Birileri bu sorunla konuşabilecek mi diye merak ediyordum. Belki bana bu arsaları veya bana yardımcı olabilecek bazı literatürü nasıl yorumlamam gerektiğini göster. Belki de bu konuda çok fazla okuyorumdur?

Çok iyice okudum İstatistiksel öğrenmenin unsurları: veri madenciliği, çıkarım ve tahmin ve harika bir başlangıç ​​noktası oldu, ama bununla ilgili.


Arsa, ortalama olarak TRI 30'a kadar evet ağacı olasılığını gösterir ve bundan sonra artar. Bu link PDP ikili sınıflandırma ve sürekli değişken grafiklerin nasıl yorumlanacağını açıklar.
LazyNearestNeigbour,

Yanıtlar:


13

Kısmi bağımlılık grafiği üzerindeki her bir nokta, sabit bir TRI seviyesi göz önüne alındığında, tüm gözlemlerde “Evet ağaçlar” sınıfı lehine ortalama oy oranıdır.

Doğru sınıflandırma olasılığı değil. Kesin doğruluk, gerçek olumsuzluklar ve gerçek pozitifliklerle ilgisi yoktur.

Cümleyi gördüğünde

TRI 30'dan büyük değerler modelinizde sınıflandırma için olumlu bir etkiye sahip olmaya başlar

kabarık demenin bir yolu

TRI 30'dan büyük değerler, "Evet ağaçlar" ı TRI 30'dan düşük değerlerden daha güçlü olarak tahmin etmeye başlar


2

Kısmi bağımlılık işlevi temel olarak size bu değişkenin "ortalama" eğilimini verir (modeldeki diğerlerini de dahil eder). Bu "önemli" olan trendin şekli. Bu parsellerin göreceli aralığını farklı yordayıcı değişkenlerinden yorumlayabilirsiniz, ancak mutlak aralığı değil. Umarım yardımcı olur.


2

Y ekseni değerlerine bakmanın bir yolu, diğer parsellerde birbirlerine göre olmalarıdır. Bu sayı, mutlak değerlerdeki diğer parsellerden daha yüksek olduğunda, bu değişkenin çıktı üzerindeki etkisinin daha büyük olmasının daha önemli olduğu anlamına gelir.

Kısmi bağımlılık parsellerinin ardındaki matematiğe ve bu sayının nasıl tahmin edildiğine merak ediyorsanız, burada bulabilirsiniz: http://statweb.stanford.edu/~jhf/ftp/RuleFit.pdf bölüm 8.1

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.