Kısmi bağımlılık parselleri hakkındaki diğer konuları okudum ve bunların çoğu, onları nasıl doğru bir şekilde yorumlayabileceğinizi değil, onları farklı paketlerle nasıl çizdiğinizle ilgili.
Adil miktarda kısmi bağımlılık grafiği okuyordum ve yaratıyorum. As değişkeninin ƒS (χS) fonksiyonu üzerindeki marjinal etkisini, modelimdeki diğer tüm değişkenlerin (χc) ortalama etkisiyle ölçtüğünü biliyorum. Yüksek y değerleri, sınıfımı doğru bir şekilde öngörmede daha büyük bir etkiye sahip oldukları anlamına gelir. Ancak bu nitel yorumdan memnun değilim.
Modelim (rastgele orman) iki gizli sınıfı öngörüyor. "Evet ağaçlar" ve "Ağaç yok". TRI, bunun için iyi bir değişken olduğu kanıtlanmış bir değişkendir.
Düşünmeye başladığım, Y değerinin doğru sınıflandırma için bir olasılık gösterdiğidir. Örnek: y (0.2),> ~ 30 olan TRI değerlerinin bir True Positive sınıflandırmasını doğru şekilde tanımlamada% 20 şansa sahip olduğunu göstermektedir.
Tersine
y (-0.2), <~ 15 olan TRI değerlerinin bir True Negatif sınıflandırmasını doğru şekilde tanımlamada% 20 şansa sahip olduğunu gösteriyor.
Literatürde yapılan genel yorumlar, "TRI 30'dan büyük değerler modelinizdeki sınıflandırma için olumlu bir etkiye sahip olmaya başlar" şeklinde gerçekleşir ve işte budur. Verileriniz hakkında çok fazla konuşabilecek bir komplo için belirsiz ve anlamsız geliyor.
Ayrıca tüm grafiklerim y ekseni için -1 ile 1 arasında değişir. -10 dan 10 a kadar olan başka araziler gördüm. Bu, kaç tane ders öngörmeye çalıştığınızın bir işlevi midir?
Birileri bu sorunla konuşabilecek mi diye merak ediyordum. Belki bana bu arsaları veya bana yardımcı olabilecek bazı literatürü nasıl yorumlamam gerektiğini göster. Belki de bu konuda çok fazla okuyorumdur?
Çok iyice okudum İstatistiksel öğrenmenin unsurları: veri madenciliği, çıkarım ve tahmin ve harika bir başlangıç noktası oldu, ama bununla ilgili.