Doğrusal olmayan modeller kullanılırken çoklu-eş-doğrusallıktan endişe edilmeli mi?


13

Diyelim ki çoğunlukla kategorik özelliklere sahip bir ikili sınıflandırma problemimiz var. Öğrenmek için bazı doğrusal olmayan modeller (örneğin, XGBoost veya Rastgele Ormanlar) kullanıyoruz.

  • Kişi hala çok eşbiçimli olma konusunda endişelenmeli mi? Neden?
  • Yukarıdakilerin cevabı doğruysa, bu tip doğrusal olmayan modelleri kullandığını düşünerek nasıl mücadele etmeliyiz?

Yanıtlar:


7

Çoklu eşzamanlılık bazı modeller için sorun olmayacaktır. Rastgele orman veya karar ağacı gibi. Örneğin, iki özdeş sütunumuz varsa, karar ağacı / rastgele orman her bölmede otomatik olarak bir sütun bırakacaktır. Ve model hala iyi çalışacak.

Ayrıca, düzenlileştirme Çoklu eşzamanlılık problemini "düzeltmenin" bir yoludur. Cevabım Lojistik regresyon için normalleştirme yöntemleri ayrıntılar veriyor.


5
Sorunun düzenlenme ile "düzeltilmesi" tam olarak ne olduğunu açıklarsanız bu daha iyi olacağını düşünüyorum.
Matthew Drury

2

Partiye geç, ama yine de benim cevabım ve "Evet" dir, model / yöntemin doğrusal ya da doğrusal olmasından ya da ana görevin tahmin ya da sınıflandırmadan bağımsız olarak her zaman eş-doğruluktan endişelenmesi gerekir.

Yöntem olarak veri kümesinde ve Rastgele Orman'da bulunan bir dizi doğrusal olarak ilişkili ortak değişken / özellik olduğunu varsayalım. Açıkçası, düğüm başına rastgele seçim sadece (veya çoğunlukla) zayıf bir bölünme ile sonuçlanabilecek / sonuçlanacak olan eşdoğrusal özellikleri seçebilir ve bu tekrar tekrar gerçekleşebilir, dolayısıyla performansı olumsuz yönde etkileyebilir.

Şimdi, eşdoğrusal özellikler, diğer (eş-doğrusal olmayan) özelliklerden daha az sonuç verici olabilir ve bu nedenle, yine de özellik kümesinden elenmesi için düşünülmelidir. Bununla birlikte, RF tarafından üretilen 'özellik önemi' listesinde özelliklerin üst sıralarda yer aldığını varsayın. Bu nedenle, boyutsallığı arttırarak gereksiz yere veri kümesinde tutulacaklardır. Yani, pratikte, her zaman, keşifsel bir adım olarak (birçok ilgili olandan) doğrusal korelasyon da dahil olmak üzere özelliklerin ikili ilişkisini kontrol ederdim.


Bence çoklu-kolinearitenin güvenli bir şekilde göz ardı edilebileceği durumlar var, bazı vakalar burada tartışılıyor: statistichorizons.com/multicollinearity
Dr Nisha Arora

0
  1. Kişi hala çok eşbiçimli olma konusunda endişelenmeli mi? Neden?

Doğrusal olmayan model ağaç tabanlı bir modelse, bunu ciddi olarak düşünmemelisiniz. Farklı ağaç modelinin farklı anlaşma yöntemi olacaktır, örneğin rastgele orman her ikisini de tutacaktır (çünkü ağacı bağımsız olarak inşa ederler ve her ağaç için rastgele seçim yaparlar), ancak tahmin performansı üzerinde hiçbir etkisi yoktur, hatta gereksiz olan. Ancak xgboost için, herhangi birini seçecek ve son ağaç yapısına kadar kullanacak.

  1. Yukarıdakilerin cevabı doğruysa, bu tip doğrusal olmayan modelleri kullandığını düşünerek nasıl mücadele etmeliyiz?

Bu sadece yorum anlamı ile ilgili, bu nedenle yüksek korelasyon değişken kaldırmak önerilir.


-3

Çoklu eşzamanlılık her zaman olası bir sorundur. Modelde yordayıcı olan değişkenler, doğrusal olarak ilişkili olduklarında (yani, eşdoğrusallık olduğunda) tahmini etkileyecektir.


1
Teşekkürler, eğer (1) odak tahmin performansı (ve yorumlanabilirlik değil) ve (2) model doğrusal değilse, bunun neden hala sorun olabileceğini düşünür müsünüz? (ve tam olarak kendini nasıl gösterir?)
Josh

Modelde yordayıcı olan bu değişkenler, doğrusal olarak ilişkili olduklarında (yani eşdoğrusallık varsa) tahmini etkileyecektir.
Michael R.Chickick

1
Tahmin nasıl, tam olarak nasıl? BTW, stats.stackexchange.com/a/138082/99274 , cevabınıza bazı bağlantılar koyun veya "oraya gittin " kalabalığının gazabıyla yüzleşin .
Carl

7
Sınıflandırma tahminle çok yakından ilişkili olduğundan ve tahmin çok doğrusallıktan muzdarip olmama eğiliminde olduğundan , özellikle soruda belirtilen belirli modeller için her zaman "olası bir sorun" olduğu konusunda tartışmanızı desteklemek önemlidir . Bu sınıflandırma için nasıl bir problem olurdu ve neden?
whuber

12
Soruyu yalvardığına eminim. Whuber, tahminin neden çoklu-doğrusallıktan muzdarip olduğunu sordu ve temel olarak "Tahmin, çoklu-doğrusallıktan muzdarip çünkü tahmin, çoklu-doğrusallıktan muzdariptir."
Matthew Drury
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.