İlişkili değişkenler ne zaman kaldırılır


Yanıtlar:


8

İlişkili değişkenlerin tümünü kaldırmak istemezsiniz. Sadece korelasyon o kadar güçlü olduğunda ekstra bilgi vermezler. Bu, hem korelasyon gücünün, ne kadar veriye sahip olduğunuzun hem de ilişkili değişkenler arasındaki küçük farkın sonuç hakkında size bir şey söyleyip söylemediğinin bir fonksiyonudur.

Herhangi bir model yapmadan önce söyleyebileceğiniz ilk ikisi, sonuncusu değil. Bu nedenle, ilk iki noktanın birleşimine bağlı olarak değişkenleri kaldırmak çok makul olabilir (yani, ekstra değişkenler prensipte bazı yararlı bilgiler içeriyor olsa bile, korelasyonun gücü ve ne kadar veri verildiğini söyleyemezsiniz. modelleme / özellik mühendisliği yapmadan önce). Son nokta sadece bazı modellemeler yapıldıktan sonra değerlendirilebilir.


2

Kimsenin yorumlanabilirlikten bahsetmemesi garip .

İlgilendiğiniz tek şey performanssa , korelasyon = 1 veya -1 olmadığı sürece iki ilişkili değişkeni kaldırmak mantıklı değildir, bu durumda değişkenlerden biri yedeklidir.

Ancak yorumlanabilirlik konusunda endişeleriniz varsa, korelasyon hafif olsa bile değişkenlerden birini kaldırmak mantıklı olabilir. Bu özellikle doğrusal modeller için geçerlidir. Biri Doğrusal regresyon varsayımları olan belirleyicileri mükemmel çoklu doğrusal olmaması.

A, B ile ilişkiliyse, ne A ne de B'nin katsayılarını yorumlayamazsınız. Nedenini görmek için, A = B (mükemmel korelasyon) olduğunda uç durumu düşünün. Daha sonra, y = 100 * A + 50 * B modeli y = 5 * A + 10 * B veya y = -2000 * A + 4000 * B modeliyle aynıdır. En küçük kare minimasyon probleminin olası çözümlerinde birden fazla denge vardır, bu nedenle de “güvenemezsiniz”.

Benzer şeyler diğer modellerde de olabilir. Örneğin, A B ile çok ilişkiliyse, karar ağacı A'yı B olarak iki kez seçerse, A'nın B'den daha önemli olduğunu söyleyemezsiniz. Modeli yeniden eğitirseniz, bunun tersi olabilirdi.




Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.