Değişken önem dereceleri ne için faydalıdır?

25

Değişken önem sıralaması söz konusu olduğunda (her çeşit çok değişkenli modeller bağlamında) bir nihilist oldum .

Genelde, çalışmalarım sırasında, başka bir ekibin değişken öneme sahip bir sıralama yapmasına ya da kendi işimden değişen bir öneme sahip bir grup oluşturmasına yardımcı olmam isteniyor. Bu taleplere cevap olarak aşağıdaki soruları soruyorum

Bu değişken önem derecesinin ne için olmasını istersiniz? Bundan ne öğrenmeyi umuyorsun? Ne tür kararlar kullanmak istersiniz?

Aldığım cevaplar neredeyse her zaman iki kategoriden birine giriyor

Modelimdeki farklı değişkenlerin cevabı tahmin etmedeki önemini bilmek isterim.
Düşük önem taşıyan değişkenleri kaldırarak özellik seçimi için kullanmak istiyorum.

İlk cevap tautological (Değişken önem derecesini istiyorum, çünkü değişken önem derecesini istiyorum). Bu sıralamaların çok değişkenli bir modelin çıktısını tüketirken psikolojik bir ihtiyacı doldurduğunu varsaymalıyım. Bunu anlamakta zorlanıyorum, çünkü "önem" değişkenlerini ayrı ayrı sıralamak, söz konusu modelin çok boyutlu yapısını dolaylı olarak reddediyor gibi görünüyor.

İkinci tepki temelde , istatistiksel günahları CrossValidated'ın diğer bölümlerinde iyi belgelendirilmiş resmi olmayan bir geriye dönük seçim versiyonuna indirgenmiştir.

Ayrıca önem derecelerinin kötü tanımlanmış doğası ile de mücadele ediyorum. Sıralamanın neyin ölçülmesi gerektiği konusunda çok az bir anlaşmaya varılıyor ve onlara çok özel bir lezzet veriyor. Bir önem puanı veya sıralaması atamanın birçok yolu vardır ve bunlar genellikle dezavantajları ve uyarıları çekerler:

Rasgele ormanlarda ve gbms'deki önem derecelerinde olduğu gibi algoritmaya oldukça bağımlı olabilirler.
Son derece yüksek bir varyansa sahip olabilirler ve temel verilere göre sapmalarla büyük ölçüde değişebilirler.
Girdi yordayıcılarındaki korelasyondan büyük ölçüde zarar görebilirler.

Öyleyse, tüm söylenenlerle birlikte benim sorum, değişken önem sıralamasının bazı istatistiksel olarak geçerli kullanımları ya da böyle bir arzunun yerine getirilmesinde ikna edici bir argüman (ya istatistikçi ya da meslekten olmayan biri) nedir? Hem genel teorik argümanlar hem de örnek olay incelemesinde hangisinin daha etkili olacağıyla ilgili örnek olaylarla ilgileniyorum.

multiple-regression multivariate-analysis importance

— Matthew Drury
kaynak

1

Zayıf tahmin edicileri filtrelemek için değişken önemi (bazı mantıklı prosedürlerden) kullanmak berbat bir fikir gibi görünmüyor. Bunun neden kötü olduğunu düşündüğünü açıklayabilir misin?

— dsaxton

3

Genel olarak, pek çok istatistiksel işlemin "önemli" öngörücüler tarafından yönetilmediğini, pek çok küçük etkinin birikimi olduğunu düşünüyorum. Örneğin, sırt regresyonunun gücü, bu yapıyı açıkça kabul etmesiyle açıklanabilir. Başka bir deyişle, bir “öncül” kavramına “zayıf bir öngörücü” kavramına inanmamızın sebebi nedir ve neden filtrelemeliyiz? Ve neden uygun olduğunda bunu yapmak için böyle gayri resmi bir prosedür kullanmalıyız glmnet?

— Matthew Drury

2

Uzman olmadığımız herhangi bir alanda, neyin endişe duymasının önemli olduğunu bilmek istiyoruz! Pek çok işletme ve yönetim kitabı, önemli sorunları tanımladığınızı ve bunlara odaklandığınızı açıklamaktan kaynaklanıyor gibi görünmektedir (evet). Buradaki yanlış iletişimin genellikle, istatistiksel olarak önem taşıyan kişilerle başladığını ve bunun önemini ölçmenin bir yolunun olduğunu ve bunun ne kadar zor olacağına dair endişe duymadıklarını düşünen istatistiksel kişilerin işi olduğunu sanıyorum. Nasıl daha az genel olacağımı bilmiyorum, ancak buradaki tartışmaların bir kısmı sorunuzdaki kilit noktaları gözden kaçırıyor.

— Nick Cox

8

Değişken öneminin, bu sorunun ortaya koyduğu gibi kaygan bir kavram olduğunu savundum . Sorunuza ulaştığınız ilk tip yanıt olarak ve değişken önemi değerlendirenlerin gerçekçi olmayan umutları nedensellik açısından, @DexGroves tarafından belirtildiği gibi çok az ayrıntıya ihtiyaç duyar.

Ancak geriye doğru seçimi kullananlara adil davranmakla birlikte, Frank Harrell bile modelleme stratejisinin bir parçası olarak izin veriyor. Regresyon Modelleme Stratejilerinin 97. sayfasından , 2. baskı (benzer bir açıklama ilişkili ders notlarının 131. sayfasındadır ):

Parlamento doğruluktan daha önemliyse, sınırlı geri-adım değişken seçimi sınırlayın.

Ancak, geriye dönük seçimin bu sınırlı potansiyel kullanımı, son modelden önceki son adım olan adım 13'tür (adım 14). Çok önemli ilk adımlardan sonra iyi gelir:

Tahmini değerler için geniş dağıtımlarla mümkün olduğu kadar doğru veriyi bir araya getirin ...

İlgili aday belirleyicilerin ve olası etkileşimlerin belirlenmesine yol açan iyi hipotezler oluşturun ...

Deneyimlerime göre insanlar genellikle 2. adımı atlamak istiyorlar ve bazı otomatik prosedürlerin konu bilgisi bilgisinin akıllıca uygulanmasının yerini almasına izin veriyorlar. Bu, değişken öneme önem verilen bazı vurgulara yol açabilir.

Harrell'ın 14. adımının tam modelini, son bir adımla birlikte 5 doğrulama ve ayarlama aşaması izler:

İstenilen doğruluk derecelerine yaklaştırarak tüm modele basitleştirmeler yapın.

Diğer cevapların da belirttiği gibi, modelleme sonuçlarının pratik uygulamasına giren hareketlilik, maliyet ve basitlik sorunları vardır. Örneğin, prognostikliği artıran ancak test başına 100.000 dolara mal olan yeni bir kanser biyobelirteç geliştirirsem, sigortacıları veya hükümeti olağanüstü yararlı olmadıkça test için ödeme yapmaya ikna etmek zor olabilir. Bu nedenle, birinin "en önemli" değişkenlere odaklanmak istemesi veya doğru bir modeli basitçe daha az doğru, ancak uygulanması daha kolay veya daha ucuz olan bir model haline getirmek istemesi mantıksız değildir.

Ancak bu değişken seçim ve model sadeleştirme belirli bir amaç için olmalı ve bence zorlukların ortaya çıktığı yer burası. Mesele, sınıflandırma şemalarının yalnızca doğru olarak sınıflandırılan vakaların yüzdesi bazında değerlendirilmesine benzer. Farklı sınıflandırma hatalarının farklı maliyetleri olabileceği gibi, farklı model sadeleştirme şemaları da, umut edilen faydaları ile dengelenen farklı maliyetlere sahip olabilir.

Dolayısıyla, analist olarak üzerinde durulması gereken konunun, kendi başına soyut bir istatistiksel geçerlilik kavramı hakkında çok fazla endişe etmek yerine, bu maliyetleri ve faydaları güvenilir bir şekilde istatistiksel modelleme prosedürleriyle tahmin etme ve gösterme yeteneği olduğunu düşünüyorum. Örneğin, yukarıda bağlanmış Harrell sınıf notlarının 157-8. Sayfalarında, sıralama belirleyicilerinin en küçük karelerdeki değişkenlerinin gösterilmesi için önyükleme kullanma örneği; LASSO tarafından seçilen değişken kümeleri için de benzer sonuçlar bulunabilir.

Değişken seçimindeki bu değişkenlik türü, modelin belirli bir pratik uygulamasının yolunda gitmiyorsa. İş, basitleştirmenin ne kadar ve ne tür bir soruna yol açacağını tahmin etmektir.

— EDM
kaynak

2

Bu, @EdM'in büyük bir cevabı ve konuyla ilgili geliştirmiş olduğum görüşlerle tutarlı. Özellikle iki noktanı beğeniyorum: 1) kabul edilemez tahmincilerin (ahlaki, düzenleyici veya ticari nedenlerle) modellemeden önce gösterilmeleri , 2) nihai model basitleştirmelerinin özel, apriori tanımlı bir amaç için yapılması gerekir. Bunlar genellikle iş ortaklarıma sorularla gevşetmeye çalıştığım noktalardır.

— Matthew Drury

P r (β \neq 0)

$Pr(\beta \ne 0)$

Bununla birlikte, önemsiz bir istatistiki problemde sadece ad hoc saldırıları olup olmadığına dair önem sırasındaki önem derecelerinin yakalamaya çalıştığı bir kavram olup olmadığını hala merak ediyorum.

— Matthew Drury

1

@MatthewDrury, Frank Harrell , her değişken tarafından açıklanan log olabilirliği oranına dayanarak, "değişken önemi" değerlendirmenin ilkeli yolunu sunar. Daha az sofistike bireylerin muhtemelen tabiriyle ifade ettiği şey bu değil. Sizin gibi, LASSO'nun her bir öngörücüyü seçtiği zamanların bir kısmını, çeşitli önyükleme örnekleri arasında, değişken seçimi değişkenlerini göstermek için düşünmenin en iyi yolu olarak kullandım. Bu beni çoğunlukla LASSO'dan ve orta ölçekli problemler için sırt regresyonuna doğru itti.

— EdM

8

Bu tamamen anekdottur, ancak GBM'lerde hata ya da zayıf yönleri belirlemede faydalı değişken buldum.

Değişken önem, modelin aksi takdirde elde edilmesi zor olacak bir tür büyük kesitsel genel bakış sunar. Listedeki daha yüksek değişkenler daha fazla etkinlik görüyor (daha 'önemli' olup olmadıkları başka bir sorudur). Genellikle kötü davranan bir tahmin (örneğin ileriye dönük bir şey veya yüksek kardinalite faktörü) zirveye varacak.

Sezgi değişkeninin önemi ile GBM değişkeninin önemi arasında büyük bir anlaşmazlık varsa, genellikle kazanılması gereken bazı değerli bilgiler veya bulunacak bir hata vardır.

"Neden benden bunun için soruyorsun?" soru, "çünkü cevabımın neye sebep olduğunu anlamak istiyorum". Eep.

— Dex Groves
kaynak

4

Değişken önem dereceleri, uygulanmakta olan iş dünyasında, bir sürece, herhangi bir sürece potansiyel olarak çok sayıda girdinin öncelik verilmesi gerektiğinde kesin bir role sahiptir. Bu bilgi, bir problemi ele almak için odaklanmış bir strateji açısından, değişkenlerin kaldıraç edilebilir olması ve manipülasyona bağışık olmayan sabit veya yapısal faktörler olmadığı sürece en azından en önemlisi kadar önemine, örneğin proses maliyetinin azaltılmasına yönelik bir yönlendirme sağlar. Günün sonunda, bu bir tür A / B testiyle sonuçlanmalıdır.

Ancak, amacınıza göre, Matt ve sıralı sıralamalarda olduğu gibi, küçük nüanslar veya değişkenler arasındaki farklar belirsiz veya gizemli olabilir ve bu da yararlılıklarını arttırabilir.

— Mike Hunter
kaynak

Değişken sıralamasının birçok iş durumunda işe yararlığına tamamen katılıyorum. Fakat burada “farklı algoritmalar farklı sıralamaları verir” endişesi henüz açık değildir. Bu konuyla ilgili herhangi bir öneriniz var mı? Ayrıca burada benim soruma bakınız. İstatistik.stackexchange.com/q/251248/71287

— Aliweb,

3

@aliweb konusu farkı , tek bir sabit, üniter bir çözüm yoktur. Bu nokta, küresel sıralamanın aslında tamamen yerel ve geçici olduğu ortaya konduğu hiyerarşiler ile kalıtımsal değerler arasındaki fark kadar incedir. Literatürün göreceli değişken önemi konusundaki en iyi değerlendirmeleri, muhtemelen makaleleri oldukça kapsamlı olan Ulrike Groemping'e aittir. Ek olarak, R modülü ve metodu - RELAMPO - olduğu gibi göreceli önemi tahmin etmek için bir yaklaşımdır.

— Mike Hunter,

3

Teorik bakış açısına tamamen katılıyorum. Ancak pratik bakış açısından değişken önem çok yararlıdır.

Bir sigorta şirketinin, müşterilerinin riskini ölçen bir anketteki soru sayısını azaltmak istediği bir örneğe bakalım. Anket ne kadar karmaşık olursa, müşterilerin ürünlerini satın alma olasılığı o kadar düşüktür. Bu nedenle, risk ölçümü seviyesini korurken daha az yararlı olan soruları azaltmak istiyorlar. Çözüm genellikle, hangi soruların anketten silineceğini belirlemek için değişken önemi kullanmak (ve potansiyel müşterinin risk profili hakkında "az ya da çok" aynı tahminde bulunma).

— Metariat
kaynak

Değişken sıralamasının birçok iş durumunda işe yararlığına tamamen katılıyorum. Fakat burada “farklı algoritmalar farklı sıralamaları verir” endişesi henüz açık değildir. Bu konuyla ilgili herhangi bir öneriniz var mı? Ayrıca burada benim soruma bakınız. İstatistik.stackexchange.com/q/251248/71287

— Aliweb,

@ aliweb: Bence Matthew zaten sorunuza mükemmel bir cevap verdi.

— Metariat