Değişken seçimi neden gerekli?


31

Ortak veri tabanlı değişken seçim prosedürleri (örneğin, ileri, geri, kademeli, tüm alt kümeler) aşağıdakiler dahil olmak üzere istenmeyen özelliklere sahip modeller sağlama eğilimindedir:

  1. Katsayılar sıfırdan uzağa eğilimlidir.
  2. Çok küçük olan standart hatalar ve çok dar olan güven aralıkları.
  3. Reklamı yapılan anlamı olmayan test istatistikleri ve p değerleri.
  4. Aşırı iyimser olan model tahminleri.
  5. Anlamsız olabilen dahil edilen terimler (örneğin, düşük dereceli terimlerin hariç tutulması).

Ancak değişken seçim prosedürleri devam etmektedir. Değişken seçimdeki problemler göz önüne alındığında, bu prosedürler neden gerekli? Kullanımlarını ne motive eder?

Tartışmayı başlatmak için bazı öneriler ...

  • Yorumlanabilir regresyon katsayıları isteği? (Birçok IV'ün bulunduğu bir modelde yanlış yönlendirilmiş mi?)
  • Alakasız değişkenlerin getirdiği varyansı ortadan kaldırmak?
  • Bağımsız değişkenler arasında gereksiz kovaryans / fazlalıkları ortadan kaldırın.
  • Parametre tahmini sayısını azaltın (güç sorunları, örneklem büyüklüğü)

Diğerleri var mı Değişken seçim teknikleri ile ele alınan problemler, değişken seçim prosedürlerinin ortaya koyduğu problemlerden daha az mı yoksa çok mu önemli? Ne zaman kullanılmalılar? Ne zaman kullanılmamalıdır?


Bence bir problemi net bir şekilde tartışmak için önce onu iyi bir şekilde belirtmemiz ve sonra problemin açıkça tartışıldığı bir çerçeveye sahip olabilmemiz için uygun bir matematiksel formda formüle etmemiz gerekir. Değişken seçim problemi için, örneğin doğrusal regresyon modelleri için. Öncelikle bir modeli düzeltmek ve (i) değişken seçiminin avantajlarını / dezavantajlarını (örneğin, tahmin veya tahminde iyileştirme / kötüleşme) araştırmak makul görünüyor mu? (ii) LS seçimine göre değişken seçim prosedürünün avantajları?

Yanıtlar:


17

Değişken seçim (cezalandırma olmadan) sadece işleri daha da kötüleştirir. Değişken seçimin neredeyse "doğru" değişkenleri bulma şansı yoktur ve kalan değişkenlerin etkilerinin büyük ölçüde abartılması ve standart hataların büyük ölçüde azalmasıyla sonuçlanır. Her zamanki gibi yapılan değişken seçiminin birinin "büyük p küçük n" problemini çözmesine yardımcı olduğuna inanmak yanlıştır. Sonuç olarak, nihai model her yönden yanıltıcıdır. Bu, bir epidemiyoloji makalesinde okuduğum şaşırtıcı bir ifade ile ilgilidir: "Çok değişkenli bir model geliştirmek için yeterli bir örneklem boyutuna sahip değildik, bunun yerine 2x2 tablolar için tüm olası testleri yaptık."

Eldeki veri kümesi, değişkenleri ortadan kaldırmak için kullanıldığında, karar vermek için Y'yi kullanırken tüm istatistiksel nicelikler çarpıtılacaktır. Tipik değişken seçimi bir serapdir.

Düzenleme : (Alttan yorumları kopyalayarak gizleyin)

Kendi kendine hizmet etmek istemiyorum ama Regresyon Modelleme Stratejileri kitabım bu konuya derinlemesine giriyor. Bildiriler dahil çevrimiçi materyaller web sayfamda bulunabilir . Bazı uygun yöntemler cezalandırma (sırt regresyon), L 1 cezalandırma (kement) ve sözde esnek ağ (kombinasyonu L 1 ve L 2 ). Veya veri azaltma kullanın ( Y cevabına körL2L1L1L2Y regresyon yapmadan önce . Kitabım bu konuda cezalandırmaya göre daha fazla yer harcıyor.


6
Bence bu cevap nasıl ilerleyeceğine dair bazı ipuçları vererek daha da geliştirilecektir. Cevap, iddiaları destekleyecek kaynaklara atıfta bulunmadan (birçoğu genel olarak aynı fikirdeyim) çok geniş ve kesin açıklamalar yapar. Tabii ki cezalandırma da her derde deva değil, ve eğer o yoldan giderse yapılması gereken birçok seçenek var.
kardinal

3
Lütfen daha fazla bilgi verdiğim yere bakınız. Sorunu belirtmenin en kısa yolu, bir değişkenin "seçilmesi" asıl nedeninin etkisinin fazla tahmin edilmesi olmasıdır.
Frank Harrell

2
Evet, ESL gibi, kitabınızın bu konuda iyi bir materyali olduğuna katılıyorum. (Yani orada, söz konusu en azından geriye seçim çeşit de kullanılır ESL örnek bir çift.) Sen söz cezalandırma (sırt regresyon aka), ancak bu genellikle değişken açısından çok uzakta bir almazsa / model seçimi kendi başına. Elastik net bazı Tamam davranışı vardır, ama zihnimde onun dezavantajı hem oysa nasıl baktığına olursa olsun, çok güzel ya da doğal "istatistiksel" yorumunu kabul olmamasıdır L 1 ve L 2 penalizations belli yapmak duyular. L2L1L2
kardinal

2
İyi puan ben düşünüyorum rağmen aynı modelin katsayılarını tahmin başka bir yolu olduğu için doğal bir yorumunu veriyor. Haklısın o L 2 olmadan L 1 herhangi bir değişken kaldırmaz. Biz üstün öngörü performansı için bunu yapmak ve büyük işlemek için p küçük n durumda. L2L2L1pn
Frank Harrell

2
Belki de yorumum istediğim kadar net değildi. Evet, katılıyorum herhangi değişken seçiminde yol açmaz bile, tek başına cezalandırma birden güzel yoruma sahiptir. Bazı durumlarda daha iyi tahmine dayalı performans elde edilmesinin ötesinde, istatistiksel açıdan bakıldığında özellikle iyi motive olmuş veya doğal bulmuyorum elastik ağ. L2
kardinal

14

Her şeyden önce, bahsettiğiniz dezavantajlar, özellik seçiminin yanlış yapılan , yani fazladan takılan, tamamlanmamış veya aşan etkilerin etkileridir .

eYYYeY

Bütün ilgili seviye, verilen süreci gerçekten neyin yönlendirdiğine dair bir fikir verir, bu yüzden açıklayıcı bir değere sahiptir. Minimal optimal seviye (tasarım gereği) mümkün olduğunca derli toplu veriler üzerinde çalışan, fazladan takılmayan bir model olarak verir.

Gerçek dünya FS sadece bu hedeflerden birine ulaşmak ister (genellikle ikincisi).


4
Eldeki verileri kullanmadan değişkenleri kaldırmayı kastettiğinizi varsayıyorum. Bunu yapmak için eldeki veri setini kullanamazsınız. Bu güvenilmez olur ve istatistiksel çıkarımı bozar.
Frank Harrell

Yazdığım gibi, bu problemin sadece teorik bir temelidir (Bayes ağlarından geliyor). Bunu gerçekleştirmenin kesin yolu açıkça imkansızdır ve istatistiksel modellemenin RFE ve benzeri şeylerin akılsız kullanımından çok acı çektiğini kesinlikle kabul ediyorum - buna rağmen, makine öğrenmenin kesinlikle umutsuz olmayan bazı sezgisel algoritmalar vardır (yani kararlı seçimler ve modeller yapın) Bu, adil testlerde fazladan olmadığını kanıtladı.

RFE nedir ???????
kjetil b halvorsen

@kjetilbhalvorsen Recursive Feature

ilginç cevabınız için @ mbq Thx! Herhangi bir referans verebilir misiniz (kitap, makale vb.)? Cevabınızı takdir!
Kare

10

Değişken seçimi zorunludur, çünkü çoğu model çok sayıda alakasız değişkenle iyi ilgilenmez. Bu değişkenler yalnızca modelinize gürültü ya da daha da kötüsü aşırı uydurmanıza neden olacaktır. Bu değişkenleri analizden çıkarmak iyi bir fikirdir.

Ayrıca, her analizde var olan tüm değişkenleri dahil edemezsiniz çünkü orada sonsuz sayıda bulunur. Bir noktada çizgiyi çizmeniz gerekir ve bunu titizlikle yapmanız iyidir. Dolayısıyla değişken seçimi ile ilgili tüm tartışmalar.

Değişken seçimi ile ilgili sorunların çoğu, çapraz onaylama veya yerleşik ceza ve özellik seçimi (doğrusal modeller için elastik ağ gibi) içeren bir model kullanılarak ele alınabilir.

Aşırı uyuma neden olan birden fazla değişkenle ilgili bazı ampirik sonuçlarla ilgileniyorsanız, Kaggle'daki Over Overfit yarışmasının sonuçlarını inceleyin.


1
Bence birinci paragraf problemin yanlış anlaşıldığını içeriyor. Değişken seçim bu sorunlara hiçbir şekilde yardımcı olmaz, sadece gizler. Değişken seçim muazzam fazla uyumluluk sorunlarına yol açar, ancak daha sonra bahsettiğiniz gibi değişken seçiminin yol açtığı hasar için kendimizi dürüstçe cezalandırmanın bazı yolları vardır.
Frank Harrell

3
@Frank Harrell: Bir modelden hangi değişkenleri hariç tutacağınıza nasıl karar veriyorsunuz?
Zach

11
(1) Veri setine bakmadan önce konu bilgisini kullanın; (2) Y'ye karşı körleştirilmiş artıklık analizi / veri azaltma kullanın; (3) Özellik seçimi nedeniyle ortaya çıkan devasa çoklu karşılaştırma problemi için yeterince ceza kesen bir yöntem kullanın (bu sayfada başka bir yere bakın).
Frank Harrell
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.