Değişken seçimi için Kement kullandıktan sonra çıkarım


17

Göreceli olarak düşük boyutlu bir ortamda (n >> p) özellik seçimi için Kement kullanıyorum. Bir Kement modelini taktıktan sonra, sıfır olmayan katsayıları olan değişkenleri, cezasız bir modele uyacak şekilde kullanmak istiyorum. Bunu yapıyorum çünkü Lasso'nun bana veremeyeceği tarafsız tahminler istiyorum. Ayrıca tarafsız tahmin için p-değerleri ve güven aralıkları istiyorum.

Bu konuda literatür bulmakta güçlük çekiyorum. Bulduğum literatürün çoğu, düzeltilmiş bir model değil, Kement tahminlerine güven aralıkları koymakla ilgilidir.

Okuduğum kadarıyla, sadece tüm veri kümesini kullanarak bir modeli yeniden takmak gerçekçi olmayan küçük p değerleri / std hatalarına yol açar. Şu anda, örnek bölme (Wasserman ve Roeder (2014) veya Meinshausen ve diğerleri (2009) tarzında) iyi bir eylem gibi görünüyor, ancak daha fazla öneri arıyorum.

Bu sorunla karşılaşan var mı? Öyleyse, lütfen bazı önerilerde bulunabilir misiniz?


Güven aralıklarının (en azından asimptotik olarak) doğru kapsama alanına sahip olduğu sürece, kement tahmin edicisinin önyargılı olup olmasının neden önemli olması gerektiğini anlamıyorum. Kement tarafından kurtarılan desteğe OLS tahminlerini sığdırmak istemenizin tek nedeni bu mu?
user795305

Belki okuduğumu yanlış anladım, ama asemptotik olarak doğru kapsam gerçek seyrek ama tarafsız bir tahminde değil, önyargılı tahminde değil mi?
EliK

1
"Gerçek seyrek ama tarafsız" tahminden kastettiğinizden emin değilim, ancak kement tahminlerinin asimptotik olarak doğru kapsama alanı ile güven aralıklarına sahip olduğunu biliyorsanız, daha fazla şey yapmamalısınız. Greenparker (+1) tarafından yeni bağlanan makale gerçekten ilginçtir (ve bu konuda bildiğim en son makale), kement üzerinde asimptotik olarak doğru güven aralıklarını nasıl geliştirebileceğinizi ve kısmen katsayıları tartışır. Tarafsızlık katsayıları elde etmek için OLS'ye uymanız gerekmediğini belirtmeye çalışıyorum, tarafsızlık önemli değil.
user795305

Sanırım yanlış anladım. Belirttiğiniz asimptotik olarak doğru kapsam gerçek parametreye göredir. Öyleyse Lasso önyargılı katsayılar verse de, gerçek parametre için doğru kapsama alanına sahip güven aralıkları oluşturabilir miyiz?
EliK

2
Bir model seçtikten sonra, Kement olmadan tahmin ederseniz temelsiz tahminleriniz olmaz. OLS ile select-variable-then-fit-yoluyla-OLS sonrasında modeldeki terimlerin katsayıları aslında 0'dan uzaklaşacaktır (diğer değişken seçim formlarında olduğu gibi). Az miktarda büzülme aslında sapmayı azaltabilir.
Glen_b-Monica

Yanıtlar:


12

Önceki yanıtlara eklemek için. Tibshirani ve meslektaşlarının son çalışmalarına kesinlikle göz atmalısınız. Kement tipi yöntemler için seçim düzeltmeli p değerlerini ve güven aralıklarını çıkarmak için titiz bir çerçeve geliştirdiler ve ayrıca bir R paketi de sağladılar.

Görmek:

Lee, Jason D., vd. "Kement uygulama ile kesin seçim sonrası çıkarım." Yıllık İstatistikler 44.3 (2016): 907-927. ( https://projecteuclid.org/euclid.aos/1460381681 )

Taylor, Jonathan ve Robert J. Tibshirani. "İstatistiksel öğrenme ve seçici çıkarım." Ulusal Bilimler Akademisi Bildirileri 112.25 (2015): 7629-7634.

R-paket:

https://cran.r-project.org/web/packages/selectiveInference/index.html


17

Genel olarak, daha önce verilere baktığınız ve sonuçta elde edilen p-değerleri ve güven aralıkları olağan anlamda geçerli olmadığından Kement yoluyla değişken seçim yaptıktan sonra ceza kullanmadan yeniden takma "hile" olarak kabul edilir.

p

Kement tarafından seçilen değişkenler kümesi deterministiktir ve yüksek olasılıkla verilere bağlı değildir.

Bu nedenle, verilere iki kez bakmak sorun değildir. Sorununuz için kağıt tutmada belirtilen koşulların olup olmadığını görmeniz gerekecektir.

(Makalede de birçok yararlı referans var)


Referans:

Zhao, S., Shojaie, A. ve Witten, D. (2017). Savunamaz olanı savunmak için: Yüksek boyutlu çıkarımlara çok naif bir yaklaşım. Erişim tarihi: https://arxiv.org/pdf/1705.05543.pdf


9
1 Bu değer yazarlar açıkça anlamına Ancak belirterek olduğu değil "Biz ... yaklaşım en pratik veri analizi ayarlarında yukarıda açıklanan uygulayarak savunan yok: biz eminiz "çok büyük veri ayarlarında" haricinde yaklaşımlarını tavsiye pratikte ... bu yaklaşım örneklem büyüklüğü küçük veya orta olduğunda ve / veya varsayımlar karşılanmadığında kötü performans gösterecektir "(s. 27). Kayıt için, bu makale Zhao, Shojaie ve Witten, Dayanılmaz Savunmada: Yüksek Boyutlu Çıkarım için Çok Saf Bir Yaklaşım (16 Mayıs 2017).
whuber

@whuber Ayrıca bu makalenin arxiv.org'da olduğunu da unutmayın - yazarın metodolojisi ile ilgili başka sorunlar olabileceğinden, hakem değerlendirildiğinden emin değilim.
RobertF

0

Uygulamalı Ekonometri literatüründe popüler hale gelen dik / çift makine öğrenimi literatüründen bazı makaleler eklemek istedim.

  • Belloni, Alexandre, Victor Chernozhukov ve Christian Hansen. "Yüksek boyutlu kontroller arasında seçim sonrası tedavi etkileri çıkarsama." İktisadi Araştırmalar Dergisi 81.2 (2014): 608-650.

    Bu makale, LASSO kullanarak "diğer" kontrolleri seçtikten sonra bir değişkenin etkisine ilişkin OLS tahmininin teorik özelliklerini ele almaktadır.

  • Victor Chernozhukov, Denis Chetverikov, Mert Demirer, Esther Duflo, Christian Hansen, Whitney Newey, James Robins, Tedavi ve yapısal parametreler için çift / densız makine öğrenimi, The Econometrics Dergisi, Cilt 21, Sayı 1, 1 Şubat 2018, Sayfalar C1 – C68 , https://doi.org/10.1111/ectj.12097

    Bu, yüksek boyutlu bir rahatsızlık parametresi (çelişkiler) için doğrusal olmayan bir şekilde kontrol etmek ve daha sonra belirli bir değişkenin sonuç üzerindeki etkisini incelemek için bir dizi parametrik olmayan yöntem (ML algoritması) kullanmak için kapsamlı teori geliştirir. Kısmen doğrusal çerçeveler ve tamamen parametrik çerçevelerle ilgilenirler. Ayrıca, ilgi değişkeninin karıştırıldığı durumları da dikkate alırlar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.