Tahmini modelleme için değişken seçimi 2016'da gerçekten gerekli mi?

67

Bu soru, birkaç yıl önce CV'de sorulmuştu, 1) büyüklük sırasına göre daha iyi hesaplama teknolojisi (örneğin paralel hesaplama, HPC vb.) Ve 2) daha yeni teknikler, örneğin [3] ışığında bir röportaja benziyor.

İlk olarak, bazı bağlamlar. Amacın hipotez testi değil, tahmini etkileme değil, görünmeyen test setindeki tahmin olduğunu varsayalım. Bu nedenle, yorumlanabilir hiçbir faydaya ağırlık verilmemektedir. İkincisi, diyelim ki, konuyla ilgili herhangi bir öngörücünün konuyla ilgili önemini göz ardı edemezsiniz. hepsi ayrı ayrı veya diğer prediktörlerle kombinasyon halinde makul görünüyorlar. Üçüncüsü, (yüzlerce) milyonlarca tahminciyle yüzleşiyorsunuz. Dördüncüsü, diyelim ki AWS’ye sınırsız bir bütçeyle erişiminiz var, bu nedenle bilgi işlem gücü bir kısıtlama değil.

Değişken seçim için genel sebepler 1) verimlilik; daha küçük bir modele sığdırmak için daha hızlı ve daha az tahminde bulunmak için daha ucuz, 2) yorumlama; “önemli” değişkenlerin bilinmesi altta yatan sürece ilişkin fikir verir [1].

Artık birçok değişken seçim yönteminin etkisiz olduğu ve genellikle düpedüz tehlikeli olduğu bilinmektedir (örn. İleriye doğru kademeli regresyon) [2].

İkincisi, eğer seçilen model herhangi bir iyiyse, yordayıcılar listesinin kısaltılması gerekmez. Model sizin için yapmalı. İyi bir örnek, tüm alakasız değişkenlere sıfır katsayısı atanan kementdir.

Bazı insanların bir "fil" modelini kullanmayı savunduğunu biliyorum. akla gelebilecek her tahminciyi zihnine atmak ve onunla koşmak [2].

Amaç öngörüsel doğruluk ise değişken seçimi yapmak için herhangi bir temel sebep var mı?

[1] Reunanen, J. (2003). Değişken seçim yöntemleri arasında karşılaştırma yaparken fazlalık. Makine Öğrenimi Araştırmaları Dergisi, 3, 1371-1382.

[2] Harrell, F. (2015). Regresyon modelleme stratejileri: doğrusal modellere uygulamalar, lojistik ve ordinal regresyon ve sağkalım analizi. Springer.

[3] Taylor, J. ve Tibshirani, RJ (2015). İstatistiksel öğrenme ve seçici çıkarım. Ulusal Bilimler Akademisi'nin Bildirileri, 112 (25), 7629-7634.

[4] Zhou, J., Foster, D., Stine, R., ve Ungar, L. (2005, Ağustos). Alfa yatırım kullanarak Akış özelliği seçimi. On birinci ACM SIGKDD Bildirilerinde veri madenciliğinde Bilgi keşfi konulu uluslararası konferans (s. 384-393). ACM.

— horaceT
kaynak

6

Güzel ilk soru - muhtemelen bir kopya olarak kapatılmış olabilir, ancak onu ayırt ettiğini hissetmek için çaba harcadığınızı takdir ediyorum. Başlığı düzenlemeyi öneririm, bu nedenle odaklanmanızın yalnızca öngörmeye yönelik olduğu daha açık.

— Silverfish

5

Bu soru daha önce sorulmuşsa, ancak bir süre sonra tekrar göndermeyi daha önemli buluyorsanız, belki de bir önceki soruya bir bağlantı sağlayabilirsiniz. Önceki cevapları karşılaştırabilmek ilginç olabilir.

— Tim

1

@ qbert65536 Bir görünüm sen değilsin. Özellik seçimi doğası gereği güvenilmezdir.

— horaceT

8

Seyrek bir özellik alt kümesini otomatik olarak seçen yöntemler (örneğin, ceza uygulanan modeller gibi) da özellik seçimi yapar. Bu yüzden kritik soru "özellik seçimi iyi / kötü" değil, "iyi özellik seçim yöntemlerini kötü olanlardan ayıran özellikler nelerdir?" Parametre kestirimi ile birlikte (kementte olduğu gibi) birlikte yapılması bir özelliktir ve bunun önemli olup olmadığını (diğer birçok özellik ile birlikte) sorabiliriz.

— user20160

2

@ToussaintLouverture Bir yıl önce bu soruyu yayınladığımdan beri, ikinci (ve üçüncü) düşünceyi düşündüm. Şimdi uygun sorunun, bir deneyin tüm özelliklerinden genelleştirilen daha yetenekli bir model seçmek için model seçiminden ziyade değişken seçime yönelik çabayı yönlendirmenin ne kadar önemli olduğuna inanıyorum.

— horaceT

37

Google’ın, öngörülü algoritmalarını oluşturmak için mevcut tüm özellikleri kullandığı yıllardır söylentiler olmuştur. Ancak, bugüne kadar, bu söylentiyi netleştiren ve / veya itiraz eden hiçbir feragatname, açıklama veya beyaz yazı bulunmamıştır. Yayınlanan patentleri bile anlamada yardımcı olmaz. Sonuç olarak, Google’ın dışından hiç kimse ne yaptığımı bilmiyor, bildiğim kadarıyla.

/ * Eylül 2019’daki güncelleme, bir Google Tensorflow habercisi Google mühendislerinin PageRank’ın şu anki sürümü için 5 milyardan fazla parametreyi düzenli olarak değerlendirdiğini belirtti . * /

OP'nin belirttiği gibi, prediktif modellemede en büyük sorunlardan biri, klasik hipotez testi ile saf veri madenciliği ile dikkatli model spesifikasyonu arasındaki ilişkidir. Klasik olarak eğitilmiş, model tasarımında ve geliştirilmesinde "titizlik" gereksinimi konusunda oldukça dogmatik olabilir. Gerçek şu ki, çok sayıda aday belirleyicisi ve çoklu olası hedefler veya bağımlı değişkenlerle karşı karşıya kaldıklarında, klasik çerçevenin ne işe yaradığı, ne işe yaradığı, ne de faydalı rehberlik sağladığıdır. Son zamanlarda sayısız bildiri, bu ikilemi Chattopadhyay ve Lipson'un mükemmel makalesinden ayırıyor Veriler Smashing: Verilerde Gizlenen Siparişi Bulma http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf

Kilit darboğaz, günümüzde çoğu veri karşılaştırma algoritmasının, verilerin 'özelliklerinin' karşılaştırmayla alakalı olduğunu belirtmek için bir insan uzmanına dayanmasıdır. Burada, ne alan bilgisi ne de öğrenme kullanarak, rastgele veri akışlarının kaynakları arasındaki benzerliği tahmin etmek için yeni bir ilke öneriyoruz.

Geçtiğimiz yıl AER kağıda Tahmin Politikası Sorunları ve arkadaşları Kleinberg tarafından. Nedensel çıkarımın merkezi olmadığı ya da gerekli olmadığı durumlarda gerekçesiyle veri madenciliği ve tahminin ekonomik politika yapımında yararlı araçlar olarak kullanılması durumunda yapılan https://www.aeaweb.org/articles?id=10.1257/aer.p20151023 . "

Gerçek şu ki, daha büyük, 64.000 $ 'lık soru, düşünmedeki geniş bir değişim ve klasik hipotez testi çerçevesine meydan okuyor, örneğin, "eskimiş" bilimsel düşünceye ilişkin bu Edge.org sempozyumu https://www.edge.org/ Davranışsal ekonomi, karmaşıklık teorisi, öngörücü model gibi geniş çapta farklı disiplinleri birleştirmek için bazı radikal önerileri sunan “yeni ekonomi” üzerine Eric Beinhocker'ın bu yeni makalesinin yanı sıra emeklilik için hazır olan yanıtlar / ne-bilimsel-fikir-hazırdır politika uygulama ve benimseme için bir platform olarak kalkınma, ağ ve portföy teorisi https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Söylemeye gerek yok, bu konular sadece ekonomik kaygıların çok ötesine geçiyor ve bilimsel paradigmalarda köklü bir değişim geçirdiğimizi gösteriyor. Değişen görüşler, indirgenci, Occam'ın Razor gibi model oluşturma gibi Epicurus'un geniş Prensitude Prensipleri gibi geniş çaplı bir açıklama ya da kabaca bir şeyler açıklarsa hepsini koruduğunu söyleyen çoklu açıklamalar arasındaki farklar kadar temeldir. Https: // tr. wikipedia.org/wiki/Principle_of_plenitude

Tabii ki, Beinhocker gibi adamlar, bu gelişen paradigmaya uygulanan uygulamalı istatistiksel çözümlerle ilgili endişelerdeki siperlerdeki pratikten tamamen korunmazlar. Ultra yüksek boyutlu değişken seçiminin nitritli soruları ile OP, model oluşturma konusundaki uygulanabilir yaklaşımlar, örneğin, Lasso, LAR, kademeli algoritmalar veya mevcut tüm bilgileri kullanan "fil modelleri" için geçerli olan spesifik değildir. Gerçek şu ki, AWS veya bir süper bilgisayarla bile, mevcut bilgilerin tümünü aynı anda kullanamazsınız - hepsini yüklemek için yeterli RAM yok. Bu ne anlama geliyor? örneğin, NSF'nin Karmaşık veya Çok Büyük Veri Kümelerinde Keşfi: Ortak İstatistiksel Temalarbüyük veri madenciliği için algoritmaları "bölmek ve ele geçirmek", örneğin Wang, vd., Büyük Veri için İstatistiksel Yöntemler ve Hesaplama Araştırması http://arxiv.org/pdf/1502.07989.pdf ve Leskovec, vd. kitap Masif Veri kümeleri Maden http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets

Şu anda kelimenin tam anlamıyla yüzlerce, bu zorlukların çeşitli yönleriyle ilgilenen binlerce makale olmasa da, tümü “böl ve ele geçir” algoritmalarından özü olarak geniş ölçüde farklı analitik motorlar önermiştir; denetimsiz, “derin öğrenme” modelleri; masif kovaryans yapısına uygulanan rasgele matris teorisi; Bayesian tensör modelleri klasik, denetimli lojistik regresyon ve daha fazlası. On beş yıl kadar önce, tartışma, büyük ölçüde, sıkça sınırlı sonlu karışım modellerine karşı hiyerarşik Bayesian çözümlerinin göreceli yararları ile ilgili sorulara odaklandı. Bu sorunları ele alan bir makalede, Ainslie ve ark. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfUygulamada farklı teorik yaklaşımların, HB modellerinin avantajlı olduğu seyrek ve / veya yüksek boyutlu verileri içeren problemler haricinde, büyük ölçüde eşdeğer sonuçlar ürettiği sonucuna varıldı. Bugün D&C geçici çözümlerinin ortaya çıkmasıyla birlikte, tarihsel olarak yararlanabilecek herhangi bir arbitraj HB modeli ortadan kaldırılmaktadır.

Bu D & C geçici çözümlerinin temel mantığı Breiman'ın ünlü rastgele orman tekniğinin, gözlemlerin ve özelliklerin yeniden çizilmesinin yeniden örneklendirilmesine dayanan uzantılarıdır. Breiman, çalışmalarını 90'lı yılların sonlarında tek bir CPU üzerinde yaptı; bu devasa veriler birkaç düzine konser ve birkaç bin özellik anlamına geliyordu. Günümüzün devasa paralel, çok çekirdekli platformlarında, birkaç saat içinde milyonlarca "RF" mini modelini oluşturan on milyonlarca özellik içeren verilerin terabaytını analiz eden algoritmalar çalıştırmak mümkündür.

Tüm bunlardan çıkan çok sayıda önemli soru var. Kişi, bu geçici çözümlerin yaklaşan doğası nedeniyle, hassasiyet kaybıyla ilgili bir endişe ile ilgili. Bu sorun kendi kağıt, içinde Chen ve Xie tarafından ele alınmıştır Olağanüstü Büyük Veri Analizi İçin Bölünmüş-Çöz Yaklaşımı http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf onlar sonuçlandırmak Bu yaklaşımların "tam bilgi" modellerinden ayırt edilemez bir şekilde farklı olduğu.

Bildiğim kadarıyla, literatür tarafından yeterince ele alınmamış olan ikinci bir endişe, geçici çözümlerden sonra potansiyel olarak milyonlarca kestirici mini modelden elde edilen sonuçlarla (yani, "parametreler") yapılması gerektiğidir. toplanmış ve özetlenmiştir. Başka bir deyişle, bu sonuçlarla yeni verileri "puanlamak" kadar basit bir şey nasıl yürütülür? Mini model katsayıları kaydedilip depolanacak mı, yoksa basit bir şekilde d & c algoritmasını yeni verilerde tekrar çalıştırıyor musunuz?

Kaiser Fung , Sayılarınızı Dünyanız adlı kitabında, Netflix'in karşılaştığı ikilemi, yarışmasının kazananları tarafından verilen 104 modelden oluşan bir grupla anlatıyor. Kazananlar, aslında, diğer tüm rakiplere kıyasla, MSE'yi en aza indirdi, ancak bu, film danışmanları sistemi tarafından kullanılan 5 puanlık Likert tipi derecelendirme ölçeğinde doğrulukta yalnızca birkaç ondalık basamak iyileştirmesine çevrildi. Ek olarak, bu modeller topluluğu için gereken BT bakımı, model doğruluğundaki "iyileştirme" den görülen tasarruflardan çok daha pahalı.

O zaman "optimizasyon" un bu büyüklükteki bilgilerle bile mümkün olup olmadığı sorusu var. Örneğin, fizikçi ve finans mühendisi Emmanuel Derman, Bir Kuantık Olarak Hayatım kitabında , optimizasyonun en azından finans mühendisliğinde sürdürülemez bir efsane olduğunu öne sürüyor.

Son olarak, göreceli özellik önemine ilişkin çok sayıda özelliğe sahip önemli sorular henüz ele alınmamıştır.

Değişken seçim ihtiyacına ilişkin sorularla ilgili kolay cevaplar yoktur ve şu an ortaya çıkan yeni zorluklar, Epicurean geçici çözümlerinin çözülmeyi sürdürdüğü görülmektedir. Sonuç olarak, şu anda hepimizin veri bilimcisi olduğumuz.

**** EDIT *** Referanslar

Chattopadhyay I, Lipson H. 2014 Verileri çökertme: verilerde gizlenme düzenini açığa çıkarma. JR Soc. Arabirim 11: 20140826. http://dx.doi.org/10.1098/rsif.2014.0826
Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan ve Ziad Obermeyer. 2015. "Tahmin Politikası Sorunları." Amerikan Ekonomik İnceleme, 105 (5): 491-95. DOI: 10.1257 / aer.p20151023
Edge.org, 2014 Yıllık Soru: NE BİLİMSEL FİKİR RETIREMENT İÇİN HAZIR? https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement
Eric Beinhocker, Ekonomideki Büyük Değişiklikler Nasıl Sağa ve Solak Tartışmalar Yapar, 2016, Evonomics.org. https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/
Epicurus çoklu açıklama prensibi: tüm modelleri sakla. Wikipedia https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle- of- Multiple- Explanations- Keep- all- models- that- are- consistent/
NSF, Karmaşık veya Büyük Veri Kümelerinde Keşif: Ortak İstatistik Temaları, Ulusal Bilim Vakfı tarafından finanse edilen bir çalıştay, 16-17 Ekim 2007, https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf
Büyük Veri için İstatistiksel Yöntemler ve Hesaplama, Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu ve Jun Yan tarafından Çalışma Raporu, 29 Ekim 2015 http://arxiv.org/pdf/1502.07989.pdf
Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Büyük Veri Kümeleri Madenciliği, Cambridge University Press; 2 baskı (29 Aralık 2014) ISBN: 978-1107077232
Büyük Örnek Kovaryans Matrisleri ve Yüksek Boyutlu Veri Analizi (İstatistiksel ve Olasılıklı Matematikte Cambridge Serisi), Jianfeng Yao, Shurong Zheng, Zhidong Bai, Cambridge University Press; 1 baskı (30 Mart 2015) ISBN: 978-1107065178
RICK L. ANDREWS, ANDREW AINSLIE ve IMRAN S. CURRIM, Logit Choice Modellerinin Heterojenitenin Kesikli ve Sürekli Temsili Temsili ile Ampirik Bir Karşılaştırması, Pazarlama Araştırması Dergisi, 479 Cilt. XXXIX (Kasım 2002), 479–487 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf
Olağanüstü Büyük Verilerin Analizi için Ayrık ve Fetih Yaklaşımı, Xueying Chen ve Minge Xie, DIMACS Teknik Raporu 2012-01, Ocak 2012 http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf
Kaiser Fung, Sayılar Dünyanızı Yönetiyor: Yaptığınız Her Şeyde Olasılıkların ve İstatistiklerin Gizli Etkisi, McGraw-Hill Education; 1 baskı (15 Şubat 2010) ISBN: 978-0071626538
Emmanuel Derman, Bir Kuantum Olarak Hayatım: Fizik ve Finans Üzerine Düşünceler, Wiley; 1 baskı (11 Ocak 2016) ISBN: 978-0470192733

* Kasım 2017’deki güncelleme *

Nathan Kutz '2013 Kitabı, Veri Odaklı Modelleme ve Bilimsel Hesaplama: Karmaşık Sistemler ve Büyük Veri Metodları , boyut azaltma yöntemleri ve araçlarının yanı sıra değişken seçimine matematiksel ve PDE odaklı bir gezidir. Onun düşünce için mükemmel, 1 saatlik bir giriş bu Haziran 2017'de bulabilirsiniz Youtube video Dinamik Sistemler ve PDE'lerin Veri Driven Keşfi . İçinde, bu alandaki son gelişmelere atıfta bulunuyor. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop

— Mike Hunter
kaynak

1

Birkaç yıl önce Makine Öğrenimi Yaz Okulu'nda, Google'dan bir adam bir konuşma yaptı (adı unuttu). Üretimdeki bir çift (ikili sınıflandırma) modelinden, ~ 30 milyon Tb veri kümesi üzerinde toplu olarak eğitilmiş ~ 200 milyon özellik; çoğu muhtemelen ikili özelliklerdir. Değişken seçimden bahsettiğini hatırlamıyorum.

— horaceT

1

Müthiş yorumlar (bunun bir kısmı teğet patladı). Özellikle birçok eski moda fikrin Büyük Veri çağında yeniden incelenmesi gerektiği gibi bakış açısını seviyorum.

— horaceT

1

@horaceT Çok ilginç. En azından bu söylentiyi onaylar. Teşekkürler. Hangi ML programı bu?

— Mike Hunter

1

MLSS 2012, UC Santa Cruz'da. Konuşmacı Tushar Chandra idi, slaytlar burada, users.soe.ucsc.edu/~niejiazhong/slides/chandra.pdf

— horaceT

2

@Glen_b Yorumlarınız için teşekkür ederiz. Kesin bağlantı sorunu nedeniyle referanslara tam olarak isimler ve adlar verdiğimi sanıyordum. Ne olursa olsun, sonunda bir referans bölümü ekleyeceğim. Bir şey eksikse bana bildirin.

— Mike Hunter

14

Tahmin açısından, muhtemelen modelin önemli özellikleri ne kadar çabuk öğrendiği sorusunu düşünmeniz gerekir . OLS düşünülse bile, bu size yeterli veri verilen model seçimi gibi bir şey verecektir. Ancak, bu çözüme yeterince hızlı bir şekilde yaklaşamadığını biliyoruz - bu yüzden daha iyi bir şey ararız.

Çoğu yöntem, karşılaşılacak olan beta / katsayı türleri hakkında bir varsayımda bulunmaktadır (bir bayesyen modelde önceki bir dağıtım gibi). Bu varsayımlar geçerli olduğunda en iyi şekilde çalışırlar. Örneğin, sırt / kement regresyonu, betaların çoğunun sıfıra yakın olanlarla aynı ölçekte olduğunu varsayar. Çoğu betaın sıfır olduğu ve bazı betaların çok büyük olduğu (yani ölçeklerin çok farklı olduğu) "samanlıktaki iğneler" regresyonlarında da çalışmayacaklar. Özellik seçimi burada daha iyi çalışabilir - Kement, daralma gürültüsü ile sinyal dokunmadan bırakma arasında sıkışıp kalabilir. Özellik seçimi daha kararsız - bir etki "sinyal" veya "gürültü".

Karar verme açısından - ne tür bir tahmin değişkenine sahip olduğunuz hakkında biraz fikriniz olması gerekir. Gerçekten iyi olanların var mı? Veya tüm değişkenler zayıf mı? Bu, sahip olacağınız betaların profilini yönlendirecektir. Ve hangi ceza / seçim yöntemlerini kullanıyorsunuz (kurslar ve her şey için atlar).

Özellik seçimi de fena değil ancak hesaplama kısıtlamaları nedeniyle bazı eski yaklaşımlar artık iyi değil (adım adım ileri). Özellik seçimini kullanarak model ortalamaları (tüm 1 var model, 2 var model vb. Performanslarına göre ağırlıklandırılmış) öngörülerde oldukça iyi bir iş çıkartacaktır. Fakat bunlar esas olarak, betaları dışlanan değişkene (sadece doğrudan değil) ve dışbükey bir optimizasyon probleminde olmayan modellere verilen ağırlık üzerinden cezalandırıyorlar.

— probabilityislogic
kaynak

12

Size endüstri perspektifini veriyorum.

Endüstriler sensörlerden ve izleme sistemlerinden ne kadar fayda sağlayacaklarını bilmedikleri para harcamaktan hoşlanmıyorlar.

Örneğin, isim vermek istemiyorum, bu yüzden her dakika veri toplayan 10 sensörlü bir bileşen hayal edin. Varlık sahibi bana dönüyor ve bileşenimin bu verilerle davranışını 10 sensörden ne kadar iyi tahmin edebileceğinizi soruyor? Sonra bir maliyet-fayda analizi yaparlar.

Daha sonra, 20 sensörle aynı bileşene sahipler, tekrar sordular, tekrar, bileşenimin bu verilerle davranışını 20 sensörden ne kadar iyi tahmin edebiliyorsunuz? Başka bir maliyet-fayda analizi yapıyorlar.

Bu davaların her birinde, sensör kurulumlarından dolayı faydayı yatırım maliyeti ile karşılaştırırlar. (Bu sadece bir bileşene 10 dolarlık bir sensör eklemek değildir. Birçok faktör rol oynar). Değişken seçim analizinin yararlı olacağı yer burasıdır.

— PeyM87
kaynak

1

İyi bir nokta. Ama yeterince 10 sensörleri iyi biliyor ya da 20 gelen bazı veriler elde edene kadar bir 10 ihtiyacımız olmaz

— horaceT

Doğru ve bazı çalışmalara dayanarak her zaman spekülasyon yapabilirsiniz. Arızaları önlemek için her bir sensörü bir amaç ile monte edersiniz. Arıza oranları düşükse veya bir bileşenin önemli kısımlarını zaten kapladıysanız, 1 sensör eklenmesinin büyük bir geri dönüş getirmeyeceğini biliyorsunuzdur. Bu yüzden, bu sensörleri kurmanıza, veri toplamanıza ve bu ek sensörlerin gerçekten yeterince iyi olup olmadığını öğrenmek için bir çalışma yapmanıza gerek yoktur.

— PeyM87

'Sensörler' sensörler anlamına gelmeyebilir - benim şirketimde tüm verilerimize abone oluruz, bu yüzden aslında hiçbir şeye katkıda bulunmayan özellikleri keşfetme ve bunları abonelik hizmetinden kaldırarak maliyetleri düşürme fırsatı vardır (açık olması, abonelik oranları, tek tek sütunlardan daha yüksek bir düzeyde işlenmiştir, ancak aboneliğin bir unsurun son bir modele katkıda bulunmasının ve performansın artmaması durumunda devam etmemesinin kesin olması düşünülebilir.)

— Robert de Graaf

9

Tamamen öngörücü bir modeli öğrenme algoritmasının bir parçası olarak, değişken seçimi mutlaka bir performans açısından kötü değildir ve otomatik olarak tehlikeli değildir. Ancak, kişinin dikkat etmesi gereken bazı konular var.

Soru biraz daha somut hale getirmek için, en lineer regresyon problemi ele alalım için ve ve olmak arasında boyutlu vektörler sırasıyla değişkenler ve parametreler. Amaç fonksiyonu çok yakın bir değer bulmak için bir öngörü verilen . Bu tahmin edilerek elde edilebilir

E (Y_{i} ∣ X_{i}) = X_{i}^{T} β

$E(Y_i \mid X_i) = X_i^T \beta$

i = 1, \dots, N

$i = 1, \ldots, N$

X_{i}

$X_i$

β

$\beta$

p

$p$

x \mapsto E (Y ∣ X = x) = X^{T} β,

$x \mapsto E(Y \mid X = x) = X^T \beta,$

Y

$Y$

X = x

$X = x$

β

$\beta$ değişken seçimi ve ceza fonksiyonunun cezalandırılması veya cezalandırılmaması için kombinasyonların kullanılması. Model ortalaması veya Bayesian yöntemleri de kullanılabilir, ancak tek model tahminlerine odaklanalım.

İleri ve geri değişken seçimi gibi kademeli seçim algoritmaları, en iyi alt küme seçim problemini çözmek için yaklaşık girişimler olarak görülebilir, bu da hesaplama açısından zordur (hesaplama gücündeki gelişmeler çok az önemlidir). İlgi, her bir için değişkenli en iyi (veya en azından iyi) bir model bulmaktır . Daha sonra, üzerinden optimizasyon yapabiliriz . $k = 1, \ldots, \min(N, p)$ $k$ $k$

Tehlike böyle bir değişken seçim prosedürü ile birçok standart bölüşüm sonuçları değişken seçime şartlı geçersiz olmasıdır. Bu standart testler ve güven aralıkları için geçerlidir ve Harrell [2] 'in uyardığı sorunlardan biridir. Breiman da örneğin mallows' dayalı model seçimi konusunda uyarıldı içinde ... Küçük Bootstrap . Mallows' bu konuda ya AIC, do not model seçimi için hesap ve bunlar aşırı iyimser tahmin hataları verecektir. $C_p$ $C_p$

Bununla birlikte, kestirim hatasını tahmin etmek ve seçmek için çapraz doğrulama kullanılabilir ve değişken seçimi sapma ve varyans arasında iyi bir denge sağlayabilir. Bu, özellikle @ geri kalanıyla sıfıra yakın birkaç büyük koordinatlara sahipse geçerlidir @ olasılık olabilir. $k$ $\beta$ $-$

Çıkıntı regresyonu ve kement gibi büzülme yöntemleri , açık değişken seçim olmadan sapma ve sapma arasında iyi bir denge sağlar. Bununla birlikte, OP'nin belirttiği gibi, Kement değişken seçimini ima eder. Bu gerçekten bir model değil , değişken seçimi yapan modele uydurma yöntemidir . Bu açıdan, değişken seçimi (örtük veya açık), modelin verilere uydurma yönteminin bir parçasıdır ve böyle düşünülmelidir.

Kement tahmincisinin hesaplanması için algoritmalar değişken seçimden (veya taramadan) faydalanabilir. Gelen İstatistiksel sparsity ile Öğrenme: Lasso ve Genellemelerinin , Bölüm 5.10, bu tarama, uygulanan olarak nasıl tarif glmnetyararlıdır. Kement tahmincisinin büyük ölçüde daha hızlı hesaplanmasına yol açabilir.

Bir kişisel deneyim , değişken seçiminin, seçilen değişkenleri kullanarak daha karmaşık bir modele (genelleştirilmiş bir katkı modeli) uydurmayı mümkün kıldığı bir örnektir. Çapraz doğrulama sonuçları bu model alternatifleri bir dizi daha üstün olduğunu göstermiştir olmasa da rastgele bir ormana. Eğer gamsel etrafında olsaydı genelleştirilmiş katkı modellerini değişken seçim ile birleştirirdi ben de denemeyi düşünebilirdim. $-$ $-$ $-$

Düzenleme: Bu cevabı yazdığımdan , aklımdaki özel başvuru ile ilgili bir makale var . Rapordaki sonuçların çoğaltılması için R-kodu mevcuttur.

Özet olarak , değişken seçimin (bir biçimde veya diğerinde) yanlılık varyansı değişimini kontrol etmenin bir yolu olarak tamamen öngörücü amaçlar için bile faydalı olacağını ve kalacağını söyleyeceğim . Diğer nedenlerden ötürü değilse, o zaman en azından daha karmaşık modeller kullanıma hazır çok sayıda değişkenle başa çıkamayabilir. Ancak, zaman geçtikçe, doğal olarak değişken seçimi tahmin yöntemine entegre eden gamsel gibi gelişmeleri göreceğiz. $-$ $-$

Elbette değişken seçimini tahmin yönteminin bir parçası olarak görmemiz her zaman çok önemlidir. Tehlike, değişken seçiminin bir kehanet gibi yapıldığına ve doğru değişken kümesini tanımladığına inanmaktır. Buna inanır ve verilere göre değişkenler seçilmemiş gibi devam edersek, hata yapma riskimiz vardır.

— NRH
kaynak

1

Değişken seçiminin daha karmaşık bir modele nasıl sığdırılabildiği konusunda net değilim. Değişken seçimi ile hala aynı sayıda parametreyi tahmin ediyorsunuz; sadece bazılarını sıfır olarak tahmin ediyorsun. Değişken seçimden sonra takılan koşullu modelin stabilitesi bir serap olabilir.

— Frank Harrell

1

@Harrell, özel örnekte, değişken seçimi, tüm değişkenlerin doğrusal olarak girdiği modelde stabilite seçimi ile birlikte Kement kullanılarak gerçekleştirildi. Oyun daha sonra seçilen değişkenler kullanılarak yerleştirildi. Değişken seçimin sadece bazı parametreleri sıfıra tahmin ettiğini tamamen kabul ediyorum ve uygulama tam olarak bunu bir gam modelinde iki aşamalı bir prosedürle yaptı. Gamsel'in daha sistematik bir yaklaşım sunduğundan eminim. Demek istediğim böyle bir yaklaşım olmadan değişken seçiminin kısayol olabileceği yönündeydi.

— NRH,

1

Daha önceki bir ceza aşamasında seçilen değişkenleri tekrar sığdırmak için bir unpenalized yöntemi kullanmak uygun değildir. Bu büyük ölçüde önyargılı olurdu. Ve unpenalized değişken seçimi iyi bir kısayol değil.

— Frank Harrell

1

Kararlılık seçimi, kement kullanarak değişkenleri seçmekten ve cezalandırılmadan tekrar takılmasından daha tutucudur. Sonuncusu, tahmin edilebilir bir şekilde, öngörücü bir bakış açısıyla çok iyi sonuç vermedi (çapraz doğrulama ile ölçüldüğü gibi). Somut bir durumda çapraz doğrulama yoluyla, değişken seçim + gamının sırt veya kement tahmincisinden daha iyi tahmin performansı verdiğini tespit ettiğimde, bu benim prosedürün iyi olup olmadığını ölçmemdir.

— NRH,

1

Lütfen 'stabilite seçimini' tanımlayın. Ve cezalandırma olmadan tekrar yerleştirmek muhafazakardır.

— Frank Harrell

4

İfade hakkında yorum yapmama izin verin: “... k parametrelerini n <k gözlemlerine uydurmak sadece gerçekleşmeyecek.”

Kemometrilerde genellikle öngörücü modellerle ilgileniriz ve k >> n durumuna sıkça rastlanır (örneğin, spektroskopik verilerde). Bu problem tipik olarak, gözlemlerin regresyondan önce a <n olduğu daha düşük boyutlu bir alt alana a gözlemlenerek çözülür (örneğin, Temel Bileşen Regresyonu). Kısmi En Küçük Kareler Regresyonu kullanılarak projeksiyon ve regresyon, öngörü kalitesinin lehine aynı anda yapılır. Bahsedilen yöntemler, (tekil) bir kovaryansa veya korelasyon matrisine, örneğin tekil değer ayrışımına göre optimum ters-ters bulgular bulmaktadır.

Deneyimler, çok değişkenli modellerin öngörücü performansının, gürültülü değişkenler kaldırıldığında arttığını göstermektedir. Dolayısıyla, - anlamlı bir şekilde - sadece n denklemine sahip olan (n <k) k parametrelerini tahmin edebilsek bile, eşitlikçi modeller için çabalıyoruz. Bu amaç için değişken seçimi uygun hale gelir ve bu konuya çok fazla kemometrik literatür verilir.

Tahmin önemli bir amaç olsa da, projeksiyon yöntemleri aynı zamanda örneğin verilerdeki ve değişkenlerin uygunluğundaki örüntüler hakkında değerli bilgiler sunar. Bu, temel olarak çeşitli model çizimleri, örneğin skorlar, yüklemeler, artıklar vb. İle kolaylaştırılır ...

Kemometrik teknoloji, örneğin güvenilir ve doğru tahminlerin gerçekten önemli olduğu sektörde yaygın olarak kullanılmaktadır.

— Carsten Ridder
kaynak

3

İyi bilinen birkaç vakada, evet, değişken seçimi gerekli değildir. Kesin öğrenme, bu nedenle, tam olarak bu nedenle biraz abartılı hale geldi.

Örneğin, kıvrılmış bir sinir ağı ( http://cs231n.github.io/convolutional-networks/ ) merkezli bir görüntünün bir insan yüzü içerip içermediğini tahmin etmeye çalıştığında, görüntünün köşeleri minimum prediktif değere sahip olma eğilimindedir. Geleneksel modelleme ve değişken seçimi, modelleyicinin köşe piksellerini öngörücü olarak kaldırmasını sağlar; ancak, kıvrımlı sinir ağı, esasen bu öngörücüleri otomatik olarak atacak kadar akıllıdır. Bu, bir görüntüdeki bazı nesnelerin varlığını tahmin etmeye çalışan çoğu derin öğrenme modeli için geçerlidir (örneğin, araç içi video akışı karelerindeki şerit işaretlerini, engelleri veya diğer arabaları "tahmin eden" kendi kendine süren otomobiller).

Derin öğrenme muhtemelen veri kümelerinin az olduğu veya alan bilgisinin bol olduğu gibi birçok geleneksel sorun için aşırı derecede önemlidir, bu nedenle geleneksel değişken seçimi muhtemelen en azından bazı bölgelerde uzun süre alakalı kalmaya devam edecektir. Yine de, asgari insan müdahalesi ile "oldukça iyi" bir çözümü bir araya getirmek istediğinizde derin öğrenme mükemmeldir. Resimlerdeki el yazısı rakamları tanımak için el sanatları yapmak ve tahmincileri seçmek birkaç saatimi alabilir, ancak karmaşık bir sinir ağı ve sıfır değişken seçimiyle, Google'ın TensorFlow'unu kullanarak 20 dakikadan daha kısa bir süre içinde modern bir modelim olabilir ( https://www.tensorflow.org/versions/r0.8/tutorials/mnist/pros/index.html ).

— Ryan Zotti
kaynak

3

Bu DL perspektifini gerçekten beğendim. Computer Vision'da, karşılaştığınız veri matrisleri, belirli bir sütunun anlamının gözlemlere bağlı olduğu düzleştirilmiş 2D görüntüleridir. Örnek olarak, piksel (147), görüntü No. 27'deki bir kedinin yüzü olabilir, ancak görüntü No. 42'deki arka plan duvarıdır. Dolayısıyla, sefil bir şekilde başarısız olacağını bildiğimiz özellik seçimi. Bu yüzden ConvNet çok güçlü çünkü yerleşik / çevrimsel değişmezliği var.

— horaceT