Büyük , küçük problemiyle uğraşırken model kararlılığı


22

tanıtım:

Klasik "büyük p, küçük n problemi" olan bir veri kümem var. Mevcut sayıların sayısı n = 150 iken olası yordayıcıların sayısı p = 400'dür. Sonuç sürekli bir değişkendir.

En "önemli" tanımlayıcıları, yani sonucu açıklamak ve bir teori oluşturmaya yardımcı olmak için en iyi aday olanları bulmak istiyorum.

Bu konuda araştırma yaptıktan sonra, LASSO ve Elastic Net'in büyük n, küçük n. Tahmincilerimden bazıları oldukça koreledir ve gruplandırmalarını önem değerlendirmesinde korumak istiyorum, bu yüzden Elastik Ağ'ı seçtim . Sanırım, regresyon katsayılarının mutlak değerlerini bir önem ölçüsü olarak kullanabileceğimi düşünüyorum (lütfen yanılıyorsam beni düzelt; veri setim standartlaştırıldı).

Sorun:

Numune sayım az olduğu için stabil bir modele nasıl ulaşabilirim?

Mevcut yaklaşımım, veri kümesinin% 90'ında, 10 kat çapraz doğrulama ortalama MSE puanına sahip bir ızgara araştırmasında en iyi ayarlama parametrelerini (lambda ve alfa) bulmaktır. Sonra modeli veri setinin% 90'ında en iyi ayar parametreleriyle eğitiyorum. Veri setimin% 10'luk kesinlikteki R karesini kullanarak modelimi değerlendirebiliyorum (sadece 15 örneğe ait)

Tekrar tekrar bu prosedürü uygulayarak, R kare değerlendirmelerinde çok büyük bir fark buldum. Ayrıca, sıfırlanmayan öngörücülerin sayısı, katsayılarının yanı sıra değişkenlik gösterir.

Prediktörlerin önemi ve son model performansının daha istikrarlı bir şekilde değerlendirilmesini nasıl daha sağlam bir şekilde değerlendiririm?

Birkaç model ve ardından ortalama regresyon katsayıları oluşturma prosedürümü tekrar tekrar çalıştırabilir miyim? Yoksa modellerde bir öngörücünün oluşum sayısını önem puanı olarak mı kullanmalıyım?

Şu anda, yaklaşık 40-50 sıfırlanmayan tahminci alıyorum. Daha iyi istikrar için daha zor tahmin edicileri cezalandırmalı mıyım?


1
Belki düzenli regresyon yeterli değildir? Bazı makine öğrenimi yaklaşımlarını denedin mi?

sürekli veya sıra bağımlı değişken için hangi ML yaklaşımlarını önerirsiniz?
dimi

2
Rastgele orman, SVR ... Özellik seçimi için ACE veya Boruta gibi tüm ilgili yöntemleri deneyebilirsiniz (daha kararlı olmalıdır).

Yanıtlar:


11

" Seyrek Algoritmalar Kararlı Değildir: Öğle Yemeği Ücretsiz Bir Teorem "

Sanırım başlık, belirttiğiniz gibi çok şey söylüyor.

[...] seyrek bir algoritma benzersiz olmayan en uygun çözümlere sahip olabilir ve bu nedenle kötü pozlanmıştır

Check out kement randomize ve Peter Buhlmann tarafından konuşma .

Güncelleştirme:

Bu makaleyi, Meinshausen ve Buhlmann tarafından "Stabilite Seçimi" adlı makaleden daha kolay takip ettim.

" Rastgele Kement " te, yazarlar kementin büyük , küçük problemleri için iki önemli dezavantajı olduğunu düşünmektedir;npn

  1. Birbirine bağlı değişkenlerin olduğu durumlarda, kement sadece bir veya birkaç tane seçer, böylece hakkında konuştuğunuz kararsızlığa neden olur.
  2. Kement, model büyüklüğünden daha fazla değişken seçemez; bu, birçok model için sorun teşkil eder.n

Kementin her iki dezavantajı ile başa çıkabilen rastgele kement için ana fikir şudur:

Aynı dağıtımdan birkaç bağımsız veri seti üretildiyse, farklı veri kümelerinden yüksek oranda korelasyona sahip olan önemli değişkenlerin tanımlanamayan altkümelerini seçmesini bekleriz ve nihai koleksiyonumuz son derece ilişkili olanların en önemlisi veya hatta hepsi olabilir Farklı veri setlerinden seçilen değişkenlerin birleşimini alarak değişkenler Böyle bir işlem , kementin diğer sınırlarını aşarak değişkeninden daha fazlasını verebilir .n

Önyükleme örnekleri çoklu veri kümelerini simüle etmek için çizilir. Son katsayılar, her bir önyükleme numunesinin sonuçlarının ortalaması alınarak elde edilir.

Birisi bu algoritmayı daha ayrıntılı olarak ele alabilir ve cevaplarında açıklarsa çok iyi olur.


1
Güzel bağlantılar (+1).
jbowman

Açıklamalar için teşekkür ederim. Ayrıca randomize kementi de düşünmüştüm, fakat eşliklilik durumunda uygun olur mu?
dimi

2
Açıklayıcı değişkenler arasında yaklaşık eşeylik altında ne olur? Regresyon analizinde geleneksel ileri arama algoritmasında, genellikle x1 ve x2 değişkenlerinin benzer açıklayıcı güce sahip olduğu durumla karşı karşıya kalıyoruz. Eğer x1 modeldeyse, x2 dahil edilmesine gerek yoktur; Tersine, eğer x2 modeldeyse, x1 dahil etmeye gerek yoktur. Prosedürünüzü doğru anlarsam, her birinin yaklaşık% 50'sinin stabilite olasılıklarına yol açan x1'in yarısı ve x2'nin yarısı dahil etme eğiliminde olacaksınız. Eğer öyleyse, yanlış bir şekilde, hiçbir değişkene gerek olmadığı sonucuna varabilirsiniz.
dimi

Bu durumda rasgele randomize elastik ağ kullanabileceğimi hayal ediyorum.
dimi

Sorunuza daha iyi cevap verebileceğini düşündüğüm başka bir bağlantı daha ekledim.
Pardis

6

Mevcut yaklaşımım, veri kümesinin% 90'ında, 10 kat çapraz doğrulama ortalama MSE puanına sahip bir ızgara araştırmasında en iyi ayarlama parametrelerini (lambda ve alfa) bulmaktır. Sonra modeli veri setinin% 90'ında en iyi ayar parametreleriyle eğitiyorum. Veri setimin% 10'luk kesinlikteki R karesini kullanarak modelimi değerlendirebiliyorum (sadece 15 örneğe ait)

Ayarlama parametreleri ne kadar kararlı?

Uygunluk durumu (örneğin, optimum parametrenin çapraz onayının MSE'si) ile% 10 bağımsız test performansı arasında büyük farklar görüyor musunuz?

Bu fazla uydurma belirtisi olurdu:

Izgara araştırmasındaki problem (ve diğer birçok parametre optimizasyon stratejisi) temelde oldukça yumuşak bir davranışını varsaymanızdır . Ancak küçük test setleri için küçük test setinin boyutundan kaynaklanan fark (= 10 cv katında toplam 135 örnek) gerçek farklarından daha büyük olabilir . Bu durumda zaten parametreler oldukça kararsız.M S E = f ( g r ı d p bir R , bir m e t e r s )MSE=f(gridparameters)MSE=f(gridparameters)

Birkaç model ve ardından ortalama regresyon katsayıları oluşturma prosedürümü tekrar tekrar çalıştırabilir miyim? Yoksa modellerde bir öngörücünün oluşum sayısını önem puanı olarak mı kullanmalıyım?

Bu tür toplu modeller oluşturmak için çeşitli olasılıklar vardır:

  • lineer modeller katsayıların ortalaması alınarak ortalama alınabilir
  • daha genel olarak, farklı modellerin her biri tarafından bir örnek tahmin edebilir ve tahminlerini ortalayabilirsiniz (tahminlerin dağılımına bakarak belirsizlik hakkında bir fikir de çıkarabilirsiniz).mmm

Arama terimleri "toplanmış modeller", "önyükleme toplaması", "torbalama" olacaktır.

Yan düşünce: Değişken selektifin az ya da çok eşit çözümler arasında "atlamasına" neden olabilecek bazı veri türleri beklenir ve yorumlanabilir bir ortaklığa sahiptir.


3

Bundan kurtulmanın bir yolu yok. Bazılarının söylediği gibi, modeller doğası gereği kararsızdır (aksi halde istatistiklere ihtiyaç duyulmaz).

Ancak istikrarsızlığın kendisi bilgi getiriyor. Bu yüzden ondan kurtulmaya çalışmak yerine analiz etmeye çalıştım.

Çapraz doğrulama simülasyonlarını birçok kez çalıştırıyorum ve sonra her çalıştırmada en iyi seçilmiş parametreler için katsayıları alıyorum ve bir araya getiriyorum.

Elastik net durumunda, her k alfa için (0..1 - 0.1) aynı k katlanmış veri ile bir çapraz doğrulama testi yapıyorum (aynı veri setindeki alfaları karşılaştırmalısınız) ve / çiftini seçin daha az test hatasıyla ilişkili ... Daha sonra farklı rasgele seçilmiş katlanmış verilerle n kez tekrarlıyorum ve her yineleme için en iyi çifti seçiyorum.αλα

Sonra her parametre çifti için regresyon katsayılarını çıkardım ve bu bana her parametre için değerlerin bir dağılımını verir. Bu şekilde, yordayıcının gücünü tanımlamak için ortalama / medyan değerini ve değişkenliğini tanımlamak için standart sapmasını / IQR'sini, yani stabilitesini kullanabilirim.

Çok kararlı bir tahmin aracı, etkisinin yeni verilerle de benzer olmasını bekleyebileceğiniz anlamına gelir; Verilerinizde bile kararsız olan bir tahminci, muhtemelen yeni verilerle de çok kararsız olacaktır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.