Elastik ağ ile ilgili karışıklık


10

Elastik ağ ile ilgili bu makaleyi okuyordum. Elastik ağ kullandıklarını söylüyorlar çünkü sadece Kement kullanırsak, yüksek derecede korelasyonlu olan tahmin ediciler arasından sadece bir öngörücü seçme eğilimindedir. Ama istediğimiz bu değil. Demek istediğim, bizi çok doğrusallık sorunundan kurtarıyor, değil mi?

Önerileriniz / açıklamalarınız var mı?

Yanıtlar:


11

İki öngörücünün yanıt üzerinde güçlü bir etkisi olduğunu, ancak modelinizi oluşturduğunuz örnekte yüksek derecede ilişkili olduğunu varsayalım. Modelden bir tane bırakırsanız, öngörücülerin yüksek derecede korelasyona girmediği benzer popülasyonlardan örnekler için iyi tahmin edilemez.

Eğer çoklu-doğrusallık mevcudiyetinde katsayı tahminlerinizin hassasiyetini artırmak istiyorsanız, sapmada daha büyük bir azalma ile ayarlayarak biraz önyargı vermeniz gerekir. Bunun bir yolu, katsayı tahminlerini sıfıra düşüren LASSO ile veya eski günlerde kademeli yöntemlerle tamamen yordayıcıları kaldırmaktır. Diğeri ise tüm tahminlere biraz önyargılı olmak - sırt gerilemesi veya eski günlerde ilk birkaç temel bileşen üzerinde gerileme yapmak. Birincinin dezavantajı, modelin, tahminçilere yönelik örneklerin orijinal örnekte meydana gelenlerden uzağa tahmin etmek için kullanılması güvenli olmadığıdır, çünkü öngörücüler , diğerleriyle birlikte çok fazla kullanılmadıkları için hariç tutulurlar , Neredeyse doğru, öngörücüler. (Ekstrapolasyonun her zaman tamamen güvenli olmadığı anlamına gelmez.) @ User12436'nın açıkladığı gibi elastik ağ, ikisinin bir karışımıdır ve modelde ilişkili öngörücü grupları tutma eğilimindedir.


Bu yeni örnekte neden iyi tahmin edilmiyor?
user31820

1
Çünkü modelin önemli bir yordayıcısı yok.
Scortchi - Monica'yı eski durumuna döndürün

2
Bir popülasyondaki bir temsili örnekte iki belirteç ilişkilendirilmişse, başka bir örnekte ilişkilendirilmemelidirler mi? "orijinal örnekte meydana gelenlerden uzak" veriler üzerinde bir model kullanırsanız, bu herhangi bir modelin sınırda geçersiz kullanımı değil mi?
Matthew Drury

@MatthewDrury: Modelin "doğru" olması durumunda - rahatsız edilmeye değer gözlemlenmeyen bir çelişki yoksa ve fonksiyonel form çok hoşsa - o zaman numunedeki öngörücülerin dağılımı önemli değildir (tabii ki hassasiyeti belirler) tahminler ve tahminler). Yani bir uçta, nedensel faktörler üzerine iyi kontrol edilen deneysel bir çalışmanın verileri üzerine inşa edilmiş mekanik bir model olabilir; diğerinde ise, gözlemlemesi kolay bir ölçümden elde edilen ve sadece ölçülmesi kolay bir grup değişken üzerine toplanan veriler üzerine inşa edilmiş ampirik bir model.
Scortchi - Monica'yı eski durumuna döndürün

" Eski günlerde adım adım yöntemler beni
güldürdü

4

Ama istediğimiz bu değil. Demek istediğim, bizi çok doğrusallık sorunundan kurtarıyor, değil mi?

Evet! ve hayır. Elastik ağ iki regülasyon tekniğinin bir kombinasyonudur, L2 regülasyonu (sırt regresyonunda kullanılır) ve L1 regülasyonu (LASSO'da kullanılır).

Kement doğal olarak seyrek modeller üretir, yani değişken katsayıların çoğu 0'a küçültülecek ve etkili bir şekilde modelin dışında bırakılacaktır. Böylece, en az anlamlı değişkenler, tüm değişkenlerin küçüldüğü sırttan farklı olarak, diğerlerini daraltmadan önce küçülürken, hiçbiri gerçekten 0'a küçülmez.

Elastik ağ her iki yaklaşımın da doğrusal bir kombinasyonunu kullanır. Metodu tartışırken Hastie tarafından belirtilen özel durum, büyük p, küçük n. Bunun anlamı: nispeten az gözlemli yüksek boyutlu veriler. Bu durumda LASSO (bildirildiği gibi) sadece en fazla n değişkeni seçerdi, gerisini ortadan kaldırırken Hastie'nin makalesine bakın .

Her zaman gerçek veri kümesine bağlı olacaktır, ancak modellerinizdeki değişkenlerin sayısının gözlemlerinizin sayısına eşit veya daha düşük olmasını her zaman üst sınırda tutmak istemediğinizi düşünebilirsiniz.


Peki ya çoklu doğrusallık. Elastik ağ iyi olmayan çoklu eşlenik özelliklerin seçilmesine izin veriyor değil mi?
user31820

Birçok gerçek veri kümesinin çok yönlü doğrusal değişkenlere sahip olduğunu düşünmüyorum. Yüksek korelasyonlu değişkenler neredeyse doğru olabilir, ki bu hala bir problemdir, ancak her ikisinin de modeliniz için önemli olması durumunda kabul etmeye istekli olabileceğiniz bir problemdir.
anlam anlamına gelir

Yukarıda eklenen bağlantı yahoo.com adresine yönlendirilir. Ayrıca, [kağıt] ( onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/… ) Zou ve Hastie'dir (Elastik ağ).
KarthikS

2

Hem Kement hem de Elastik Ağ, yüksek boyutlu veri ayarlarında değişken veya özellik seçimi gerçekleştirmek için etkili yöntemlerdir (hasta veya örneklerden çok daha fazla değişken; ör., 20.000 gen ve 500 tümör örneği).

(Hastie ve diğerleri tarafından) veriler arasında yüksek korelasyon olduğunda Elastik Ağın Kement'ten daha iyi performans gösterebileceği gösterilmiştir. Kement, sadece ilişkili değişkenlerden birini seçebilir ve hangisinin seçildiğiyle ilgilenmez. Bağımsız değişken veri kümesinde seçilen değişkenleri doğrulamak istendiğinde bu bir sorun olabilir. Kement tarafından seçilen değişken, ilişkili tüm değişkenler arasında en iyi yordayıcı olmayabilir. Elastik Ağ, bu sorunu yüksek derecede korelasyonlu değişkenlerin ortalamasını alarak çözer.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.