Bence sorunuzun tek bir cevabı yok - bu birçok duruma, verilere ve ne yapmaya çalıştığınıza bağlı. Bazı değişiklikler hedefe ulaşmak için değiştirilebilir veya değiştirilmelidir. Ancak, aşağıdaki genel tartışma yardımcı olabilir.
Daha gelişmiş yöntemlere geçmeden önce, temel modelin tartışmasına geçelim: En Küçük Kareler (LS) regresyonu . Tam modeldeki parametrelerin en küçük kareler tahmininin tatmin edici olmamasının iki nedeni vardır:
Tahmin kalitesi: En küçük kareler tahminlerinde genellikle küçük bir sapma vardır, ancak yüksek bir sapma vardır. Tahmin kalitesi bazen regresyon katsayılarının büzülmesi veya bazı katsayıların sıfıra eşitlenmesi ile iyileştirilebilir. Bu şekilde yanlılık artar, ancak tahminin varyansı önemli ölçüde azalır ve bu da genel olarak geliştirilmiş bir tahmine yol açar. Sapma ve varyans arasındaki bu değişme, ortalama kare hatasının (MSE) ayrıştırılmasıyla kolayca görülebilir . Daha küçük bir MSE, yeni değerlerin daha iyi tahmin edilmesine yol açar.
Yorumlanabilirlik : Çok sayıda tahmin değişkeni mevcutsa, en büyük etkisi olanları belirlemek ve tahminle ilgili olmayanları sıfıra ayarlamak mantıklıdır. Bu nedenle, sadece bazı ayrıntıları açıklayacak değişkenleri ortadan kaldırıyoruz, ancak yanıt değişkeninin büyük açıklamasına izin veren değişkenleri koruyoruz.
Böylece değişken seçim yöntemleri ortaya çıkmaktadır. Değişken seçimi ile tüm girdi değişkenlerinin sadece bir alt kümesi kullanılır, gerisi modelden çıkarılır. En alt küme regresyon fi boyutu alt kümesini NDS her biri için k ∈ { 0 , 1 , . . . , p } en küçük RSS'yi verir. Etkili bir algoritma, 30 veya 40'a kadar regresör değişkenini işleyebilen Sıçramalar ve Sınırlar algoritmasıdır . 40'tan büyük veri setleri ilekk∈{0,1,...,p}304040giriş değişkenleri tüm olası altkümeler üzerinden yapılan bir aramayı olanaksız hale getirir. Bu nedenle İleriye doğru kademeli seçim ve Geriye doğru kademeli seçim yararlıdır. Geri seçim sadece iyi tanımlanmış bir modele sahip olmak için olduğunda kullanılabilir . P çok yüksek olduğunda bu yöntemlerin hesaplama etkinliği sorgulanabilir .n>pp
Birçok durumda, çoğunlukla sizin ilişkiniz olan (sizin durumunuzda olduğu gibi) çok sayıda girdimiz vardır (sizinki gibi). Yüksek derecede korelasyonlu regresörler durumunda, OLSβzk,k=1,2,...,qxj
Yöntemler, doğrusal kombinasyonların nasıl oluşturulduğuna bağlıdır. Ana bileşenler regresyonu (PCR) , orijinal verilerin ana bileşenler adı verilen ilişkisiz yeni bir kümeye dönüştürülmesini arar .
Kısmi En Küçük Kareler (PLS) regresyonu - Bu teknik aynı zamanda regresyon için girişler doğrusal kombinasyonları kümesi oluşturur, fakat temel bileşenler regresyonu farklı kullandığı ek olarak X bu yapı için. Her ikisinin deyXyXβγγq≤pXyy
λ≥0λ
ββ
Xp−q
YiL1 ve L2 arasındaki fark, L2'nin ağırlıkların karesinin toplamı, L1 ise sadece ağırlıkların toplamıdır. L1 normu, seyrek katsayılar üretme eğilimindedir ve Yerleşik özellik seçimine sahiptir . L1-normunun analitik bir çözümü yoktur, ancak L2-normundadır. Bu, L2-norm çözeltilerinin hesaplamalı olarak verimli bir şekilde hesaplanmasını sağlar. L2 normunun kendine özgü çözümleri vardır, L1 normunda ise yoktur.
s0s
p≫N
Temel bileşenler analizi , bir veri kümesinde büyük farklılıklar gösteren özelliklerin doğrusal kombinasyonlarını bulmak için etkili bir yöntemdir. Ancak burada aradığımız, hem yüksek varyans hem de sonuç ile önemli korelasyon içeren doğrusal kombinasyonlardır. Bu nedenle, temel bileşen analizini, sonuç denetimli temel bileşenlerle yüksek korelasyona sahip özelliklerin doğrusal kombinasyonlarını bulmaya teşvik etmek istiyoruz (bkz. Sayfa 678, Algoritma 18.1, İstatistiksel Öğrenme Unsurları ).
Kısmen en az gürültülü özellikleri aşağı kareler, ama onları atmaz; sonuç olarak çok sayıda gürültülü özellik tahminleri kirletebilir. Eşikli PLS, denetlenen ana bileşenlerin gürültülü bir versiyonu olarak görülebilir ve bu nedenle uygulamada da çalışmasını beklemeyebiliriz. Denetlenen ana bileşenler , Eşik PLS'den daha düşük test hataları verebilir . Bununla birlikte, her zaman sadece az sayıda özellik içeren seyrek bir model üretmez.
p