«feature-selection» etiketlenmiş sorular

İleri modellemede kullanmak için bir özellik alt kümesi seçme yöntemleri ve ilkeleri


7
Çoklu doğrusal regresyon modeline dahil edilecek değişkenleri seçme
Şu anda çoklu doğrusal regresyon kullanarak bir model oluşturmak için çalışıyorum. Modelimle uğraştıktan sonra, hangi değişkenleri koruyacağımı ve hangilerini kaldıracağımı en iyi nasıl belirleyeceğime emin değilim. Modelim DV için 10 belirteçle başladı. 10 öngörücüyü de kullanırken, dördü önemli olarak kabul edildi. Açıkça yanlış olan tahmin edicilerin sadece bir kısmını kaldırırsam, …


5
Birçok bağımsız değişkenden önemli prediktörlerin tespit edilmesi
Üst üste binmeyen iki popülasyonun veri setinde (hastalar ve sağlıklı, toplam n=60n=60n=60 ) bulmak istiyorum ( üzerinden bağımsız değişkenler) sürekli bir bağımlı değişken için önemli yordayıcılar. Prediktörler arasındaki korelasyon mevcuttur. Öngörülerden herhangi birinin "gerçekte" bağımlı değişkenle ilişkili olup olmadığını öğrenmekle ilgileniyorum (bağımlı değişkeni mümkün olduğu kadar önceden tahmin etmek yerine). …

3
Değişken seçimi neden gerekli?
Ortak veri tabanlı değişken seçim prosedürleri (örneğin, ileri, geri, kademeli, tüm alt kümeler) aşağıdakiler dahil olmak üzere istenmeyen özelliklere sahip modeller sağlama eğilimindedir: Katsayılar sıfırdan uzağa eğilimlidir. Çok küçük olan standart hatalar ve çok dar olan güven aralıkları. Reklamı yapılan anlamı olmayan test istatistikleri ve p değerleri. Aşırı iyimser olan …

6
İkili sınıflandırma için değişken seçim prosedürü
Ne tercih ettiğiniz değişken / özellik seçimi çok daha fazla değişken olduğunda öğrenme kümesindeki gözlemler daha / ikili sınıflandırma için özellik? Buradaki amaç, sınıflandırma hatasını en iyi azaltan özellik seçim prosedürünün ne olduğunu tartışmaktır. Biz yapabilirsiniz gösterimler düzeltmek tutarlılık için: için , let olmak gözlemlerin öğrenme seti grubundan . Yani …

3
Değişken seçimi yaparken çoklu doğrusallık ile nasıl başa çıkılır?
9 sürekli bağımsız değişken içeren bir veri kümem var. Bir modele tek bir yüzde (bağımlı) değişkene uyacak şekilde bu değişkenler arasından seçim yapmaya çalışıyorum Score. Ne yazık ki, bazı değişkenler arasında ciddi bir eşliklilik olacağını biliyorum. stepAIC()Değişken seçimi için R'deki işlevi kullanmayı denedim , ancak bu yöntem garip bir şekilde …

1
Serbestlik dereceleri tam sayı olmayan bir sayı olabilir mi?
GAM kullandığımda, artık DF (kodun son satırı) olduğunu gösteriyor. Bu ne anlama geliyor? GAM örneğinin ötesine geçmek, Genel olarak, serbestlik derecelerinin sayısı tam sayı olmayan bir sayı olabilir mi?26,626,626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

5
PCA'nın bir sınıflandırıcının sonuçlarını kötüleştirmesine ne sebep olabilir?
En iyi özellik kombinasyonlarını bulmak için ileriye doğru seçim yaptığım yüzlerce özellik ile birlikte çapraz doğrulama yaptığım bir sınıflandırıcı var. Bunu, PCA ile aynı deneyleri çalıştırmayla karşılaştırıyorum, burada potansiyel özellikleri alıyorum, SVD uyguladım, orijinal sinyalleri yeni koordinat alanına dönüştürüyorum ve ileri seçim en iyi özelliklerini kullanıyorum .kkk Sezgim, PCA'nın, sonuçları …


6
Test doğruluğu eğitimden daha yüksek. Nasıl yorumlanır?
Birçok özelliğe sahip (1000'den yüksek) en fazla 150 örnek (eğitim ve teste bölünmüş) içeren bir veri setine sahibim. Sınıflayıcıları karşılaştırmalı ve veriler üzerinde iyi performans gösteren özellik seçme yöntemlerini kullanmalıyım. Bu nedenle, farklı sınıflandırma yöntemleri (Greedy, BestFirst) ile üç sınıflandırma yöntemi (J48, NB, SVM) ve 2 özellik seçim yöntemi (CFS, …

3
Büyük , küçük problemiyle uğraşırken model kararlılığı
tanıtım: Klasik "büyük p, küçük n problemi" olan bir veri kümem var. Mevcut sayıların sayısı n = 150 iken olası yordayıcıların sayısı p = 400'dür. Sonuç sürekli bir değişkendir. En "önemli" tanımlayıcıları, yani sonucu açıklamak ve bir teori oluşturmaya yardımcı olmak için en iyi aday olanları bulmak istiyorum. Bu konuda …

2
Model seçimi için en iyi yaklaşım Bayesian veya çapraz doğrulama?
Çeşitli modeller veya eklenecek özelliklerin arasında seçim yapmaya çalışırken, iki yaklaşım düşünebileceğimi tahmin ediyorum. Verileri eğitim ve test setlerine ayırın. Daha da iyisi, önyükleme ya da k-kat çapraz doğrulama kullanın. Her seferinde egzersiz setini eğitin ve test setindeki hatayı hesaplayın. Plot test hatası - parametre sayısı. Genellikle, böyle bir şey …


1
LASSO neden mükemmel öngörücü çiftimi yüksek boyutta bulamıyor?
Mükemmel bir tahmin çifti bulabildiğini test etmek için R'de LASSO regresyonu ile küçük bir deney yapıyorum. Parite şöyle tanımlanır: f1 + f2 = sonuç Buradaki sonuç, 'yaş' adı verilen önceden belirlenmiş bir vektördür. F1 ve f2, yaş vektörünün yarısını alıp değerlerin geri kalanını 0'a ayarlayarak oluşturulur, örneğin: age = [1,2,3,4,5,6], …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.