«feature-selection» etiketlenmiş sorular

İleri modellemede kullanmak için bir özellik alt kümesi seçme yöntemleri ve ilkeleri

2
Anomali tespiti: hangi algoritmayı kullanmalı?
Bağlam: Yazım hatası olabilecek mantıksız verileri filtrelemek için klinik verileri analiz eden bir sistem geliştiriyorum. Şimdiye kadar ne yaptım: Akla yatkınlığı ölçmek için şimdiye kadar denediğim veriyi normalleştirmek ve sonra D setindeki bilinen veri noktalarına olan uzaklığına bağlı olarak p noktası için bir güvenilirlik değeri hesaplamaktı (= eğitim seti): plausibility(p)=∑q∈DGauss(distance(p,q))plausibility(p)=∑q∈DGauss(distance(p,q))\text{plausibility}(p)=\sum_{q\in …

1
Hangi uygulamalarda karar ağacı değişkeni (özellik) ölçeklemesi ve değişken (özellik) normalizasyonu (ayarlama) gerekir?
Birçok makine öğrenme algoritmaları, özellik ölçekleme (aka değişken ölçekleme, normalizasyon) olarak adım prepocessing ortak olan özellik Ölçekleme - Wikipedia - Bu soru yakın Soru # 41704 - Nasıl ve neden normalleştirme ve özellik ölçeklendirme çalışır? Karar Ağaçları ile ilgili iki sorum var: Özellik ölçeklendirmesi gerektiren herhangi bir karar ağacı uygulaması …

3
Özellik seçimi yalnızca eğitim verileri (veya tüm veriler) üzerinde mi yapılmalıdır?
Özellik seçimi yalnızca eğitim verileri (veya tüm veriler) üzerinde mi yapılmalıdır? Guyon (2003) ve Singhi ve Liu (2006) gibi bazı tartışmalar ve makalelerden geçtim , ancak yine de doğru cevaptan emin değilim. Deneme kurulumum şu şekildedir: Veri seti: 50 sağlıklı kontrol ve 50 hastalıklı hasta (hastalık tahmini ile ilgili olabilecek …

3
Matlab'daki karşılıklı bilgileri kullanarak özellik seçimi
Karşılıklı bilgi fikrini bu ders notlarında (sayfa 5) açıklandığı gibi özellik seçimine uygulamaya çalışıyorum . Platformum Matlab. Ampirik verilerden karşılıklı bilgi hesaplarken bulduğum bir problem, sayının her zaman yukarıya doğru eğimli olmasıdır. Matlab Central'da MI değerini hesaplamak için yaklaşık 3 ~ 4 farklı dosya buldum ve bağımsız rastgele değişkenlerle beslendiğimde …

1
Çok büyük zaman serisi veri kümeleriyle başa çıkmak
Çok büyük bir veri kümesine erişimim var. Veriler, dört türden birinden müzikal alıntıları dinleyen insanların MEG kayıtlarından alınmıştır. Veriler aşağıdaki gibidir: 6 Konular 3 Deneysel tekrarlar (çağlar) Dönem başına 120 Deneme 275 MEG kanalından 500Hz'de (= 4000 örnek) deneme başına 8 saniye veri Yani burada her "örnek" [4000x275] boyutunda bir …

4
R'de değişken / özellik seçimi yapmak için çapraz doğrulamayı kullanmanın bir yolu var mı?
Kesmek istediğim yaklaşık 70 değişkenli bir veri setim var. Ne yapmak istiyorum CV aşağıdaki şekilde en yararlı değişkenleri bulmak için kullanın. 1) Rastgele 20 değişkenini seçin. 2) En önemli değişkenleri seçmek için stepwise/ LASSO/ lars/ etc kullanın. 3) ~ 50x tekrarlayın ve en sık hangi değişkenlerin seçildiğini (elimine edilmediğini) görün. …

4
Diyabetin SVM sınıflandırmasını iyileştirmek
Diyabet tahmininde SVM kullanıyorum. Bu amaçla BRFSS veri setini kullanıyorum . Veri kümesi boyutlarına sahiptir ve eğridir. Hedef değişkendeki s yüzdesi , s ise geri kalan .432607 × 136432607×136432607 \times 136Y% 1111%11\%N% 8989%89\% Sadece kullanıyorum 15dışına 136veri kümesinden bağımsız değişkenler. Veri kümesini azaltmanın nedenlerinden biri, NAs içeren satırlar atlandığında daha …

2
Parametrik olmayan regresyon için en iyi özellik seçim yöntemleri
Burada yeni başlayan bir soru. Şu anda R'deki np paketini kullanarak parametrik olmayan bir regresyon gerçekleştiriyorum. 7 özelliğim var ve kaba kuvvet yaklaşımı kullanarak en iyi 3'ü tanımladım. Ama yakında 7'den fazla özelliğim olacak! Benim sorum parametrik olmayan regresyon için özellik seçimi için mevcut en iyi yöntemler nelerdir. Ve hangi …

1
Özellik fazlalığı nasıl ölçülür?
Bir sınıflandırma problemini çözmek için kullandığım üç özelliğim var. Başlangıçta, bu özellikler boole değerleri üretti, bu yüzden pozitif ve negatif sınıflandırma kümelerinin ne kadar örtüştüğüne bakarak artıklıklarını değerlendirebilirim. Şimdi bunun yerine gerçek değerler (skorlar) üretmek için özellikleri genişlettim ve artıklıklarını tekrar analiz etmek istiyorum, ancak bunu nasıl yapacağım konusunda tam …

3
Bayesci model seçimi ve güvenilir aralık
Tüm değişkenlerin nicel olduğu üç değişkenli bir veri kümem var. , ve diyelim . MCMC ile Bayes perspektifinde bir regresyon modeline uyuyorumyyyx1x1x_1x2x2x_2rjags Bir keşif analizi yaptım ve dağılım , ikinci dereceden bir terimin kullanılması gerektiğini gösteriyor. Sonra iki model taktımy×x2y×x2y\times x_2 (1)y=β0+β1∗x1+β2∗x2y=β0+β1∗x1+β2∗x2y=\beta_0+\beta_1*x_1+\beta_2*x_2 (2)y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x21+β5∗x22y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x12+β5∗x22y=\beta_0+\beta_1*x1+\beta_2*x_2+\beta_3*x_1x_2+\beta_4*x_1^2+\beta_5*x_2^2 Model 1'de her parametrenin etki boyutu küçük …

3
Scikit Learn ile özellik seçiminden sonra filtrelenmiş özellikleri belirleme
İşte benim Python özellik seçim yöntemi için Kod : from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) Ancak yeni X (bağımlı değişken - X_new) aldıktan sonra, bu yeni güncellenen değişkente …


3
Lojistik regresyon modeli için öngörücüler doğru şekilde nasıl azaltılır
Bu yüzden şu anki durumum ikili yanıt verilerine dayalı bir lojistik model yapmam gerektiğinden, modelleme üzerine bazı kitaplar (veya bunların bir kısmı) okuyordum (F. Harrell'in "Regresyon Modelleme Stratejileri"). Veri setimde sürekli, kategorik ve ikili veriler (tahmin ediciler) var. Temel olarak şu anda yaklaşık 100 tahmin edicim var, ki bu iyi …

3
Derin öğrenme kullanarak özellik seçimi?
Her bir modelin önemini derin model kullanarak hesaplamak istiyorum. Ancak derin öğrenme - derin özellik seçimi kullanarak özellik seçimi hakkında yalnızca bir makale buldum . İlk gizli katmandan önce, her bir özelliğe doğrudan bağlı bir düğüm katmanı eklerler. Derin inanç ağının (DBN) da bu tür işler için kullanılabileceğini duydum. Ama …

2
Çapraz doğrulamadan önce denetimsiz özellik seçimi yapmak gerçekten iyi mi?
In İstatistiksel Öğrenme Elements , ben aşağıdaki ifadeyi buldum: Bir nitelik vardır: ilk denetimsiz tarama adımları numuneler dışarıda bırakılmadan önce yapılabilir. Örneğin, çapraz validasyona başlamadan önce 50 numunenin hepsinde en yüksek varyansa sahip 1000 öngörücüyü seçebiliriz. Bu filtreleme sınıf etiketlerini içermediğinden, öngörücülere haksız bir avantaj sağlamaz. Bu gerçekten geçerli mi? …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.