«dimensionality-reduction» etiketlenmiş sorular

Veriler hakkında olabildiğince fazla bilgiyi korurken, çok sayıda değişkeni veya veri tarafından yayılan boyutları daha az sayıda boyuta küçültme tekniklerini ifade eder. Öne çıkan yöntemler arasında PCA, MDS, Isomap, vb. Yer alır. Tekniklerin iki ana alt sınıfı: özellik çıkarma ve özellik seçimi.

1
Çekirdek Yaklaşımı için Nystroem Yöntemi
Düşük seviyeli çekirdek yakınlaşması için Nyström yöntemini okudum. Bu yöntem scikit-learn [1] 'de veri örneklerini çekirdek özellik eşlemesinin düşük dereceli bir yaklaşımına yansıtmak için bir yöntem olarak uygulanır. Bildiğim kadarıyla, bir eğitim seti verilen ve bir çekirdek fonksiyonu, bu bir düşük seviye yaklaşımı oluşturur çekirdek matris için SVD uygulayarak ve …



8
Yüksek boyutlu verileri görselleştirme
Yüksek boyutlu uzayda vektör olan iki sınıftan örneklerim var ve bunları 2D veya 3D olarak çizmek istiyorum. Boyut azaltma teknikleri hakkında biliyorum, ama gerçekten basit ve kullanımı kolay bir araç (matlab, python veya önceden oluşturulmuş bir .exe) gerekir. Ayrıca merak ediyorum 2D temsil "anlamlı" olacak? (Örneğin, iki sınıf nasıl kesişebilir …

3
Faktör analizi varsayımları nelerdir?
Gerçekten [klasik, doğrusal] faktör analizini (FA), özellikle FA'dan önce (ve muhtemelen sonra) yapılan varsayımları anladığımı kontrol etmek istiyorum . Verilerin bazıları başlangıçta ilişkilendirilmelidir ve aralarında olası bir doğrusal ilişki vardır. Faktör analizi yapıldıktan sonra veriler normal olarak dağıtılır (her çift için iki değişkenli dağılım) ve faktörler (ortak ve spesifik) arasında …

2
Regresyon amacıyla öngörücülerin boyutsallığını azaltmanın avantajı nedir?
Boyut küçültme regresyonu (DRR) veya denetimli boyut küçültme (SDR) tekniklerinin geleneksel regresyon tekniklerine (boyut küçültme olmadan) uygulamaları veya avantajları nelerdir? Bu teknik sınıfı, regresyon problemi için özellik setinin düşük boyutlu bir temsilini bulur. Bu tekniklerin örnekleri arasında Dilimli Ters Regresyon, Temel Hessian Yönleri, Dilimli Ortalama Varyans Tahmini, Çekirdek Dilimli Ters …

7
Ülke türlerini tanımlamak için veri azaltma tekniği
Giriş niteliğinde bir ekonomik coğrafya dersi veriyorum. Öğrencilerimin çağdaş dünya ekonomisinde bulunan ülke türlerini daha iyi anlamasına ve veri azaltma tekniklerinin takdir edilmesine yardımcı olmak için, farklı türden ülkelerin tipolojisini oluşturan bir ödev inşa etmek istiyorum (ör. katma değerli mfg uzun ömür beklentisi; yüksek gelirli doğal kaynak ihracatçısı orta yüksek …

2
Boyutları azaltmak için t-SNE için parametreler nasıl belirlenir?
Kelime düğünlerinde çok yeniyim. Öğrenmenin ardından belgelerin nasıl göründüğünü görselleştirmek istiyorum. T-SNE'nin bunu yapmak için bir yaklaşım olduğunu okudum. Gömme boyutu olarak 250 boyutta 100K dokümanım var. Ayrıca birkaç paket mevcuttur. Bununla birlikte, t-SNE için, daha fazla öğrenmeye devam etmem gereken kaç yineleme veya alfa değeri veya esneklik değeri bilmiyorum. …

3
İlk temel bileşen sınıfları ayırmaz, ancak diğer bilgisayarlar yapar; bu nasıl mümkün olabilir?
PCA'yı, örnekleri iki sınıfa ayırmak için denetimli makine öğreniminde kullanılacak daha küçük değişkenler kümesi, yani temel bileşenler olarak çalıştırmak için çalıştırdım. PCA'dan sonra PC1 verilerdeki varyansın% 31'ini, PC2% 17'sini, PC3% 10'unu, PC4% 8'ini, PC5% 7'sini ve PC6% 6'sını oluşturur. Ancak, iki sınıf arasındaki PC'ler arasındaki ortalama farklılıklara baktığımda, şaşırtıcı bir …

2
PCA neden projeksiyonun toplam varyansını en üst düzeye çıkarıyor?
Christopher Bishop, Desen Tanıma ve Makine Öğrenimi kitabında , veriler daha önce seçilen bileşenlere dik bir alana yansıtıldıktan sonra, ardışık her ana bileşenin projeksiyonun varyansını maksimuma çıkardığına dair bir kanıt yazar . Diğerleri de benzer kanıtlar gösteriyor. Bununla birlikte, bu sadece her ardışık bileşenin varyansı en üst düzeye çıkarmak için …

4
“Rastgele projeksiyon” kesinlikle bir projeksiyon değil mi?
Rastgele Projeksiyon algoritması Mevcut uygulamaları onları eşleyerek veri örnekleri boyutunu azaltmak üzere using izdüşüm matrisi Girişleri gelen, örneğin, uygun bir dağılım (dan iid ):R,dR,d\mathbb R^dR,kR,k\mathbb R^kd× kdxkd\times kR,R,RN-( 0 , 1 )N-(0,1)\mathcal N(0,1) x'= 1k√x Rx'=1kxR,x^\prime = \frac{1}{\sqrt k}xR Uygun olarak, bu eşlemenin yaklaşık olarak çift mesafeleri koruduğunu gösteren teorik …

3
Sınıflandırmada ne zaman LDA yerine PCA kullanırsınız?
İlke Bileşen Analizi ve Çoklu Diskriminant Analizi (Doğrusal Diskriminant Analizi) arasındaki fark üzerine bu makaleyi okuyorum ve neden MDA / LDA yerine PCA kullanacağınızı anlamaya çalışıyorum. Açıklama aşağıdaki gibi özetlenmiştir: kabaca PCA'da verinin en fazla yayıldığı maksimum varyanslı eksenleri bulmaya çalışıyoruz (bir sınıf içinde, PCA tüm veri setini bir sınıf …

1
Büyük ölçekli PCA bile mümkün müdür?
Temel bileşen analizi '(PCA) klasik yolu bunu sütunların sıfır ortalaması olan bir giriş veri matrisinde yapmaktır (o zaman PCA "varyansı en üst düzeye çıkarabilir"). Bu sütunları ortalayarak kolayca gerçekleştirilebilir. Bununla birlikte, giriş matrisi seyrek olduğunda, ortalanmış matris artık daha seyrek olacaktır ve - eğer matris çok büyükse - artık belleğe …

1
Karışık sürekli ve ikili değişkenli t-SNE
Şu anda t-SNE kullanarak yüksek boyutlu verilerin görselleştirilmesini araştırıyorum. Karışık ikili ve sürekli değişkenler ile bazı veriler var ve veri ikili verileri çok kolayca küme gibi görünüyor. Tabii ki bu ölçeklenmiş (0 ile 1 arasında) veriler için beklenir: Öklid mesafesi her zaman ikili değişkenler arasında en büyük / en küçük …

1
R doğrusal regresyon kategorik değişkeni “gizli” değer
Bu sadece birkaç kez karşılaştığım bir örnektir, bu yüzden örnek verilerim yok. R'de doğrusal regresyon modeli çalıştırmak: a.lm = lm(Y ~ x1 + x2) x1sürekli bir değişkendir. x2kategoriktir ve üç değeri vardır, örneğin "Düşük", "Orta" ve "Yüksek". Bununla birlikte, R tarafından verilen çıktı aşağıdaki gibi olacaktır: summary(a.lm) Estimate Std. Error …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.