«dimensionality-reduction» etiketlenmiş sorular

Veriler hakkında olabildiğince fazla bilgiyi korurken, çok sayıda değişkeni veya veri tarafından yayılan boyutları daha az sayıda boyuta küçültme tekniklerini ifade eder. Öne çıkan yöntemler arasında PCA, MDS, Isomap, vb. Yer alır. Tekniklerin iki ana alt sınıfı: özellik çıkarma ve özellik seçimi.

1
Kısmi en küçük kareler, azalan sıralama regresyonu ve temel bileşen regresyonu arasındaki bağlantı nedir?
Düşük kademeli regresyon ve temel bileşen regresyonu sadece kısmi en küçük karelerin özel durumları mıdır? Bu öğretici (Sayfa 6, "Hedeflerin Karşılaştırılması"), X veya Y yansıtmadan kısmi en küçük kareler yaptığımızda (yani, "kısmi değil"), buna karşılık olarak azalan sıralama regresyonu veya temel bileşen regresyonu haline geldiğini belirtir. Bu SAS dokümantasyon bölümünde …

4
Hangi değişkenler hangi PCA bileşenlerini açıklar ya da tam tersi?
Bu verileri kullanma: head(USArrests) nrow(USArrests) Ben böyle bir PCA yapabilirsiniz: plot(USArrests) otherPCA <- princomp(USArrests) Yeni bileşenleri otherPCA$scores ve aşağıdaki bileşenlerle açıklanan varyans oranı summary(otherPCA) Ama hangi değişkenlerin çoğunlukla hangi temel bileşenler tarafından açıklandığını bilmek istersem? Ve tam tersi: örneğin PC1 veya PC2 en çok tarafından açıklanıyor murdermu? Bunu nasıl yapabilirim? …

2
Sıralı veya nominal verilerde kategorileri birleştirme / azaltma yöntemleri?
Nominal veya sıralı verilerdeki kategori sayısını azaltmak için bir yöntem bulmakta zorlanıyorum. Örneğin, bir dizi nominal ve sıralı faktöre sahip bir veri kümesi üzerinde bir regresyon modeli oluşturmak istediğimi varsayalım. Bu adımla ilgili hiçbir sorunum olmasa da, genellikle nominal bir özelliğin eğitim setinde gözlemsiz olduğu, ancak daha sonra doğrulama veri …


3
Sınıflandırma için T-SNE kullanarak hiperparametrelerin seçimi
Çalıştığım belirli bir problemde (bir yarışma) follwoing ayarına sahibim: 21 özellik ([0,1] üzerinde sayısal) ve bir ikili çıktı. Yaklaşık 100 K satırım var. Ayar çok gürültülü görünüyor. Ben ve diğer katılımcılar bir süreliğine özellik üretmeyi uyguluyoruz ve t-dağılmış stokastik komşu yerleştirme bu ortamda oldukça güçlü çıktı. "T-SNE Etkili Nasıl Kullanılır" …

1
Denetimli boyut azalması
15K etiketli örneklerden (10 gruptan) oluşan bir veri setim var. Boyutların azaltılmasını etiketlerin bilgisini dikkate alan 2 boyuta uygulamak istiyorum. PCA gibi "standart" denetimsiz boyutsallık azaltma tekniklerini kullandığımda, saçılma grafiğinin bilinen etiketlerle ilgisi yok gibi görünüyor. Aradığım şeyin bir adı var mı? Bazı çözüm referanslarını okumak istiyorum.


1
LDA Cebiri. Bir değişkenin Fisher ayrım gücü ve Doğrusal Ayırım Analizi
Görünüşe göre, Fisher analizi, sınıf içi dağılımı en aza indirirken aynı zamanda sınıflar arası ayrımı en üst düzeye çıkarmayı amaçlamaktadır. Bu nedenle, bir değişkenin ayrımcılık gücünün yararlı bir ölçüsü, diyagonal miktar ile verilir: .Bii/WiiBii/WiiB_{ii}/W_{ii} http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html p x p( B ) ve Sınıf İçi ( W ) Arasındaki matrislerin boyutunun ( …


1
LLE (yerel doğrusal gömme) algoritmasının adımlarını açıklar?
LLE için algoritmanın arkasındaki temel prensibin üç adımdan oluştuğunu anlıyorum. Her veri noktasının mahallesini k-nn gibi bir metrik ile bulmak. Her komşu için, komşunun veri noktası üzerindeki etkisini gösteren ağırlıkları bulun. Hesaplanan ağırlıklara dayalı olarak verilerin düşük boyutlu gömülmesini oluşturun. Ancak 2. ve 3. adımların matematiksel açıklaması okuduğum tüm ders …


1
T-SNE'deki eksenlerin anlamı nedir?
Şu anda başımı t-SNE matematiğinin etrafına sarmaya çalışıyorum . Ne yazık ki, tatmin edici bir şekilde cevaplayamadığım bir soru var: Bir t-SNE grafiğindeki eksenlerin gerçek anlamı nedir? Eğer bu konuda bir sunum yaparsam ya da herhangi bir yayına dahil edersem: Eksenleri uygun şekilde nasıl etiketleyebilirim? Not: Bu Reddit sorusunu okudum …

5
Çok sayıda veri noktasındaki değerlerin gösterimi nasıl yapılır?
Çok büyük bir veri setim var ve yaklaşık% 5 rasgele değerler eksik. Bu değişkenler birbiriyle ilişkilidir. Aşağıdaki örnek R veri kümesi sadece yapay korelasyonlu verilere sahip bir oyuncak örneğidir. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
Sadece mesafe matrisi ile PCA gerçekleştirmek
Sadece çift mesafelere sahip olduğum büyük bir veri kümesini kümelemek istiyorum. Bir k-medoid algoritması uyguladım, ancak çalışması çok uzun sürüyor, bu yüzden PCA'yı uygulayarak sorunumun boyutunu azaltarak başlamak istiyorum. Ancak, bu yöntemi gerçekleştirmenin tek yolu benim durumumda olmayan kovaryans matrisini kullanmaktır. PCA'yı sadece çift mesafeleri bilerek uygulamak için bir yol …


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.