«pca» etiketlenmiş sorular

Temel bileşen analizi (PCA) doğrusal boyutsallık azaltma tekniğidir. Çok değişkenli bir veri kümesini olabildiğince fazla bilgi (varyans) koruyan daha küçük bir yapılandırılmış değişken grubuna indirger. Temel bileşenler olarak adlandırılan bu değişkenler, giriş değişkenlerinin doğrusal kombinasyonlarıdır.


2
Temel Bileşen Analizi hisse senedi fiyatları / sabit olmayan veriler üzerinde kullanılabilir mi?
Hackerlar için Machine Learning adlı kitapta verilen bir örneği okuyorum . Önce örnek üzerinde duracağım ve sonra sorum hakkında konuşacağım. Örnek : 10 yıllık 25 hisse fiyatı için bir veri kümesi alır. PCA'yı 25 hisse fiyatında çalıştırıyor. Ana bileşeni Dow Jones Endeksi ile karşılaştırır. PC ve DJI arasında çok güçlü …

1
PCA ile sadece büyük çift mesafeleri koruyarak ne kastedilmektedir?
Şu anda t-SNE görselleştirme tekniğini okuyorum ve yüksek boyutlu verileri görselleştirmek için temel bileşen analizini (PCA) kullanmanın dezavantajlarından birinin, noktalar arasındaki sadece büyük çift mesafeleri koruduğu belirtildi. Yüksek boyutlu uzayda birbirinden ayrı olan anlam noktaları, düşük boyutlu altuzayda da çok farklı görünecektir, ancak diğer tüm çift mesafeler vidalanacaktır. Birisi bunun …

1
Büyük ölçekli PCA bile mümkün müdür?
Temel bileşen analizi '(PCA) klasik yolu bunu sütunların sıfır ortalaması olan bir giriş veri matrisinde yapmaktır (o zaman PCA "varyansı en üst düzeye çıkarabilir"). Bu sütunları ortalayarak kolayca gerçekleştirilebilir. Bununla birlikte, giriş matrisi seyrek olduğunda, ortalanmış matris artık daha seyrek olacaktır ve - eğer matris çok büyükse - artık belleğe …

1
Neden tüm PLS bileşenleri birlikte orijinal verilerin varyansının sadece bir kısmını açıklıyor?
10 değişkenli bir veri setim var. Bu 10 değişkenle tek bir yanıt değişkenini tahmin etmek için kısmi en küçük kareler (PLS) çalıştırdım, 10 PLS bileşenini çıkardım ve daha sonra her bileşenin varyansını hesapladım. Orijinal verilerde, tüm değişkenlerin 702 olan varyanslarının toplamını aldım. Sonra PLS tarafından açıklanan varyansın yüzdesini elde etmek …

1
Boyutsallık gözlem sayısından daha büyük olduğunda PCA hala kovaryans matrisinin öz bileşimi yoluyla mı yapılıyor?
Ben bir matris , benim içeren N = 20 numuneleri D = 100 boyutlu alan. Şimdi Matlab'da kendi temel bileşen analizimi (PCA) kodlamak istiyorum. Ben küçük düşürmek X için X_0 ilk.X N = 20 D = 100 X X 020×10020×10020\times100XXXN=20N=20N=20D=100D=100D=100XXXX0X0X_0 Birinin kodundan, gözlemlerden daha fazla boyuta sahip olduğumuz senaryolarda, artık …
10 pca 

2
Sınıflandırma amacıyla verileri test etmek için PCA uygulama
Geçenlerde harika PCA'yı öğrendim ve scikit-öğren belgelerinde ana hatlarıyla verilen örneği yaptım . Sınıflandırma amacıyla PCA'yı yeni veri noktalarına nasıl uygulayabileceğimi bilmek istiyorum. PCA'yı 2 boyutlu bir düzlemde (x, y ekseni) görselleştirdikten sonra, muhtemelen bir tarafı bir sınıflandırma diğeri başka bir sınıflandırma olacak şekilde veri noktalarını ayırmak için bir çizgi …

1
Özvektörlerin görsel açıklaması hakkında karıştı: görsel olarak farklı veri kümeleri aynı özvektörlere nasıl sahip olabilir?
Birçok istatistik ders kitabı, bir kovaryans matrisinin özvektörlerinin neler olduğunu sezgisel bir şekilde göstermektedir: U ve z vektörleri özvektörleri oluşturur (çukur, özler). Bu mantıklı. Ama beni şaşırtan tek şey, özvektörleri ham verilerden değil korelasyon matrisinden çıkarmamızdır. Ayrıca, oldukça farklı olan ham veri kümelerinin özdeş korelasyon matrisleri olabilir. Örneğin, aşağıdakilerin her …

2
Bileşen sayısını seçmek için PCA uyumunun kalitesini değerlendirmek için iyi metrikler nelerdir?
Temel bileşen analizinin (PCA) kalitesini değerlendirmek için iyi bir ölçüm nedir? Bu algoritmayı veri kümesinde gerçekleştirdim. Amacım özellik sayısını azaltmaktı (bilgi çok gereksizdi). Tutulan varyans yüzdesinin ne kadar bilgi tuttuğumuzun iyi bir göstergesi olduğunu biliyorum, gereksiz bilgileri kaldırdığımı ve bu tür bilgileri 'kaybetmediğimden emin olmak için kullanabileceğim başka bilgi metrikleri …


1
İnsanların ilgilendiği alanlara ilişkin bir anketten gelen bu PCA biplotunu nasıl yorumlayabilirim?
Tarihsel Bilgiler: Araştırmamdaki yüzlerce katılımcıya seçilen alanlarla ne kadar ilgilendiklerini sordum (beş puan Likert ölçeğine göre 1 puan "ilgilenmiyorum" ve 5 puan "ilgileniyor" şeklinde). Sonra PCA'yı denedim. Aşağıdaki resim ilk iki temel bileşene bir izdüşümdür. Renkler cinsiyetler için kullanılır ve PCA okları orijinal değişkenlerdir (yani ilgi alanları). Onu farkettim: Noktalar …

3
Tutulacak ana bileşen sayısını seçme
Bana önerilen bir yöntem, bir eğri çizgi grafiğine bakmak ve kullanılacak doğru PC sayısını belirlemek için "dirsek" olup olmadığını kontrol etmektir. Ancak grafik net değilse, R'nin sayıyı belirlemek için bir hesaplaması var mı? fit <- princomp(mydata, cor=TRUE)
10 r  pca 

1
Anova () ve drop1 () neden GLMM'ler için farklı cevaplar verdi?
Formun bir GLMM var: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Kullandığımda , araç paketinden veya drop1(model, test="Chi")kullandığımdan farklı sonuçlar alıyorum . Bu son ikisi aynı cevapları verir.Anova(model, type="III")summary(model) Bir grup uydurma veri kullanarak, bu iki yöntemin normalde farklı olmadığını gördüm. Dengeli doğrusal …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 



Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.