ID (tekdüze veya normal) veriler için özdeğerlerin tahmini dağılımı


9

İle bir veri setim olduğunu varsayarsak d boyutlar (ör. d=20) böylece her boyut XiU[0;1] (alternatif olarak, her boyut XiN[0;1]) ve birbirinden bağımsız.

Şimdi bu veri kümesinden rastgele bir nesne çiziyorum ve k=3den yakın komşuları ve PCA'yı bu sette hesaplayın. Beklenenin aksine, özdeğerlerin hepsi aynı değildir. 20 boyutta tek tip, tipik bir sonuç şöyle görünür:

0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605, 
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128, 
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156, 
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625

Normal dağıtılmış veriler için, sonuçların en azından toplamı 1 ( N[0;1]d dağıtım açık bir şekilde daha yüksek bir varyansa sahiptir).

Acaba bu davranışı tahmin eden bir sonuç var mı? Özdeğer serileri biraz düzenli ise ve özdeğerlerden kaçının beklendiği gibi olduğunu ve hangilerinin beklenen değerlerden önemli ölçüde farklı olduğunu test ediyorum.

Belirli bir (küçük) örnek boyutu için k, iki değişken için bir korelasyon katsayısının anlamlı olması durumunda bir sonuç var mı? İid değişkenleri bile düşük için bazen 0 olmayan bir sonuç verecektirk.


1
hmmm, bu sonuçları daha az sig incir ile basabilir misiniz? Onları kolayca ayrıştıramıyorum ...
shabbychef

Gördüğünüz gibi büyüklük ilgi çekicidir. Saf olarak, herkesin aynı büyüklükte olmasını beklerdi.
QUIT - Anony-Mousse

Yanıtlar:


7

Rastgele matrisler için özdeğerlerin dağılımı hakkında geniş bir literatür vardır (rasgele matris teorisini araştırmayı deneyebilirsiniz). Özellikle, Marcenko-Pastur dağılımı, kovaryans matrisi için özdeğerlerin dağılımını tahmin eder.i.i.d.değişken ve gözlem sayısı sonsuz olduğu için ortalama sıfır ve eşit varyanslı veriler. Yakından ilişkili olan Wigner'in yarım daire dağılımıdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.