İle bir veri setim olduğunu varsayarsak boyutlar (ör. ) böylece her boyut (alternatif olarak, her boyut ) ve birbirinden bağımsız.
Şimdi bu veri kümesinden rastgele bir nesne çiziyorum ve en yakın komşuları ve PCA'yı bu sette hesaplayın. Beklenenin aksine, özdeğerlerin hepsi aynı değildir. 20 boyutta tek tip, tipik bir sonuç şöyle görünür:
0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605,
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128,
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156,
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625
Normal dağıtılmış veriler için, sonuçların en azından toplamı ( dağıtım açık bir şekilde daha yüksek bir varyansa sahiptir).
Acaba bu davranışı tahmin eden bir sonuç var mı? Özdeğer serileri biraz düzenli ise ve özdeğerlerden kaçının beklendiği gibi olduğunu ve hangilerinin beklenen değerlerden önemli ölçüde farklı olduğunu test ediyorum.
Belirli bir (küçük) örnek boyutu için , iki değişken için bir korelasyon katsayısının anlamlı olması durumunda bir sonuç var mı? İid değişkenleri bile düşük için bazen 0 olmayan bir sonuç verecektir.