PCA'daki düşük varyans bileşenleri, gerçekten sadece gürültü mi? Bunu test etmenin bir yolu var mı?


18

Bir PCA bileşeninin korunup korunmayacağına karar vermeye çalışıyorum. Örneğin burada veya burada tarif edilen ve karşılaştırılan özdeğer büyüklüğüne dayanan bir milyarlarca kriter vardır .

Ancak benim başvurumda, küçük (est) öz değerin büyük (st) öz değere kıyasla küçük olacağını ve büyüklüğe dayalı kriterlerin hepsinin küçük (est) olanı reddedeceğini biliyorum. İstediğim bu değil. Ne ilgilendiğim: küçük özdeğer gerçek karşılık gelen bileşeni dikkate alır bilinen herhangi bir yöntem var, anlamda: gerçekten tüm ders kitaplarında ima gibi "sadece" gürültü veya potansiyel "bir şey" var mı faiz kaldı mı? Gerçekten gürültü ise, özdeğer büyüklüğünden bağımsız olarak çıkarın.

PCA'da bulamadığım bileşenler için bir tür yerleşik rastgelelik veya dağıtım testi var mı? Yoksa bunun aptalca bir fikir olması için bir neden biliyor mu?

Güncelleme

İki kullanım durumunda bileşenlerin histogramları (yeşil) ve normal yaklaşımları (mavi): bir kez muhtemelen gerçekten gürültü, bir kez muhtemelen "sadece" gürültü değil (evet, değerler küçüktür, ancak muhtemelen rastgele değildir). Her iki durumda da en büyük tekil değer ~ 160'tır, en küçük, yani bu tekil değer 0,0xx'dir - kesme yöntemlerinden herhangi biri için çok küçüktür.

Aradığım şey bunu resmileştirmenin bir yolu ...

muhtemelen gerçekten "sadece" gürültü muhtemelen gürültü değil ama ilginç bitler içerebilir


2
Belirttiğiniz testlerin birçoğu tam olarak istediğiniz özelliğe sahiptir: "gürültüyü" "sinyalden" ayırmaya çalışırlar.
whuber

2
Son zamanlarda benzer bir soru ile ilgileniyorum, ancak her bir veri noktası için birden fazla ölçümünüz olduğunda belirli bir durumda. Bkz . Her veri noktası için birden çok örnek mevcut olduğunda PCA bileşenlerinin sayısını seçme . Belki sizin durumunuz için de geçerlidir?
amip, Reinstate Monica'yı

Rastgele seslerine karar vermek için PC'lerde dağıtım testlerini kullanmak çok ilginç bir fikir olarak (daha önce hiç uygulanmadığımı gördüm); ICA'da benzer şekilde, özellikle maksimum Gauss olmayan bileşenleri arayan bir şey yapılır. PCA yapmak ve sonra "çok Gauss" olan bileşenleri atmak ICA aromasına sahiptir ve gerçekten işe yarayabilir!
amip: Reinstate Monica

Yanıtlar:


20

Küçük bir ana bileşenin (PC) rasgeleliğini test etmenin bir yolu, onu gürültü yerine bir sinyal gibi işlemektir: yani, onunla ilgilenen başka bir değişkeni tahmin etmeye çalışın. Bu esasen ana bileşenler regresyonudur (PCR) .

R,2MSE

  • PC'nin toplam 9, 1, 3, 4, 6, 7 ve 8'ini kullanan bir kimyasal mühendislik modeli ( Smith ve Campbell, 1980 )
  • 10 üzerinden 8, 2 ve 10 numaralı bilgisayarları (önem sırasına göre) kullanan bir muson modeli ( Kung & Sharif, 1980 )
  • PC'lerin 6'sından 4 ve 5'ini kullanan ekonomik bir model (Hill, Fomby ve Johnson, 1977)

Yukarıda listelenen örneklerde yer alan PC'ler, özdeğerlerinin sıralanan boyutlarına göre numaralandırılmıştır. Jolliffe (1982) , son bileşenin en çok katkıda bulunduğu bir bulut modelini tanımlamaktadır. Sonuç olarak:

Yukarıdaki örnekler, son birkaç temel bileşenin temel bileşen regresyonunda önemli olabilmesi için belirsiz veya tuhaf verilerin bulunmasının gerekli olmadığını göstermiştir. Daha ziyade, bu tür örneklerin pratikte oldukça yaygın olabileceği görülmektedir. Hill ve diğ. (1977), yalnızca fikir büyüklüğüne dayalı olarak seçim fikrini sonsuza dek gömmesi gereken temel bileşenleri seçmek için stratejiler hakkında kapsamlı ve faydalı bir tartışma sunar. Ne yazık ki bu gerçekleşmemiş gibi görünüyor ve fikir belki de 20 yıl öncesine göre daha yaygın.

SS

(p-1)Y

X

Bu cevabı, PCR'deki PC seçimi hakkındaki kendi yanılgılarımı bazı çok yararlı yorumlarla düzelten @Scortchi'ye borçluyum : " Jolliffe (2010) PC'leri seçmenin diğer yollarını gözden geçiriyor ." Bu referans daha fazla fikir aramak için iyi bir yer olabilir.

Referanslar

- Gunst, RF ve Mason, RL (1977). Regresyonda önyargılı tahmin: ortalama kare hatası kullanılarak yapılan bir değerlendirme. Amerikan İstatistik Derneği Dergisi, 72 (359), 616-628.
- Hadi, AS ve Ling, RF (1998). Temel bileşenler regresyonunun kullanımı hakkında bazı uyarıcı notlar. Amerikan İstatistikçi, 52 (1), 15–19. Http://www.uvm.edu/~rsingle/stat380/F04/possible/Hadi+Ling-AmStat-1998_PCRegression.pdf adresinden erişildi .
- Hawkins, DM (1973). Temel bileşen analizi ile alternatif regresyonların araştırılması. Uygulamalı İstatistik, 22 (3), 275-286.
- Hill, RC, Fomby, TB ve Johnson, SR (1977). Temel bileşen regresyonu için bileşen seçim normları.İstatistikte İletişim - Teori ve Yöntemler, 6 (4), 309-334.
- Hotelling, H. (1957). Daha yeni çok değişkenli istatistiksel yöntemlerin faktör analizi ile ilişkisi. İngiliz İstatistik Psikolojisi Dergisi, 10 (2), 69-79.
- Jackson, E. (1991). Birincil bileşenler için bir kullanım kılavuzu . New York: Wiley.
- Jolliffe, IT (1982). Regresyonda ana bileşenlerin kullanımı hakkında not. Uygulamalı İstatistik, 31 (3), 300-303. Http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf adresinden erişildi .
- Jolliffe, BT (2010).Temel bileşenler analizi (2. baskı). Springer. - Mason, RL ve Gunst, RF (1985). Regresyonda temel bileşenlerin seçilmesi. İstatistik ve Olasılık Mektupları, 3 (6), 299-301.
- Kung, EC ve Sharif, TA (1980). Önceden üst hava koşulları ile Hint yaz musonunun başlangıcında regresyon tahmini. Uygulamalı Meteoroloji Dergisi, 19 (4), 370-380. Http://iri.columbia.edu/~ousmane/print/Onset/ErnestSharif80_JAS.pdf adresinden erişildi .
- Lott, WF (1973). En küçük kareler regresyonunda en uygun temel bileşen kısıtlamaları kümesi. İstatistikte İletişim - Teori ve Yöntemler, 2 (5), 449-464. - Massy, ​​WF (1965). Açımlayıcı istatistiksel araştırmalarda temel bileşenler regresyonu. Amerikan İstatistik Derneği Dergisi, 60 (309), 234-256. Alınan

adresinden .
- Smith, G. ve Campbell, F. (1980). Bazı sırt regresyon yöntemlerinin eleştirisi. Amerikan İstatistik Derneği Dergisi, 75 (369), 74–81. Https://cowles.econ.yale.edu/P/cp/p04b/p0496.pdf adresinden erişildi .


4
... ve sorununuzu çözmek için gereken etkinin sadece gürültü wrt olan diğer efektlerden daha büyük olduğunu garanti etmez. eldeki sorun. Bazı fiziksel etkiler nedeniyle varyansın% 95'inin gürültü olduğu verileri gördüm ...
cbeleites Monica'yı destekliyor

3
Çok güzel yorum, ama (maalesef yine kelime oyunu) hızı Hadi & Ling yanıta güçlü ilişkiye dayalı bir gerileme içinde tutmak için PC'ler seçerek yanıta güçlü ilişkiye dayalı orijinal yordayıcılarını seçme gibi tehlikeli gibidir. Çapraz doğrulama esastır ve büzülme tercih edilir. Şahsen, PCA'nın, tahminciler üzerindeki veri azaltımını yönlendirmek, yanıtı körleştirmek, örneğin aynı şeyi ölçen ilk tahmin gruplarının PC'sini kullanmak veya değişken kümeleme ile belirlemek için konu bilgisiyle birlikte makul bir PCA kullanımını tercih ederim.
Scortchi - Monica'yı eski durumuna döndürün

2
+1 (uzun zaman önce) bu cevaba, ancak şimdi bu konuyu inceledikten sonra, bu cevabın orijinal soruya neredeyse hiç cevap vermediğini söylemeliyim: OP, yargılamak için bileşenler üzerinde herhangi bir dağıtım testi kullanıp kullanamayacağını soruyordu rastgele olmaları. Ayrıca OP için son yorumuma bakın.
amip: Reinstate Monica

2

@Nick Stauner'in cevabına ek olarak, altuzay kümelenmesi ile uğraşırken PCA genellikle kötü bir çözümdür.

PCA kullanılırken, çoğunlukla verinin en fazla 'gerildiği' yönleri temsil eden, en yüksek özdeğerlere sahip özvektörlerle ilgilenilir. Verileriniz küçük alt alanlardan oluşuyorsa, PCA genel veri varyansına fazla katkıda bulunmadığı için bunları önemsenmeyecektir.

Bu nedenle, küçük özvektörler her zaman saf gürültü değildir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.